python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容_框架

#!/usr/bin/env python

# coding:utf-8

from bs4 import BeautifulSoup

#这个data 可以替换成你的 div=soupfind_all('div',class_="star")

#取的时候记得循环处理

data = '''

<div>

1

2

3

4

</div>

'''

soup = BeautifulSoup(data, 'lxml')

spans = soupfind_all('span')

span_content=[]

for i in spans:

print i ,itext #这里取标签span的内容

span_contentappend(itext)

print span_content

------------------------

1 1

2 2

3 3

4 4

[u'1', u'2', u'3', u'4']

1、编写爬虫思路：

确定下载目标，找到网页，找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明：

1）确定网络中需要的信息，打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息，我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response，文字信息都包含在response中。

对于需要输入的信息，可以使用ctrl+f，进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取，可以使用最左边的箭头点击超链接，这时Elements会打开有该条超链接的信息，从中判断需要提取的信息。从下载小说来看，在目录页提取出小说的链接和章节名。

2）注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

我用Jsoup写爬虫，一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的>

以上就是关于python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容全部的内容，包括:python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容、python怎么抓取网页中DIV的文字、java爬虫怎么抓取js动态生成的内容等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9585280.html

python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容

发表评论

评论列表（0条）