#!/usr/bin/env python
# coding:utf-8
from bs4 import BeautifulSoup
#这个data 可以替换成你的 div=soupfind_all('div',class_="star")
#取的时候 记得循环处理
data = '''
<div>
<span class='a' protype='d'>1</span>
<span class='a' protype='d'>2</span>
<span class='a' protype='d'>3</span>
<span class='a' protype='d'>4</span>
</div>
'''
soup = BeautifulSoup(data, 'lxml')
spans = soupfind_all('span')
span_content=[]
for i in spans:
span_contentappend(itext)
print span_content
------------------------
<span class="a" protype="d">1</span> 1
<span class="a" protype="d">2</span> 2
<span class="a" protype="d">3</span> 3
<span class="a" protype="d">4</span> 4
[u'1', u'2', u'3', u'4']
1、编写爬虫思路:
确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。
2、知识点说明:
1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。
在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。
对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。
对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。
2)注意编码格式
输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。
我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的>
以上就是关于python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容全部的内容,包括:python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容、python怎么抓取网页中DIV的文字、java爬虫怎么抓取js动态生成的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)