python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容

python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容,第1张

#!/usr/bin/env python

# coding:utf-8

from bs4 import BeautifulSoup

#这个data 可以替换成你的 div=soupfind_all('div',class_="star")

#取的时候 记得循环处理

data = '''

    <div>

    <span class='a' protype='d'>1</span>

    <span class='a' protype='d'>2</span>

    <span class='a' protype='d'>3</span>

    <span class='a' protype='d'>4</span>

    </div>

'''

soup = BeautifulSoup(data, 'lxml')

spans = soupfind_all('span')

span_content=[]

for i in spans:

    print i ,itext #这里取标签span的内容

    span_contentappend(itext)

print span_content

------------------------

<span class="a" protype="d">1</span> 1

<span class="a" protype="d">2</span> 2

<span class="a" protype="d">3</span> 3

<span class="a" protype="d">4</span> 4

[u'1', u'2', u'3', u'4']

1、编写爬虫思路:

确定下载目标,找到网页,找到网页中需要的内容。对数据进行处理。保存数据。

2、知识点说明:

1)确定网络中需要的信息,打开网页后使用F12打开开发者模式。

在Network中可以看到很多信息,我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response,文字信息都包含在response中。

对于需要输入的信息,可以使用ctrl+f,进行搜索。查看信息前后包含哪些特定字段。

对于超链接的提取,可以使用最左边的箭头点击超链接,这时Elements会打开有该条超链接的信息,从中判断需要提取的信息。从下载小说来看,在目录页提取出小说的链接和章节名。

2)注意编码格式

输入字符集一定要设置成utf-8。页面大多为GBK字符集。不设置会乱码。

我用Jsoup写爬虫,一般遇到html返回没有的内容。但是浏览器显示有的内容。都是分析页面的>

以上就是关于python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容全部的内容,包括:python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容、python怎么抓取网页中DIV的文字、java爬虫怎么抓取js动态生成的内容等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9585280.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存