python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容

python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容,第1张

#!/usr/bin/env python

# coding:utf-8

from bs4 import BeautifulSoup

#这个data 可以替换成你的 div=soupfind_all('div',class_="star")

#取的时候 记得循环处理

data = '''

    <div>

    <span class='a' protype='d'>1</span>

    <span class='a' protype='d'>2</span>

    <span class='a' protype='d'>3</span>

    <span class='a' protype='d'>4</span>

    </div>

'''

soup = BeautifulSoup(data, 'lxml')

spans = soupfind_all('span')

span_content=[]

for i in spans:

    print i ,itext #这里取标签span的内容

    span_contentappend(itext)

print span_content

------------------------

<span class="a" protype="d">1</span> 1

<span class="a" protype="d">2</span> 2

<span class="a" protype="d">3</span> 3

<span class="a" protype="d">4</span> 4

[u'1', u'2', u'3', u'4']

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理,提取标签

html = BeautifulSoup(responsetext, 'htmlparser')

body = htmlbody       # 获取body部分数据

div = bodyfind("div",{'id','today'}) #用find去找div标签,id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = bodyfind("input",id='hidden_title')['value']

一、爬取我们所需要的一线链接

channel_extractpy

这里的一线链接也就是我们所说的大类链接:

from bs4 import BeautifulSoupimport requests

start_url = '>

html = """<span class='red'>item1</span><div> <span id='s1'>item2</span></div>"""# 使用 scrapy 的Selectorfrom scrapyselector import Selector # scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识,# 会发现Selector(text=html)css('span::text')extract()# 输出 : ['item1','item2']Selector(text=html)css('span#s1::text')extract()# 输出 : ['item2']Selector(text=html)css('div>span::text')extract()# 输出 : ['item2'] # 使用bs4from bs4 import BeautifulSoup soup = BeautifulSoup(html,'htmlparser')sl = soupfind_all("span")result = [spanget_text() for span in sl]print(result)# ['item1', 'item2']

以上就是关于python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容全部的内容,包括:python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容、Python爬虫怎么循环截取html标签中间的内容、python可以爬取什么数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/9827576.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-02
下一篇 2023-05-02

发表评论

登录后才能评论

评论列表(0条)

保存