python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容_框架

#!/usr/bin/env python

# coding:utf-8

from bs4 import BeautifulSoup

#这个data 可以替换成你的 div=soupfind_all('div',class_="star")

#取的时候记得循环处理

data = '''

<div>

1

2

3

4

</div>

'''

soup = BeautifulSoup(data, 'lxml')

spans = soupfind_all('span')

span_content=[]

for i in spans:

print i ,itext #这里取标签span的内容

span_contentappend(itext)

print span_content

------------------------

1 1

2 2

3 3

4 4

[u'1', u'2', u'3', u'4']

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理，提取标签

html = BeautifulSoup(responsetext, 'htmlparser')

body = htmlbody # 获取body部分数据

div = bodyfind("div",{'id','today'}) #用find去找div标签，id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = bodyfind("input",id='hidden_title')['value']

一、爬取我们所需要的一线链接

channel_extractpy

这里的一线链接也就是我们所说的大类链接：

from bs4 import BeautifulSoupimport requests

start_url = '>

html = """item1<div> item2</div>"""# 使用 scrapy 的Selectorfrom scrapyselector import Selector # scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识，# 会发现Selector(text=html)css('span::text')extract()# 输出 : ['item1','item2']Selector(text=html)css('span#s1::text')extract()# 输出 : ['item2']Selector(text=html)css('div>span::text')extract()# 输出 : ['item2'] # 使用bs4from bs4 import BeautifulSoup soup = BeautifulSoup(html,'htmlparser')sl = soupfind_all("span")result = [spanget_text() for span in sl]print(result)# ['item1', 'item2']

以上就是关于python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容全部的内容，包括:python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容、Python爬虫怎么循环截取html标签中间的内容、python可以爬取什么数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9827576.html

python爬虫，用find_all()找到某一标签后，怎么获取下面数个同名子标签的内容

发表评论

评论列表（0条）