#!/usr/bin/env python
# coding:utf-8
from bs4 import BeautifulSoup
#这个data 可以替换成你的 div=soupfind_all('div',class_="star")
#取的时候 记得循环处理
data = '''
<div>
<span class='a' protype='d'>1</span>
<span class='a' protype='d'>2</span>
<span class='a' protype='d'>3</span>
<span class='a' protype='d'>4</span>
</div>
'''
soup = BeautifulSoup(data, 'lxml')
spans = soupfind_all('span')
span_content=[]
for i in spans:
span_contentappend(itext)
print span_content
------------------------
<span class="a" protype="d">1</span> 1
<span class="a" protype="d">2</span> 2
<span class="a" protype="d">3</span> 3
<span class="a" protype="d">4</span> 4
[u'1', u'2', u'3', u'4']
如果是中间的数据直接就用bs4最简单
from bs4 import BeautifulSoup
#这里是请求过来的额数据处理,提取标签
html = BeautifulSoup(responsetext, 'htmlparser')
body = htmlbody # 获取body部分数据
div = bodyfind("div",{'id','today'}) #用find去找div标签,id叫 today的标签里面的数据
就可以了
如果要提取标签内容比如value的值
div = bodyfind("input",id='hidden_title')['value']
一、爬取我们所需要的一线链接
channel_extractpy
这里的一线链接也就是我们所说的大类链接:
from bs4 import BeautifulSoupimport requests
start_url = '>
html = """<span class='red'>item1</span><div> <span id='s1'>item2</span></div>"""# 使用 scrapy 的Selectorfrom scrapyselector import Selector # scrapy 的选择器支持 css和xpath选择。下面是css选择器。如果你了解前端JQuery的知识,# 会发现Selector(text=html)css('span::text')extract()# 输出 : ['item1','item2']Selector(text=html)css('span#s1::text')extract()# 输出 : ['item2']Selector(text=html)css('div>span::text')extract()# 输出 : ['item2'] # 使用bs4from bs4 import BeautifulSoup soup = BeautifulSoup(html,'htmlparser')sl = soupfind_all("span")result = [spanget_text() for span in sl]print(result)# ['item1', 'item2']
以上就是关于python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容全部的内容,包括:python爬虫,用find_all()找到某一标签后,怎么获取下面数个同名子标签的内容、Python爬虫怎么循环截取html标签中间的内容、python可以爬取什么数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)