Python爬虫怎么循环截取html标签中间的内容？_随笔

如果是中间的数据直接就用bs4最简单

from bs4 import BeautifulSoup

#这里是请求过来的额数据处理，提取标签

html = BeautifulSoup(response.text, 'html.parser')

body = html.body # 获取body部分数据

div = body.find("div",{'id','today'}) #用find去找div标签，id叫 today的标签里面的数据

就可以了

如果要提取标签内容比如value的值

div = body.find("input",id='hidden_title')['value']

1、首先打开hbuilder软件，新建一个html文件，里面写入一个p标签和一个按钮标签。

2、然后在p标签的下方设置一个script标签，里面写入js胆码；先获取p标签和按钮的dom对象，然后给按钮添加一个点击事件，再点击事件爱的回调中alertp标签的text属性即可。

3、最后打开浏览器，可以看到一段文字和一个按钮，点击这个按钮。

4、就可以d出内容了。

Python用做数据处理还是相当不错的，如果你想要做爬虫，Python是很好的选择，它有很多已经写好的类包，只要调用，即可完成很多复杂的功能，此文中所有的功能都是基于BeautifulSoup这个包。

1 Pyhton获取网页的内容(也就是源代码)

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码 print(contents)

url代表网址，contents代表网址所对应的源代码，urllib2是需要用到的包，以上三句代码就能获得网页的整个源代码

2 获取网页中想要的内容(先要获得网页源代码，再分析网页源代码，找所对应的标签，然后提取出标签中的内容)

欢迎分享，转载请注明来源：内存溢出

Python爬虫怎么循环截取html标签中间的内容？