bs4解析拉勾网网页

extend • 2022-5-22 • 随笔 • 阅读 400

from urllib.request import urlopen from bs4 import BeautifulSoup as BS url = "http://www.lagou.com" # (1)获取response对象 response = urlopen(url) # (2)获得response对象下的源码 html = response.read().decode() # (3)创建BS对象 bs = BS(html,"html.parser") # (4)信息提取 a_list = bs.select("a") for i in a_list: print(i) # select和find find_all完全同bs对象下的方法一致，也就是可以对i进行进一步的标签分析 # print(i.select("font")) # print(type(i)) # 1)i.get(key) key代表传入的属性 # print(i.get("href")) # 2)获得标签中间夹的文件内容 print(i.text)

bs4解析拉勾网网页

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/1006990.html

传入解析对象标签网页

打赏

微信扫一扫

支付宝扫一扫

extend 一级用户组

0 0

PHP--有4个数字：1、2、3、4，能组成多少个互不相同且不重复数字的三位数？各是多少

上一篇 2022-05-22

flink解析canal-json数据

下一篇 2022-05-22

发表评论

登录后才能评论

bs4解析拉勾网网页

发表评论

评论列表（0条）