bs4解析拉勾网网页

bs4解析拉勾网网页,第1张

 

from urllib.request import urlopen from bs4 import BeautifulSoup as BS url = "http://www.lagou.com" # (1)获取response对象 response = urlopen(url) # (2)获得response对象下的源码 html = response.read().decode() # (3)创建BS对象 bs = BS(html,"html.parser") # (4)信息提取 a_list = bs.select("a") for i in a_list: print(i) # select和find find_all完全同bs对象下的方法一致,也就是可以对i进行进一步的标签分析 # print(i.select("font")) # print(type(i)) # 1)i.get(key) key代表传入的属性 # print(i.get("href")) # 2)获得标签中间夹的文件内容 print(i.text)

 

bs4解析拉勾网网页

欢迎分享,转载请注明来源:内存溢出

原文地址:https://outofmemory.cn/mo/1006990.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-22
下一篇2022-05-22

随机推荐

发表评论

登录后才能评论

评论列表(0条)

    保存