Python模块BeautifulSoup提取锚点href

Python模块BeautifulSoup提取锚点href,第1张

概述我正在使用BeautifulSoup模块以这种方式从html中选择所有href:def extract_links(html): soup = BeautifulSoup(html) anchors = soup.findAll('a') print anchors links = [] for a in anchors: lin

我正在使用BeautifulSoup模块以这种方式从HTML中选择所有href:

def extract_links(HTML):  soup = BeautifulSoup(HTML)  anchors = soup.findAll('a')  print anchors  links = []  for a in anchors:    links.append(a['href'])  return links

但有时它失败了这个错误信息:

Traceback (most recent call last):file "C:\py\main.py",line 33,in 
最佳答案并非所有锚标签都具有href属性.在尝试访问该属性之前,应检查锚是否具有href.

if a.has_key('href')  links.append(a['href'])

在这里查看了一些评论后,我认为这是处理这种情况的最pythonic方式. 总结

以上是内存溢出为你收集整理的Python模块BeautifulSoup提取锚点href全部内容,希望文章能够帮你解决Python模块BeautifulSoup提取锚点href所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1123729.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-30
下一篇 2022-05-30

发表评论

登录后才能评论

评论列表(0条)