如何使用Python从HTML获得href链接?

如何使用Python从HTML获得href链接?,第1张

如何使用Python从HTML获得href链接

尝试使用Beautifulsoup:

from BeautifulSoup import BeautifulSoupimport urllib2import rehtml_page = urllib2.urlopen("http://www.yourwebsite.com")soup = BeautifulSoup(html_page)for link in soup.findAll('a'):    print link.get('href')

如果您只想要以开头的链接

http://
,则应使用:

soup.findAll('a', attrs={'href': re.compile("^http://")})

带有BS4的Python 3中,它应该是:

from bs4 import BeautifulSoupimport urllib.requesthtml_page = urllib.request.urlopen("http://www.yourwebsite.com")soup = BeautifulSoup(html_page, "html.parser")for link in soup.findAll('a'):    print(link.get('href'))


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5641080.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存