爬取到的HTML文件如何解析获取其中的URL链接

爬取到的HTML文件如何解析获取其中的URL链接,第1张

用 WebEngine 载入这些文件,然后 getDocument()getElementsByTagName('A') 拿出所有 a。你也可以用 executeScript 执行 JavaScript,例如说执行 Java 中没有的 querySelector。这其实是 Java 问题,而不是 JS 问题,往那边问会比较适合。

import urllib2

import re

html_page = urllib2urlopen("xxxxx")

soup = BeautifulSoup(html_page)

for link in soupfindAll('a'):

print linkget('href')

1、设置或获取对象指定的文件名或路径。

2、设置或获取整个URL为字符串。

3、设置或获取与URL关联的端口号码。

4,设置或获取URL的协议部分。

5,设置或获取href属性中在井号“#”后面的分段。

6,设置或获取location或URL的hostname和port号码。

7,设置或获取href属性中跟在问号后面的部分。

8、获取变量的值(截取等号后面的部分)。

9、用来得到当前网页的域名。

<script language='javascript'>

var currentUrl = thislocationhref

</script>

以上就是关于爬取到的HTML文件如何解析获取其中的URL链接全部的内容,包括:爬取到的HTML文件如何解析获取其中的URL链接、如何用 HTMLParser 提取一个网页的所有url、html如何获取当前屏页面内的link等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/9399802.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存