用 WebEngine 载入这些文件,然后 getDocument()getElementsByTagName('A') 拿出所有 a。你也可以用 executeScript 执行 JavaScript,例如说执行 Java 中没有的 querySelector。这其实是 Java 问题,而不是 JS 问题,往那边问会比较适合。
import urllib2
import re
html_page = urllib2urlopen("xxxxx")
soup = BeautifulSoup(html_page)
for link in soupfindAll('a'):
print linkget('href')
1、设置或获取对象指定的文件名或路径。
2、设置或获取整个URL为字符串。
3、设置或获取与URL关联的端口号码。
4,设置或获取URL的协议部分。
5,设置或获取href属性中在井号“#”后面的分段。
6,设置或获取location或URL的hostname和port号码。
7,设置或获取href属性中跟在问号后面的部分。
8、获取变量的值(截取等号后面的部分)。
9、用来得到当前网页的域名。
<script language='javascript'>
var currentUrl = thislocationhref
</script>
以上就是关于爬取到的HTML文件如何解析获取其中的URL链接全部的内容,包括:爬取到的HTML文件如何解析获取其中的URL链接、如何用 HTMLParser 提取一个网页的所有url、html如何获取当前屏页面内的link等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)