我正在使用Python.我已经在HTML页面上为此目的尝试了BeautifulSoup并且它可以工作,但是在解析包含大量JavaScript的网站时我很困难,因为关于这些文件的大多数信息都存储在< script>中.标签.
任何想法如何做到这一点?
@R_404_6120@ 首先,从页面中删除和解析Js并非易事.但是,如果您使用无头Web客户端,它可以大大简化,它将像普通浏览器一样为您解析所有内容.唯一的区别是它的主界面不是GUI / HMI而是API.
一个例子是Ghost.py – 一个用python编写的webkit web客户端.
当然还有其他选择.您可以将Qt的QWebKit用于相同的目的,如this example所示.
您可以找到更完整的无头浏览器列表here.
总结以上是内存溢出为你收集整理的刮HTML和JavaScript全部内容,希望文章能够帮你解决刮HTML和JavaScript所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)