刮HTML和JavaScript

刮HTML和JavaScript,第1张

概述我正在开展一个项目,我需要抓取几个网站并从中收集不同类型的信息.文本,链接,图像等信息 我正在使用Python.我已经在HTML页面上为此目的尝试了BeautifulSoup并且它可以工作,但是在解析包含大量JavaScript的网站时我很困难,因为关于这些文件的大多数信息都存储在< script>中.标签. 任何想法如何做到这一点? 首先,从页面中删除和解析JS并非易事.但是,如果您使用无头We 我正在开展一个项目,我需要抓取几个网站并从中收集不同类型的信息.文本,链接,图像等信息

我正在使用Python.我已经在HTML页面上为此目的尝试了BeautifulSoup并且它可以工作,但是在解析包含大量JavaScript的网站时我很困难,因为关于这些文件的大多数信息都存储在< script>中.标签.

任何想法如何做到这一点?

@R_404_6120@ 首先,从页面中删除和解析Js并非易事.但是,如果您使用无头Web客户端,它可以大大简化,它将像普通浏览器一样为您解析所有内容.
唯一的区别是它的主界面不是GUI / HMI而是API.

一个例子是Ghost.py – 一个用python编写的webkit web客户端.

当然还有其他选择.您可以将Qt的QWebKit用于相同的目的,如this example所示.

您可以找到更完整的无头浏览器列表here.

总结

以上是内存溢出为你收集整理的刮HTML和JavaScript全部内容,希望文章能够帮你解决刮HTML和JavaScript所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/1077741.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-27
下一篇 2022-05-27

发表评论

登录后才能评论

评论列表(0条)

保存