前端js爬虫

经典英文歌曲100首 • 2023-4-29 • 框架 • 阅读 7

纯粹前端的js 是不能跨域获取 cookie的

xxxcom 的js 代码只能得到 xxxcom的cookie，拿不到 yyycom

当然如果你有办法在 yyycom 写入受到自己控制的 html文件，你就可以写代码去拿到对应的cookie，但看你的需求应该你没有yyycom 的权限

所以要结合其他方案，推荐一下两种：

使用 electron ，electron 你可以认为是受js控制的浏览器引擎，所以你可以用它访问 yyycom 拿到cookie，再接着做你的事情

或者使用 puppeteer（Google 官方出品的 headless Chrome node 库）

Puppeteer 提供了一系列的 API，可以在无 UI 的情况下调用 Chrome 的各种功能，适用于爬虫、自动化处理等各种情景。

抓取动态页面有两种常用的方法，一是通过JavaScript逆向工程获取动态数据接口（真实的访问路径），另一种是利用selenium库模拟真实浏览器，获取JavaScript渲染后的内容。但selenium库用起来比较繁琐，抓取速度相对较慢，所以第一种方法日常使用较多。

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

以上就是关于前端js爬虫全部的内容，包括:前端js爬虫、怎么爬取网页的动态内容，很多都是js动态生、如何用python爬虫直接获取被js修饰过的网页Elements等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/web/9567145.html

爬虫动态你的相关内容你可以

打赏

微信扫一扫

支付宝扫一扫

经典英文歌曲100首一级用户组

C#中windows 服务怎么与运行的桌面程序通信

上一篇 2023-04-29

delphi 怎么在WebBrowser控件里获得光标的位置

下一篇 2023-04-29

发表评论

登录后才能评论

评论列表（0条）