处理cookie与爬虫有关吗?

处理cookie与爬虫有关吗?,第1张

有。cookie与爬虫的关系是非常紧密的,所以两者是有关的,cookies和爬虫之间的关联有时,对一张页面进行请求的时候,如果请求过程中不携带cookie的话,那么用户就无法请滚桐求到正确的页大腊坦面局派数据。

       NodeJS做爬虫也是很方便的。因为nodejs有HTTP模块直接可以使用,而且还有很多简单粗举氏暴的库可以即拿即用。

      首先,需要的库文件,

      1、superagent 是个轻量的的 http 方面哗团的库,就像jquery的post,和get一样,很简单。

      2、cheerio 是一个服务端 *** 作DOM的库,简直就是服务端的jquery。

     好的,我们需要抓取某个网站的题目。如下图。这正芦散个系统下,及时是游客状态也是可以查看题目的,只是答案我们看不到。会显示我没有登录。

现在我们有个需求,先抓取15页,根据URL的参数可以页数就是地址中 的P。并且要有本地cookie,获取cookie的方法,最简单的是,利用浏览器登录网站之后,在控制台直接打印document.cookie,得到之后,复制进txt文本。用fs模块读取并转换成字符串。在superagent请求时,把cookie传进去。

好了,控制台已经不输出“未登录”,说明已经登录成功了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12306986.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-24
下一篇 2023-05-24

发表评论

登录后才能评论

评论列表(0条)

保存