如何应对网站反爬虫策略？如何高效地爬大量数据_服务器

一般有一下几种
一些常用的方法
IP代理
对于IP代理,各个语言的Native Request API都提供的IP代理响应的API, 需要解决的主要就是IP源的问题了
网络上有廉价的代理IP(1元4000个左右), 我做过简单的测试, 100个IP中, 平均可用的在40-60左右, 访问延迟均在200以上
网络有高质量的代理IP出售, 前提是你有渠道
因为使用IP代理后, 延迟加大, 失败率提高, 所以可以将爬虫框架中将请求设计为异步, 将请求任务加入请求队列(RabbitMQ,Kafka,Redis), 调用成功后再进行回调处理, 失败则重新加入队列每次请求都从IP池中取IP, 如果请求失败则从IP池中删除该失效的IP
Cookies
有一些网站是基于cookies做反爬虫, 这个基本上就是如 @朱添一所说的, 维护一套Cookies池
注意研究下目标网站的cookies过期事件, 可以模拟浏览器, 定时生成cookies
限速访问
像开多线程,循环无休眠的的暴力爬取数据, 那真是分分钟被封IP的事, 限速访问实现起来也挺简单(用任务队列实现), 效率问题也不用担心, 一般结合IP代理已经可以很快地实现爬去目标内容
一些坑
大批量爬取目标网站的内容后, 难免碰到红线触发对方的反爬虫机制所以适当的告警提示爬虫失效是很有必有的
一般被反爬虫后, 请求返回的>

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/12572395.html

如何应对网站反爬虫策略？如何高效地爬大量数据

发表评论

评论列表（0条）