如何入门 python 爬虫_服务器

一般有一下几种
一些常用的方法
IP代理
对于IP代理,各个语言的Native Request API都提供的IP代理响应的API, 需要解决的主要就是IP源的问题了
网络上有廉价的代理IP(1元4000个左右), 我做过简单的测试, 100个IP中, 平均可用的在40-60左右, 访问延迟均在200以上
网络有高质量的代理IP出售, 前提是你有渠道
因为使用IP代理后, 延迟加大, 失败率提高, 所以可以将爬虫框架中将请求设计为异步, 将请求任务加入请求队列(RabbitMQ,Kafka,Redis), 调用成功后再进行回调处理, 失败则重新加入队列每次请求都从IP池中取IP, 如果请求失败则从IP池中删除该失效的IP
Cookies
有一些网站是基于cookies做反爬虫, 这个基本上就是如 @朱添一所说的, 维护一套Cookies池
注意研究下目标网站的cookies过期事件, 可以模拟浏览器, 定时生成cookies
限速访问
像开多线程,循环无休眠的的暴力爬取数据, 那真是分分钟被封IP的事, 限速访问实现起来也挺简单(用任务队列实现), 效率问题也不用担心, 一般结合IP代理已经可以很快地实现爬去目标内容
一些坑
大批量爬取目标网站的内容后, 难免碰到红线触发对方的反爬虫机制所以适当的告警提示爬虫失效是很有必有的
一般被反爬虫后, 请求返回的>几种问题
1速度限制
速度限制是对抗爬虫的一种常见的方法，它的工作方式很简单：网站强制用户可以从单个IP地址执行有限数量的 *** 作。限制可能因网站而异，并基于在特定时间段内执行的 *** 作数量或用户使用的数据量。
2验证码提示
验证码是另一种更复杂的限制网络抓取的方法。用户可以通过在短时间内发出过多请求、未正确覆盖网络抓取工具的指纹，或使用低质量的代理方式触发验证码。
3网站结构变化
网站并不是一成不变的，尤其是当用户爬取大型网站时，站点经常更改 HTML 标记，以此破坏用户的网络抓取脚本。例如网站可以删除或重命名某些类或元素 ID，这将导致用户的解析器停止工作。
4网站使用JavaScript运行
如今许多网站的功能都需要通过用户点击某些区域使得JavaScript代码运行才能正常使用，对于爬虫程序而言常规的提取工具不具备处理动态页面的功能，所以在爬取这类网站时会遇到较大的阻碍。
5加载速度慢
当网站在短时间内收到大量请求时，其加载速度可能会变慢并变得不稳定。而在网站不稳定时爬虫程序会更快的进行刷新，但这只是雪上加霜，网站会中断抓取器，以确保站点不会崩溃。
6IP受限制
可能导致用户爬虫IP受限的因素有很多，例如用户使用的数据中心代理IP被网站识别、用户爬虫爬取速度过快被封禁等等。在遭遇这种问题时，用户可以选择使用动态爬虫代理，使得自己每次访问都使用不同的IP地址，以此来确保IP不被限制，爬虫高效爬取。

mitmtproxy即mitm+proxy,顾名思义是中间人攻击加代理。用于中间人攻击的代理首先会向正常代理一样转发请求，保障服务器与客户端的通信，其次，会适时的查、记录截获的数据或 篡改数据 ，引发服务端和客户端的特定行为。

mitmproxy可以利用python实现高度定制脚本。因为mitmproxy工作在>

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12785500.html

如何入门 python 爬虫

发表评论

评论列表（0条）