Python爬虫如何避免爬取网站访问过于频繁_服务器

一关于爬虫
爬虫，是一种按照一定的规则自动地抓取互联网信息的程序。本质是利用程序获取对我们有利的数据。

反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于频繁。

二提高爬虫效率的方法
协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。

多进程。使用CPU的多个核，使用几个核就能提高几倍。

多线程。将任务分成多个，并发（交替）的执行。

分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。

打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。

其他。比如，使用网速好的网络等等。

三反爬虫的措施
限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。

限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。

ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用timesleep()来对爬虫的速度进行限制，建立IP代理池或者使用IPIDEA避免IP被封禁。

1、放慢爬取速度，减小对于目标网站造成的压力。但是这样会减少单位时间类的爬取量。
第二种方法是通过设置IP等手段，突破反爬虫机制继续高频率爬取。网站的反爬机制会检查来访的IP地址，为了防止IP被封，这时就可以使用>一、需要解决中央控制端到各节点服务器之间的通信。
这个其实牵扯到一个通信协议的问题，各语言都有自己的socket，thread的库，直接调用即可。但是这个通信协议就需要自己来完成了。既不能太简单，太简单了，明码传输，如果别人获知了这个接口，就很容易执行一些令人讨厌的 *** 作。也不能太复杂，太复杂了等于是给自己找麻烦，所以简单的数据包编解码的工作或者用token验证的方式是需要的。通信协议起码要两种，一种是传输命令执行的协议，一种是传输文件的协议。
二、跨语言的socket通信
为什么要跨语言，主控端和代理端通信，用什么语言开发其实无所谓。但是为了给自己省事，尽可能使用服务器上已经有了的默认语言，Ambari前期采用php+puppet的方式管理集群，这不是不可以，puppet自己解决了socket通信协议和文件传输的问题，可你需要为了puppet在每台服务器上都安装ruby。我是个有点服务器和代码洁癖的人。光是为了一个puppet就装个ruby，我觉得心里特对不起服务器的资源。所以我自己写了一个python的代理端。python是不管哪个linux系统在安装的时候就都会有了。然后主控端的通信，可以用python实现，也可以用php实现，但是考虑到对于更多的使用者来说，改php可能要比改tornado简单许多，所以就没用python开发。hadoop分支版本众多，发布出去，用户要自己修改成安装适合自己的hadoop发行版，就势必要改源码，会php的明显比会python的多。php里面的model封装了所有的 *** 作，而python只是个 *** 作代理人的角色而已。
所以也延伸出一个问题，什么语言用来做这种分布式管理系统的代理端比较合适，我自己觉得，也就是python比较合适了， *** 作系统自带，原生的package功能基本够用。用java和php也可以写agent，但是你势必在各节点预先就铺设好jre或者php运行环境。这就跟为什么用python和java写mapred的人最多是一样的。没人拦着你用nodejs写mapred，也可以写，就是你得在每个节点都装v8的解释引擎，不嫌麻烦完全可以这样干。原理参看map/reduce论文，不解释。perl也是 *** 作系统原生带的，但是perl的可维护性太差了，还是算了吧。
所以这就牵扯到一个跨语言的socket问题，理论上来说，这不存在什么问题。但这是理论上的，实际开发过程中确实存在问题，比如socket长连接，通信数据包在底层的封装方式不同。我没有使用xml-rpc的原因之一就是我听说php的xmlrpc跟其他语言的xmlrpc有不同的地方，需要修改才能用,我就没有用这种办法。最早是自己定义的 *** 作协议，这时就遇到了这些问题，所以后来直接采用了thrift方式。就基本不存在跨语言的socket通信问题了。
三、代理端执行结果的获取
无论命令还是文件是否在代理端执行成功，都需要获取到执行结果返回给中央端。所以这里也涉及一个读取节点上的stdout和stderr的问题。这个总体来说不是很难，都有现成的包。当然这个时候你需要的是阻塞执行，而不能搞异步回调。
还有个问题是，我要尽可能使用python默认就带的包，而尽量不让服务器去访问internet下载第三方的包。
还有代理端最重要的一点，就是python的版本兼容性。centos5用python 24，centos6用python 26，ubuntu基本默认都是27。所以一定要最大限度的保证语言的跨版本兼容性。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12749547.html

Python爬虫如何避免爬取网站访问过于频繁

发表评论

评论列表（0条）