爬虫怎么解决封IP的问题？_服务器

总的来讲，网站的反爬虫的策略有：检测爬取频率、并发连接数目、>

其中最常见的就是判断你的请求频率和并发数量，如果你在短时间内发送了大量的请求，也就是你的爬取速度很快的话，那么他就直接判断你是爬虫，这时候先把你IP封了再说，免得给自己的网站带来负担。

那么这些策略我们都如何应对呢？这几个方法都不同，

1、爬虫伪装浏览器点击

我们先理解一下网站的代码执行，首先我们向服务器发送请求，这时服务器的后台php、java都会执行，然后网站代码被发送到本地，在本地时js、ajax会在浏览器内核中执行。所以这时候我们就知道，爬虫不仅要欺骗phpjava代码、还要欺骗js和ajax代码。

2、使用代理

爬的太快会被封，是一定的。爬的太慢又非常耗时间。所以很多人都会说可以使用代理，所谓代理就是介于用户与网站之间的第三者：用户先将请求发到代理，然后代理再发到服务器，这样看起来就像是代理在访问那个网站了，实现一个不断的切换IP的假象。网上免费代理很多，但是能用的没几个，如果不想购买付费的代理，大家可以学习一下

3、降低访问频率

如果一直找不到好用的免费代理，又不想付费，最好的办法就是降低访问频率了。这样做可以达到与用代理一样的效果——防止被对方从访问量上看出来。比如：每抓取一个页面就休息随机几秒、限制每天抓取的页面数量。当然，在抓取效率上会差很多，因为数据量大的话，时间就会很长。

在爬虫的时候，被爬网站是有反爬虫机制的，如果使用一个IP反复访问一个网页，就容易被出现IP限制，无法再对网站进行访问，这时就需要用到代理IP。

爬虫在抓取一个网站数据的时候，就相当于反复向一个人打招呼，有非常大的几率会被拉黑。使用代理IP更换不同IP，对方网站每次都以为是新用户，自然就没有拉黑的风险。

如果业务量不大，工作效率并没有太大要求，可以不使用代理IP。如果工作任务量大，抓取速度快，目标服务器会容易发现，所以就需要用代理IP来换IP后再抓取。通过以上的介绍，说明网络爬虫不是必须使用代理IP，但确是高效工作的好工具。目前ipidea已向众多互联网知名企业提供服务，对提高爬虫的抓取效率提供帮助，支持API批量使用，支持多线程高并发使用。

1、放慢爬取速度，减小对于目标网站造成的压力。但是这样会减少单位时间类的爬取量。
第二种方法是通过设置IP等手段，突破反爬虫机制继续高频率爬取。网站的反爬机制会检查来访的IP地址，为了防止IP被封，这时就可以使用>

在我没接触这一行时这个问题困扰了我很长时间，让我十分的不理解到底什么是爬虫，它难道是一种实体工具？，直到我学习python 深入分析了解以后才揭开了它神秘的面纱。

爬虫是什么呢？爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

脚本就是粗糙的，但往往非常实用的小程序（一般来说不会超过几千行，有时候也就几百几十行的代码构成）。举个简单的例子，你现在要从一个学生租房的网站上读取关于出租的学生公寓的信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。百度，谷歌这类的搜索引擎你也可以认为是一种爬虫，只不过这类的技术十分的复杂，不是简单的脚本。

搜索引擎是如何工作的？其实就是通过网络爬虫技术，将互联网中数以百亿计的网页信息保存到本地，形成一个镜像文件，为整个搜索引擎提供数据支撑。

这样的技术首先就会涉及到一个十分重要并且人人关注的问题——是否违法？

仔细探究后总结出了如下观点：

1遵守 Robots 协议，但有没有 Robots 都不代表可以随便爬，

2限制你的爬虫行为，禁止近乎 DDOS 的请求频率，一旦造成服务器瘫痪，约等于网络攻击；

3对于明显反爬，或者正常情况不能到达的页面不能强行突破，否则是 Hacker 行为；

4审视清楚自己爬的内容，绝不能触碰法律的红线。

至此你应该明白，爬虫本身并不违法，而是要看你使用的方式和目的，还要看其商业用途。

一关于爬虫
爬虫，是一种按照一定的规则自动地抓取互联网信息的程序。本质是利用程序获取对我们有利的数据。

反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于频繁。

二提高爬虫效率的方法
协程。采用协程，让多个爬虫一起工作，可以大幅度提高效率。

多进程。使用CPU的多个核，使用几个核就能提高几倍。

多线程。将任务分成多个，并发（交替）的执行。

分布式爬虫。让多个设备去跑同一个项目，效率也能大幅提升。

打包技术。可以将python文件打包成可执行的exe文件，让其在后台执行即可。

其他。比如，使用网速好的网络等等。

三反爬虫的措施
限制请求头，即request header。解决方法：我们可以填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。

限制登录，即不登录就不能访问。解决方法：我们可以使用cookies和session的知识去模拟登录。

复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方法1：我们用Selenium去手动输入验证码；方法2：我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。

ip限制。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。解决方法：使用timesleep()来对爬虫的速度进行限制，建立IP代理池或者使用IPIDEA避免IP被封禁。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13505255.html

爬虫怎么解决封IP的问题？

发表评论

评论列表（0条）