爬虫工作中，如何最大程度的避免被封IP_服务器

做爬虫，或者采集数据过程中，遇到最多的问题不是代码bug，而是封IP。开发好一个爬虫，部署好服务器，随后开始抓取信息，不一会儿，就提示封IP了，这时候的内心是崩溃的。
那么，有什么办法不封IP呢首先，要了解为什么会封IP，这样才可以更好地避免封IP。有些网站反爬措施比较弱，伪装下IP就可以绕过了，大部分的网站的反爬措施都在不断加强，不断升级，这给预防封IP带来更大的困难。
有人说，使用代理IP就没事了了。诚然，使用大量的优质代理IP能够解决大部分的问题，但并非无忧无虑。我们知道，网站的反爬虫策略主要是反那些比较猖狂的爬虫，不可能反那些正常的用户。那么什么样的用户是正常的用户呢，如果将爬虫伪装成正常的用户呢，是不是就不会被封了。
首先，正常的用户访问网站频率不会太快，毕竟手速是有限，眼速也是有限的，爬虫要伪装成用户，那么抓取的频率就不能反人类，但这样一来，效率就大大降低了，怎么办能够使用多线程来解决。
其次，一些网站往往需要验证码来验证，对于正常使用的用户来说，基本都没问题，但对于爬虫来说，就需要一套较为厉害的验证码识别程序来识别了，像12306这样的验证码就较为难搞定了。随后，就是一些其他的细节了，比如，UserAgent经常换一换，cookie要清一清，访问的顺序最好不要有规律，爬取每个页面的时间没有规律等等。反爬虫策略不断升级，相应的爬虫策略也要不断升级，不然有一天，你会发现，哪怕您使用了大量的代理IP，依然预防不了大面积的封IP，爬虫工作受阻

给你贴一下我前一段时间回答的类似问题，用的soup，还有一个用的正则就不贴了，手机不太方便，如下。
import beautifulsoup
import urllib2
def main():
userMainUrl = "你要抓取的地址"
req = urllib2Request(userMainUrl)
resp = urllib2urlopen(req)
respHtml = respread()
foundLabel = respHtmlfindAll("label")
finalL =foundLabelstring
print "biaoti=",finalL
if __name__=="__main__":
main();
PS：如果不会改的话追问一下，回头我用电脑给你写一份

网络爬虫是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。[2] 可以理解为一个自动访问网页并进行相关 *** 作的小机器人。本质上就是实现高效、自动地进行网络信息的读取、收集等行为。爬虫程序最早是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。

使用爬虫技术可能带来的法律风险主要来自几方面：

（1）违反被爬取方的意愿，例如规避网站设置的反爬虫措施、强行突破其反爬措施；

（2）爬虫的使用造成了干扰了被访问网站正常运行的实际后果；

（3）爬虫抓取到受法律保护的特定类型的信息。其中，第（3）类风险主要来自于通过规避爬虫措施抓取到了互联网上未被公开的信息。

答：遵守robots 协议的就不违法了。

答：查询网站域名加/robotstxt 的链接下的文件。

比如抖音：>

服务器崩溃的几种原因第一：高并发流量或请求超过服务器承受力

无论是企业和个人在租用服务器的时候都会受到峰值承受限制的，一旦超过服务器的承受能力，就会导致服务器瘫痪，应用程序暂停，网站无法访问。服务器都是有峰值限制的，不可能承受无上限的并发能力。而造成服务器瘫痪的原因就是在同一段时间内，访问人数多，造成高流量的突进。超出了服务器的承受范围。这种例子我们经常可以看到，比如双11期间，很多公司为了应对双11的高流量，开启的紧急避险措施和大规模的服务器负载能力。还有春运期间，12306网站由于受到高并发的问题，也会频繁的出现崩溃。

第二：磁盘空间不足

导致服务器无法正常运行的原因也有可能是磁盘空间溢出导致的。企业的网络管理员应该实时关注磁盘的使用情况，并且要在规定的时间把磁盘储存的数据备份到另外的存储设备里面，确保数据无遗失，推荐相关阅读：哪些网站应该使用服务器呢？

服务器的磁盘大部分的资源都是被日志文件占用了，包括web服务器，数据库等日志信息都包括其中，以及应用程序服务器日志文件均与内存泄漏是同等的危害。我们可以采取措施保护我们的数据和日志文件，日志文件对应用程序进行异地存储。日志文件系统空间如果满了，则web服务器将自动被挂起，但是机器本身瘫痪和宕机的几率就会大大降低。

第三：服务器超载

连接web服务器都是用一个线程链接的，web服务器会在线程用过之后自动挂起，不会再未已链接的线程提供任何服务。如果我们用了负载机制，那么如果该服务器没有响应，则该服务器的负载则会自动的转移到其他web服务器上，这个 *** 作会使服务器一个接一个的用光线程。这中 *** 作可能会导致整个服务器机组被挂起， *** 作系统同时还有可能在不断接收新的链接，而我们的web服务器无法未其提供服务，致使服务器崩溃。

第四：服务器遭到恶意攻击

网络科技的不断发展同时，黑客的技术和渗透也是很强的，服务器和系统遭受到攻击已经是普遍存在的了。所有服务器都会面临这个问题，这个是无法预测的危险，我们只能实时做好安全防护，将被攻击的风险降至最低。

答案很简单：攻击服务器。
攻击服务器的方法也是有很多种的，这里介绍一下用PING命令使网络瘫痪的方法，我们知道，PING命令可以向目标主机发送数据包，但是这里存在一个漏洞，就是当你向目标主机发送的数据包超过65532byt时，就会造成目标主机死机或者重启。所以，微软公司就限制了数据包的大小，使发送的数据包不能超过65500byt但是，即使是65500的数据包，如果不断的发送，也会造成目标主机的瘫痪，黑客们用这个命令：ping -1 655 00 -t 1921681025（输入的IP地址是要攻击的主机的IP，这里是随便举个例子）这个命令会向目标主机不断的发送65500的数据包，直到系统瘫痪为止，一般不会超过10分钟。例如，黑客向网吧服务器发送这个命令，不是服务器瘫痪，就是整个网吧掉线。黑客就乘机接管服务器。但这里还有个问题，如何获得服务器的IP呢？其实很简单，只要用扫描工具扫描一下本机IP，将最后一个数值改为1就可以了，比如本机的IP是1921681023，那么服务器的IP就是192168101这样，黑客入侵网吧服务器的全过程就完了

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13053325.html

爬虫工作中，如何最大程度的避免被封IP

发表评论

评论列表（0条）