爬虫把网站爬崩溃是什么样_服务器

当爬虫爬取网站时，如果请求过于频繁或者请求数据量过大，就有可能会导致网站崩溃。这种情况通常称为“DDoS攻击”，即分布式拒绝服务攻击。在这种攻击中，攻击者利用大量的机器或者网络资源，向目标网站发送大量的请求，使得目标网站无法正常响应合法用户的请求。
在爬虫爬取网站时，类似于DDoS攻击的情况也有可能发生。爬虫的请求量过大或者频率过快，可能会给网站带来较大的压力，从而导致网站崩溃。当网站遭到这种攻击后，服务器可能会因为资源不足而停止响应请求，甚至直接宕机。这样一来，用户就无法正常访问该网站，导致严重的经济和声誉损失。
为了避免爬虫把网站爬崩溃，爬虫需要遵循一定的道德规范和技术规范。例如，爬虫需要限制请求频率，避免在短时间内发送大量请求；同时也需要限制请求数据量，尽量减小对网站的压力。此外，爬虫还应该检查网站的robotstxt文件，遵守网站管理者的《网站协议》。通过这些方法，就可以保证爬虫与网站之间的良好合作关系，使得爬虫在不破坏网站正常运行的前提下，能够顺利地获取所需的数据信息。

在日常的服务器维护中，会经常用到如下命令。
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

它会显示例如下面的信息：
TIME_WAIT 689
CLOSE_WAIT 2
FIN_WAIT1 1
ESTABLISHED 291
SYN_RECV 2
LAST_ACK 1

常用的三个状态是：ESTABLISHED表示正在通信、TIME_WAIT表示主动关闭、CLOSE_WAIT表示被动关闭。

如果服务器出现了异常，很大的可能是出现了以下两种情况：

我们也都知道Linux系统中分给每个用户的文件句柄数是有限的，而TIME_WAIT和CLOSE_WAIT这两种状态如果一直被保持，那么意味着对应数目的通道(此处应理解为socket，一般一个socket会占用服务器端一个端口，服务器端的端口最大数是65535)一直被占用，一旦达到了上限，则新的请求就无法被处理，接着就是大量Too Many Open Files异常，然后tomcat、nginx、apache崩溃。。。

下面来讨论这两种状态的处理方法，网络上也有很多资料把这两种情况混为一谈，认为优化内核参数就可以解决，其实这是不恰当的。优化内核参数在一定程度上能解决time_wait过多的问题，但是应对close_wait还得从应用程序本身出发。

这种情况比较常见，一般会出现在爬虫服务器和web服务器(如果没做内核参数优化的话)上，那么这种问题是怎么产生的呢？

从上图可以看出time_wait是主动关闭连接的一方保持的状态，对于爬虫服务器来说它自身就是客户端，在完成一个爬取任务后就会发起主动关闭连接，从而进入time_wait状态，然后保持这个状态2MSL时间之后，彻底关闭回收资源。这里为什么会保持资源2MSL时间呢？这也是TCP/IP设计者规定的。

TCP要保证在所有可能的情况下使得所有的数据都能够被正确送达。当你关闭一个socket时，主动关闭一端的socket将进入TIME_WAIT状态，而被动关闭一方则转入CLOSED状态，这的确能够保证所有的数据都被传输。当一个socket关闭的时候，是通过两端四次握手完成的，当一端调用 close()时，就说明本端没有数据要发送了。这好似看来在握手完成以后，socket就都可以处于初始的CLOSED状态了，其实不然。原因是这样安排状态有两个问题，首先，我们没有任何机制保证最后的一个ACK能够正常传输，第二，网络上仍然有可能有残余的数据包(wandering duplicates)，我们也必须能够正常处理。

TIMEWAIT就是为了解决这两个问题而生的。

再引用网络中的一段话：

time_wait问题可以通过调整内核参数和适当的设置web服务器的keep-Alive值来解决。因为time_wait是自己可控的，要么就是对方连接的异常，要么就是自己没有快速的回收资源，总之不是由于自己程序错误引起的。但是close_wait就不一样了，从上图中我们可以看到服务器保持大量的close_wait只有一种情况，那就是对方发送一个FIN后，程序自己这边没有进一步发送ACK以确认。换句话说就是在对方关闭连接后，程序里没有检测到，或者程序里本身就已经忘了这个时候需要关闭连接，于是这个资源就一直被程序占用着。这个时候快速的解决方法是：

注：
直到写这篇文章的时候我才完全弄明白之前工作中遇到的一个问题。程序员写了爬虫(php)运行在采集服务器A上，程序去B服务器上采集资源，但是A服务器很快就发现出现了大量的close_wait状态的连接。后来手动检查才发现这些处于close_wait状态的请求结果都是404，那就说明B服务器上没有要请求的资源。

下面引用网友分析的结论：
服务器A是一台爬虫服务器，它使用简单的>实际上，在网络应用中，Web服务器通常不会直接将自己的数据提供给用户。通常，它们会将数据存储在数据库中，并提供一个API(>有的时候，当我们的爬虫程序完成了，并且在本地测试也没有问题，爬取了一段时间之后突然就发现报错无法抓取页面内容了。这个时候，我们很有可能是遇到了网站的反爬虫拦截。

我们知道，网站一方面想要爬虫爬取网站，比如让搜索引擎爬虫去爬取网站的内容，来增加网站的搜索排名。另一方面，由于网站的服务器资源有限，过多的非真实的用户对网站的大量访问，会增加运营成本和服务器负担。

这是一种最基本的反爬虫方式，网站运营者通过验证爬虫的请求头的 User-agent,accep-enconding 等信息来验证请求的发出宿主是不是真实的用户常用浏览器或者一些特定的请求头信息。

通过 Ajax，或者javascript 来动态获取和加载数据，加大爬虫直接获取数据的难度。

这个相信大多数读者非常熟悉了吧，当我们输错多次密码的时候，很多平台都会d出各种二维码让我们识别，或者抢火车票的时候，会出现各种复杂的验证码，验证码是反爬虫措施中，运用最广，同时也是最有效直接的方式来阻止爬虫的措施之一。

在识别到某些异常的访问的时候，网站运营者会设置一个黑名单，把一些判定为爬虫的IP进行限制或者封杀。

有些网站，没有游客模式，只有通过注册后才可以登录看到内容，这个就是典型的使用账号限制网站，一般可以用在网站用户量不多，数据安全要求严格的网站中。

我们可以在请求头中替换我们的请求媒介，让网站误认为是我们是通过移动端的访问，运行下面的代码后，当我们打开 hupuhtml,我们会发现返回的是移动端的虎扑的页面而不是网页端的。

比如，我们可以设置一个随机的间隔时间，来模拟用户的行为，减少访问的次数和频率。我们可以在我们爬虫的程序中，加入如下的代码，让爬虫休息3秒左右，再进行爬取，可以有效地避开网站的对爬虫的检测和识别。

代理就是通过访问第三方的机器，然后通过第三方机器的 IP 进行访问，来隐藏自己的真实IP地址。

由于第三方代理良莠不齐，而且不稳定，经常出现断线的情况，爬取速度也会慢许多，如果对爬虫质量有严格要求的话，不建议使用此种方法进行爬取。

可以通过动态的 IP 拨号服务器来变换 IP，也可以通过 Tor 代理服务器来变换 IP。

反反爬虫的策略，一直是在变换的，我们应该具体问题具体分析，通过不断的试错来完善我们的爬虫爬取，千万不要以为，爬虫程序在本机调试之后，没有问题，就可以高枕无忧了。线上的问题，总是千变万化，我们需要根据我们的具体反爬措施，来针对的写一些反反爬虫的代码，这样才能保证线上环境的万无一失。

通过网站优化的方法，优化关键词目的是稳定网站关键词排名，为网站带来持续稳定的流量，网站关键词排名怎样才能稳定快速上首页？需要做到以下几点
一、网站服务器空间的安全稳定
二、及时改进网站用户体验
三、持续更新高质量的网站内容
四、关注竞争对手动态
五、发展高质量的网站外链

能够做网络爬虫的编程语言很多，包括PHP、Java、C/C++、Python等都能做爬虫，都能达到抓取想要的数据资源。针对不同的环境，我们需要了解他们做爬虫的优缺点，才能选出合适的开发环境。
（一）PHP
网络爬虫需要快速的从服务器中抓取需要的数据，有时数据量较大时需要进行多线程抓取。PHP虽然是世界上最好的语言，但是PHP对多线程、异步支持不足，并发不足，而爬虫程序对速度和效率要求极高，所以说PHP天生不是做爬虫的。
（二）C/C++
C语言是一门面向过程、抽象化的通用程序设计语言，广泛应用于底层开发，运行效率和性能是最强大的，但是它的学习成本非常高，需要有很好地编程知识基础，对于初学者或者编程知识不是很好地程序员来说，不是一个很好的选择。当然，能够用C/C++编写爬虫程序，足以说明能力很强，但是绝不是最正确的选择。
（三）Java
在网络爬虫方面，作为Python最大的对手Java，拥有强大的生态圈。但是Java本身很笨重，代码量大。由于爬虫与反爬虫的较量是持久的，也是频繁的，刚写好的爬虫程序很可能就不能用了。爬虫程序需要经常性的修改部分代码。而Java的重构成本比较高，任何修改都会导致大量代码的变动。
（四）Python
Python在设计上坚持了清晰划一的风格，易读、易维护，语法优美、代码简洁、开发效率高、第三方模块多。并且拥有强大的爬虫Scrapy，以及成熟高效的scrapy-redis分布式策略。实现同样的爬虫功能，代码量少，而且维护方便，开发效率高。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10313516.html

爬虫把网站爬崩溃是什么样

发表评论

评论列表（0条）