爬虫对服务器 CPU，内存和网速的影响_服务器

爬虫对服务器CPU，内存和网速的影响

这里详细介绍一下爬虫对网络服务器的危害，重点是给新手同学普及一下爬虫的基础知识。

当人们写爬虫时，首先想到的是打开c#多线程。如果应用语言是python，那就悲剧了。因为Python有GIL，所以CPU中任何时候只能运行一个进程，但是Python的c#多线程也可以提高爬虫的速度。而且人家用Python的c#多线程写爬虫的时候，速度也不慢。为什么？因为爬虫偏向io，互联网io和硬盘IO是爬虫的大短板。现在CPU的反应速度很快，相对于恳求来说CPU的速度还是挺快的。网络求情要等对方网络服务器没有响应，整个过程很慢。但是，下载完数据后，将数据插入自己的数据库必须等到自己的硬盘没有响应。那么有没有更强的方法来保持爬虫的高并发下载量呢？

参考答案是:可以，人们可以应用第三方架构，比如gevent和tornado，或者Python的多系统进程+多线程，可以大大提高人们的下载速度。

马上贴两张图，第一张消耗CPU和运行内存以及网络带宽，第二张是多系统进程应用。

第一种图片

第二种图片

当时以多线程的方式打开了另外64个系统进程，下载速度稳定在700k左右。因为企业运维管理限制了网速，不太可能提升网速，其次是运行内存消耗87%，运行内存12G，CPU消耗100%。为什么CPU消耗这么高？关键是数据分析必须消耗CPU，系统进程转换也必须消耗CPU。网页的大小应该在10k到20k之间。粗略统计分析，一分钟可以下载1750个网页，包括数据下载、分析、数据库录入的全过程。这个下载速度是1750*60分钟，相当于105000。也就是说，一个小时可以下载10万个网页。

费用是多少？我觉得这个下载速度很慢。为什么呢，因为这个网址被ip屏蔽了，所以要根据代理来浏览他们的web服务器。这是一个需要花费大量时间的整个过程。仅根据ip池，ip池中维护的合理ip就有1000个，有专业的服务项目做认证，你可以随时随地抽取一个ip去爬整体的目标平台网站。最理想的情况是一分钟爬3000条数据，一天24小时爬500万页数据。

小伙伴们惊讶吗？互联网总流量的90%都是爬虫专用的，对整体目标平台的网站造成了很大的工作压力。为了防止整体目标平台的网站被破坏，不建议开太多高并发。

天地数据技术专业呈现python爬虫ip服务器代理，做ip库，随意转换；十七年IDC制造业服务项目经验；全球120多个国家都有数据管理中心！。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/745171.html

爬虫对服务器 CPU，内存和网速的影响

发表评论

评论列表（0条）