爬虫对服务器 CPU,内存和网速的影响

爬虫对服务器 CPU,内存和网速的影响,第1张

爬虫对服务器CPU,内存和网速的影响

这里详细介绍一下爬虫对网络服务器的危害,重点是给新手同学普及一下爬虫的基础知识。

当人们写爬虫时,首先想到的是打开c#多线程。如果应用语言是python,那就悲剧了。因为Python有GIL,所以CPU中任何时候只能运行一个进程,但是Python的c#多线程也可以提高爬虫的速度。而且人家用Python的c#多线程写爬虫的时候,速度也不慢。为什么?因为爬虫偏向io,互联网io和硬盘IO是爬虫的大短板。现在CPU的反应速度很快,相对于恳求来说CPU的速度还是挺快的。网络求情要等对方网络服务器没有响应,整个过程很慢。但是,下载完数据后,将数据插入自己的数据库必须等到自己的硬盘没有响应。那么有没有更强的方法来保持爬虫的高并发下载量呢?

参考答案是:可以,人们可以应用第三方架构,比如gevent和tornado,或者Python的多系统进程+多线程,可以大大提高人们的下载速度

马上贴两张图,第一张消耗CPU和运行内存以及网络带宽,第二张是多系统进程应用。

第一种图片

第二种图片

当时以多线程的方式打开了另外64个系统进程,下载速度稳定在700k左右。因为企业运维管理限制了网速,不太可能提升网速,其次是运行内存消耗87%,运行内存12G,CPU消耗100%。为什么CPU消耗这么高?关键是数据分析必须消耗CPU,系统进程转换也必须消耗CPU。网页的大小应该在10k到20k之间。粗略统计分析,一分钟可以下载1750个网页,包括数据下载、分析、数据库录入的全过程。这个下载速度是1750*60分钟,相当于105000。也就是说,一个小时可以下载10万个网页。

费用是多少?我觉得这个下载速度很慢。为什么呢,因为这个网址被ip屏蔽了,所以要根据代理来浏览他们的web服务器。这是一个需要花费大量时间的整个过程。仅根据ip池,ip池中维护的合理ip就有1000个,有专业的服务项目做认证,你可以随时随地抽取一个ip去爬整体的目标平台网站。最理想的情况是一分钟爬3000条数据,一天24小时爬500万页数据。

小伙伴们惊讶吗?互联网总流量的90%都是爬虫专用的,对整体目标平台的网站造成了很大的工作压力。为了防止整体目标平台的网站被破坏,不建议开太多高并发。

天地数据技术专业呈现python爬虫ip服务器代理,做ip库,随意转换;十七年IDC制造业服务项目经验;全球120多个国家都有数据管理中心!。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/745171.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-29
下一篇 2022-04-29

发表评论

登录后才能评论

评论列表(0条)

保存