如何排除无关蜘蛛爬虫干扰高质搜索引擎蜘蛛抓取网站?

如何排除无关蜘蛛爬虫干扰高质搜索引擎蜘蛛抓取网站?,第1张

如何排除无关蜘蛛爬虫干扰高质搜索引擎蜘蛛抓取网站?

在搜索引擎优化的过程中,你有没有遇到过这样的问题:服务器访问的CPU利用率接近,页面加载速度极慢,好像被DDoS攻击了。

我查阅后发现,原来的目标网站往往被大量无关的“爬虫”抓取,这对于一个小网站来说可能是一场灾难。

所以在优化网站的时候,我们需要有选择地引导特定的蜘蛛。

根据以往SEO经验分享,友邦云SEO边肖将通过以下几点进行阐述:

一、搜索引擎爬虫

对于国内的朋友来说,我们都知道在SEO的过程中,我们面对的常见的爬虫是搜索引擎的爬虫,比如百度蜘蛛,还有各种搜索引擎的蜘蛛,比如:

①360Spider、SogouSpider、Bytespider

②Googlebot、Bingbot、Slurp、Teoma、iauarchiver、twiceler、MSNBot

③其他爬行动物。

如果不是故意配置robots.txt文件,理论上可以抓取和爬取目标页面。但是对于一些中小网站来说,偶尔会浪费自己的服务器资源。

在这一点上,我们需要给予选择性的、合理的引导,尤其是一些尴尬的问题,比如:你希望Google减少网站的抓取,但是你不能完全屏蔽。你可能需要一些提示,比如:对于特定的抓取访问,反馈不同的文章列表:

①控制和更新频率表。

②反馈重复,内容农场页面

③善意的“蜘蛛陷阱”,如flash

④如何调整对方的SEO管理平台,获取评论并进行适当调整。

虽然这样的策略很可能会损害页面的声誉,但是我可以想到一个相对“有效”的方法来合理控制不想频繁爬行但又需要不断爬行的蜘蛛的爬行。

二。链接分析爬网程序

目前一款SEO外链分析管理工具,每天需要花费大量的服务器资源来抓取和检测各个网站的页面链接。

对于一些资源密集型的网站来说,一天爬上千次都是有可能的,这种爬虫很常见。

如果你不想自己的网站被牵扯进来,简单的策略就是在robots协议中彻底关闭这类爬虫。

三。内容收集爬网程序

但是当我们面对一些恶意的内容采集爬虫时,我们就相对尴尬了。对方往往采用“看不见”的状态,比如模拟某个著名搜索引擎蜘蛛的名字。

要解决这个问题,我们只能手动判断庐山的真伪,比如用IPpan解析命令来判断真伪。

①Linux平台:主机IP

②Windows平台:nslookupip

从而确定对方的解析地址是否是对应的搜索引擎域名。

四。蜘蛛池爬行动物

目前市场上有很多人在做百度蜘蛛池,主要目的是帮助更多的页面快速被百度收录。但是一些随意下载蜘蛛池的程序并不规范。

由于不同的蜘蛛没有得到适当的抓取和限制,服务器资源往往被服务商占用,很容易被关闭。

如果你试图用这种策略来提高你的网页收录率,那么你可能需要更多的关注。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/880987.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存