如何排除无关蜘蛛爬虫干扰高质搜索引擎蜘蛛抓取网站？_营销

如何排除无关蜘蛛爬虫干扰高质搜索引擎蜘蛛抓取网站？

在搜索引擎优化的过程中，你有没有遇到过这样的问题:服务器访问的CPU利用率接近，页面加载速度极慢，好像被DDoS攻击了。

我查阅后发现，原来的目标网站往往被大量无关的“爬虫”抓取，这对于一个小网站来说可能是一场灾难。

所以在优化网站的时候，我们需要有选择地引导特定的蜘蛛。

根据以往SEO经验分享，友邦云SEO边肖将通过以下几点进行阐述:

一、搜索引擎爬虫

对于国内的朋友来说，我们都知道在SEO的过程中，我们面对的常见的爬虫是搜索引擎的爬虫，比如百度蜘蛛，还有各种搜索引擎的蜘蛛，比如:

①360Spider、SogouSpider、Bytespider

②Googlebot、Bingbot、Slurp、Teoma、iauarchiver、twiceler、MSNBot

③其他爬行动物。

如果不是故意配置robots.txt文件，理论上可以抓取和爬取目标页面。但是对于一些中小网站来说，偶尔会浪费自己的服务器资源。

在这一点上，我们需要给予选择性的、合理的引导，尤其是一些尴尬的问题，比如:你希望Google减少网站的抓取，但是你不能完全屏蔽。你可能需要一些提示，比如:对于特定的抓取访问，反馈不同的文章列表:

①控制和更新频率表。

②反馈重复，内容农场页面

③善意的“蜘蛛陷阱”，如flash

④如何调整对方的SEO管理平台，获取评论并进行适当调整。

虽然这样的策略很可能会损害页面的声誉，但是我可以想到一个相对“有效”的方法来合理控制不想频繁爬行但又需要不断爬行的蜘蛛的爬行。

二。链接分析爬网程序

目前一款SEO外链分析管理工具，每天需要花费大量的服务器资源来抓取和检测各个网站的页面链接。

对于一些资源密集型的网站来说，一天爬上千次都是有可能的，这种爬虫很常见。

如果你不想自己的网站被牵扯进来，简单的策略就是在robots协议中彻底关闭这类爬虫。

三。内容收集爬网程序

但是当我们面对一些恶意的内容采集爬虫时，我们就相对尴尬了。对方往往采用“看不见”的状态，比如模拟某个著名搜索引擎蜘蛛的名字。

要解决这个问题，我们只能手动判断庐山的真伪，比如用IPpan解析命令来判断真伪。

①Linux平台:主机IP

②Windows平台:nslookupip

从而确定对方的解析地址是否是对应的搜索引擎域名。

四。蜘蛛池爬行动物

目前市场上有很多人在做百度蜘蛛池，主要目的是帮助更多的页面快速被百度收录。但是一些随意下载蜘蛛池的程序并不规范。

由于不同的蜘蛛没有得到适当的抓取和限制，服务器资源往往被服务商占用，很容易被关闭。

如果你试图用这种策略来提高你的网页收录率，那么你可能需要更多的关注。

欢迎分享，转载请注明来源：内存溢出

如何排除无关蜘蛛爬虫干扰高质搜索引擎蜘蛛抓取网站？