在搜索引擎优化的过程中,你有没有遇到过这样的问题:服务器访问的CPU利用率接近,页面加载速度极慢,好像被DDoS攻击了。
我查阅后发现,原来的目标网站往往被大量无关的“爬虫”抓取,这对于一个小网站来说可能是一场灾难。
所以在优化网站的时候,我们需要有选择地引导特定的蜘蛛。
根据以往SEO经验分享,友邦云SEO边肖将通过以下几点进行阐述:
一、搜索引擎爬虫
对于国内的朋友来说,我们都知道在SEO的过程中,我们面对的常见的爬虫是搜索引擎的爬虫,比如百度蜘蛛,还有各种搜索引擎的蜘蛛,比如:
①360Spider、SogouSpider、Bytespider
②Googlebot、Bingbot、Slurp、Teoma、iauarchiver、twiceler、MSNBot
③其他爬行动物。
如果不是故意配置robots.txt文件,理论上可以抓取和爬取目标页面。但是对于一些中小网站来说,偶尔会浪费自己的服务器资源。
在这一点上,我们需要给予选择性的、合理的引导,尤其是一些尴尬的问题,比如:你希望Google减少网站的抓取,但是你不能完全屏蔽。你可能需要一些提示,比如:对于特定的抓取访问,反馈不同的文章列表:
①控制和更新频率表。
②反馈重复,内容农场页面
③善意的“蜘蛛陷阱”,如flash
④如何调整对方的SEO管理平台,获取评论并进行适当调整。
虽然这样的策略很可能会损害页面的声誉,但是我可以想到一个相对“有效”的方法来合理控制不想频繁爬行但又需要不断爬行的蜘蛛的爬行。
二。链接分析爬网程序
目前一款SEO外链分析管理工具,每天需要花费大量的服务器资源来抓取和检测各个网站的页面链接。
对于一些资源密集型的网站来说,一天爬上千次都是有可能的,这种爬虫很常见。
如果你不想自己的网站被牵扯进来,简单的策略就是在robots协议中彻底关闭这类爬虫。
三。内容收集爬网程序
但是当我们面对一些恶意的内容采集爬虫时,我们就相对尴尬了。对方往往采用“看不见”的状态,比如模拟某个著名搜索引擎蜘蛛的名字。
要解决这个问题,我们只能手动判断庐山的真伪,比如用IPpan解析命令来判断真伪。
①Linux平台:主机IP
②Windows平台:nslookupip
从而确定对方的解析地址是否是对应的搜索引擎域名。
四。蜘蛛池爬行动物
目前市场上有很多人在做百度蜘蛛池,主要目的是帮助更多的页面快速被百度收录。但是一些随意下载蜘蛛池的程序并不规范。
由于不同的蜘蛛没有得到适当的抓取和限制,服务器资源往往被服务商占用,很容易被关闭。
如果你试图用这种策略来提高你的网页收录率,那么你可能需要更多的关注。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)