在整个做SEO的过程中,有没有遇到过这样的问题:web服务器的浏览CPU利用率基本100%,页面加载速度特别慢,好像被DDOS攻击了一样?
经过一番验证,发现自己原来的整体目标网站被很多不相关的“爬虫”频繁抓取,这对于一个网站论坛来说可能是灭顶之灾。
所以我们在做网站优化的时候,对于特殊蜘蛛的选择一定要有正确的引导。
那么,如何带着刻意的“蜘蛛”潜入呢?
根据以往SEO经验分享,蜘蛛侠IT会按照以下内容进行讨论:
1.搜索引擎爬虫
对于中国朋友来说,我们都知道,在整个做SEO的过程中,最应该打交道的爬虫就是搜索引擎的爬虫,比如百度搜索蜘蛛。此外,我们还会不断遇到各种搜索引擎的蜘蛛,比如:
①360Spider、SogouSpider、Bytespider
②Googlebot、Bingbot、Slurp、Teoma、ia_archiver、twiceler、MSNBot
③其他爬行动物。
如果你没有故意装备你的robots.txt文件,理论上你的整体目标网页是可以被抓取和爬取的,但是对于一些中小型网站来说,它有时会严重消耗自己的server空空间。
这时候大家一定要进行选择性的、有效的、正确的引导,尤其是一些尴尬的问题。举个例子,如果你期望谷歌减少对网站的抓取,但它不能完全阻止,你可能需要一些技巧,例如,对于特殊爬虫的浏览,不同反馈的文章列表:
① *** 作升级频率目录。
(2)反馈是重复的,内容是大农场的网页。
③真诚的“蜘蛛陷阱”如Flash
④对方SEO管理系统如何调整抓取评价,适度调整?
虽然那种对策很可能会导致网页的信用受损,但对于那些不指望频繁爬行,却又不得不不停爬行的蜘蛛来说,这是我能想到的比较“合理”的办法。
2.链接分析爬虫
从现阶段来看,一个SEO外链分析的可视化工具,每天都要消耗大量的服务器空来抓取和检查各个网站的网页连接。
对于一些资源密集型的网站,很有可能一天要爬无数次,这样的爬虫空已经习惯了。
如果不希望自己的网站参与其中,非常简单的解决方法就是在robots协议中把爬虫完全封闭起来。
3.内容收集爬网程序
而我们在处理一些有意的内容采集爬虫时,对方通常会选择“隐藏”的情况,比如模拟某个著名搜索引擎蜘蛛的名字。
对于这么难的问题,我们只能手动区分来查看对岸庐山真面目,比如用IP通用解析指令来区分真假。
①Linux平台:hostip
②寡妇平台:nslookupIP
然后就能分辨出对方的分析详细地址是否是匹配的搜索引擎网站的域名。
4.蜘蛛池爬虫
目前市面上做百度蜘蛛池的人很多,其关键目的是辅助大量网页做百度的快速索引。但是因为一些免费下载的蜘蛛池的非标准编程设计。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)