凡事皆有因。蜘蛛只是一个机器人。它是由程序代码组成的,抓取网站需要遵循它的规则。如果网站中存在一些网站陷阱,会使蜘蛛抓取不顺畅,从而导致一系列问题。哪些网站陷阱成了蜘蛛爬行的绊脚石?
陷阱一:网站地图不正确
网站是一个非常有用的网站工具。对于用户和蜘蛛来说,一个完整正确的网站地图可以很好的识别整个网站的结构,从而更好的浏览和抓取网站。由于一些站长对代码和网站的架构不熟悉,就随意选择一个口碑不好的工具来制作不完整或不正确的网站地图。结果就是蜘蛛爬行的时候被夹在里面,最终迷路。
选择知名工具制作网站地图,如站长工具、百度站长平台工具等。如果对网站比较熟悉,可以手工制作,多次测试,保证网站图的正确性和完整性。
陷阱二:网站死链接数量巨大
所谓死链接,就是返回代码为404的错误页面链接。这种链接一般发生在网站改版或者网站域名变更之后。死链接的存在对于用户体验和蜘蛛抓取都是非常不好的。死链接无疑会阻止蜘蛛爬行。当蜘蛛接连遇到这些死链接,就会不信任网站,最终放弃抓取网站。
(1)提交死链接。使用百度站长平台的“死链提交”工具提交网站死链。具体说明请参考百度站长工具。
(2)重定向或删除死链接。如果死链接的位置不是很重要,可以重定向到首页。如果位置重要,数量较多,可以选择删除死链接,可以使用工具删除。
陷阱URL包含太多参数
虽然百度的优化指南官方表示百度搜索机器人可以像googlebot一样收集动态参数的网站,但是静态url的网站永远比动态url的网站更有优势。因此,如果您的网站像下面的URL一样,可能会导致蜘蛛爬行不顺畅:
在选择网站程序之前,一定要考虑程序是否支持网站url静态,并在以后的维护中注意网站url是否真的是静态的,尽量摒弃动态URL包含参数的做法。
陷阱四:网站锚文本过多
网站锚文本太多,导致链链轮。相信大家都会知道外接链轮,但其实内联也可以产生链轮。很多站长为了提高关键词排名,不惜使用过多的锚文本,进而造成页面之间的链接循环效应,进而让蜘蛛走入无底洞,出不来。
清除过去有重叠链接的锚文本,尽量只在必要的时候添加锚文本。锚文本的滥用只会让百度蜘蛛进一步不认可你的网站。
百度搜索引擎蜘蛛永远只是一个程序机器人,它的智能永远比不上我们,但我们还是应该尊重它,为它提供一个爬行顺畅的网站环境,保证我们的网站能够持续健康发展。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)