一、站内优化
Robot.txt用法详解,robot.txt问题总结
(1)为什么要设置Robots.txt?
在进行SEO运营时,我们需要告诉搜索引擎哪些页面重要,哪些页面不重要。重要的页面可以被蜘蛛抓取,不重要的页面可以被屏蔽,减轻网站服务器的负担。
(2)一些常见问题和知识点
蜘蛛发现一个网站,就抓取该网站的Robots.txt文件(当然官方是这么说的,有时候也会有不合规的情况);
建议所有网站都设置Robots.txt文件。如果你觉得网站上的内容都很重要,可以建立一个空robots.txt文件;
(3)在robots.txt文件中设置网站地图。
可以在robots.txt中添加网站的地图,告诉蜘蛛网站的地图在哪里。
④④机器人的顺序.txt
在spider协议中,allow和Allow是有序的,这是一个非常重要的问题。如果设置不正确,可能会导致爬网错误。
蜘蛛程序将根据允许或不允许行的成功匹配来确定是否访问URL。一个例子可以让你更清楚:
user-agent:*2.allow:/seojc/BBS3.disallow:/seojc/在这种情况下,可以正常爬网spider/seojc/bbs目录,但不能爬网/seojc/目录中的文件。这样就可以允许蜘蛛访问特定目录下的一些URL。
让我们交换位置观察。
用户代理:*2。不允许:/根目录中的文件夹/3。行中出现allow:/seojc/BBS/seojc/directory,禁止爬取目录中的所有文件。那么第二行中的allow就无效了,因为爬取seojc目录下的所有文件在该行中已经被禁止了,而bbs目录就在seowhy目录下。所以匹配不成功。
(5)Robots.txt路径问题
在spider协议中,Allow和Disallow后面可以有两种路径形式,即link和relativelink。链接是完整的URL形式,而相对链接只针对根目录。这是要记住的。
(6)斜线问题
Disallow:/seojc表示禁止抓取seoic目录下的所有文件,如seojc.1.html、seojc/rmjc.PHP;
Disallow:/seojc/表示禁止抓取seojc目录下的文件,即允许抓取seojc.1.html,但不允许抓取seojc/rmjc.php
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)