【seo文案】Robot.txt用法详解及robot.txt问题汇总_营销

【seo文案】Robot.txt用法详解及robot.txt问题汇总今天小编要分享的内容就是文件优化。做网站优化的人应该都知道Robots.txt吧，我们可以通过它直接与搜索引擎蜘蛛对话，告诉蜘蛛哪些内容可以抓取，哪些内容不能抓取。这和我们今天要说的文件优化相关。

一、站内优化

Robot.txt用法详解，robot.txt问题总结

(1)为什么要设置Robots.txt？

在进行SEO运营时，我们需要告诉搜索引擎哪些页面重要，哪些页面不重要。重要的页面可以被蜘蛛抓取，不重要的页面可以被屏蔽，减轻网站服务器的负担。

(2)一些常见问题和知识点

蜘蛛发现一个网站，就抓取该网站的Robots.txt文件(当然官方是这么说的，有时候也会有不合规的情况)；

建议所有网站都设置Robots.txt文件。如果你觉得网站上的内容都很重要，可以建立一个空robots.txt文件；

(3)在robots.txt文件中设置网站地图。

可以在robots.txt中添加网站的地图，告诉蜘蛛网站的地图在哪里。

④④机器人的顺序.txt

在spider协议中，allow和Allow是有序的，这是一个非常重要的问题。如果设置不正确，可能会导致爬网错误。

蜘蛛程序将根据允许或不允许行的成功匹配来确定是否访问URL。一个例子可以让你更清楚:

user-agent:*2.allow:/seojc/BBS3.disallow:/seojc/在这种情况下，可以正常爬网spider/seojc/bbs目录，但不能爬网/seojc/目录中的文件。这样就可以允许蜘蛛访问特定目录下的一些URL。

让我们交换位置观察。

用户代理:*2。不允许:/根目录中的文件夹/3。行中出现allow:/seojc/BBS/seojc/directory，禁止爬取目录中的所有文件。那么第二行中的allow就无效了，因为爬取seojc目录下的所有文件在该行中已经被禁止了，而bbs目录就在seowhy目录下。所以匹配不成功。

(5)Robots.txt路径问题

在spider协议中，Allow和Disallow后面可以有两种路径形式，即link和relativelink。链接是完整的URL形式，而相对链接只针对根目录。这是要记住的。

(6)斜线问题

Disallow:/seojc表示禁止抓取seoic目录下的所有文件，如seojc.1.html、seojc/rmjc.PHP；

Disallow:/seojc/表示禁止抓取seojc目录下的文件，即允许抓取seojc.1.html，但不允许抓取seojc/rmjc.php

欢迎分享，转载请注明来源：内存溢出

【seo文案】Robot.txt用法详解及robot.txt问题汇总