【seo文案】Robot.txt用法详解及robot.txt问题汇总

【seo文案】Robot.txt用法详解及robot.txt问题汇总,第1张

seo文案Robot.txt用法详解robot.txt问题汇总 今天小编要分享的内容就是文件优化。做网站优化的人应该都知道Robots.txt吧,我们可以通过它直接与搜索引擎蜘蛛对话,告诉蜘蛛哪些内容可以抓取,哪些内容不能抓取。这和我们今天要说的文件优化相关。

一、站内优化

Robot.txt用法详解,robot.txt问题总结

(1)为什么要设置Robots.txt?

在进行SEO运营时,我们需要告诉搜索引擎哪些页面重要,哪些页面不重要。重要的页面可以被蜘蛛抓取,不重要的页面可以被屏蔽,减轻网站服务器的负担。

(2)一些常见问题和知识点

蜘蛛发现一个网站,就抓取该网站的Robots.txt文件(当然官方是这么说的,有时候也会有不合规的情况);

建议所有网站都设置Robots.txt文件。如果你觉得网站上的内容都很重要,可以建立一个空robots.txt文件;

(3)在robots.txt文件中设置网站地图。

可以在robots.txt中添加网站的地图,告诉蜘蛛网站的地图在哪里。

④④机器人的顺序.txt

在spider协议中,allow和Allow是有序的,这是一个非常重要的问题。如果设置不正确,可能会导致爬网错误。

蜘蛛程序将根据允许或不允许行的成功匹配来确定是否访问URL。一个例子可以让你更清楚:

user-agent:*2.allow:/seojc/BBS3.disallow:/seojc/在这种情况下,可以正常爬网spider/seojc/bbs目录,但不能爬网/seojc/目录中的文件。这样就可以允许蜘蛛访问特定目录下的一些URL。

让我们交换位置观察。

用户代理:*2。不允许:/根目录中的文件夹/3。行中出现allow:/seojc/BBS/seojc/directory,禁止爬取目录中的所有文件。那么第二行中的allow就无效了,因为爬取seojc目录下的所有文件在该行中已经被禁止了,而bbs目录就在seowhy目录下。所以匹配不成功。

(5)Robots.txt路径问题

在spider协议中,Allow和Disallow后面可以有两种路径形式,即link和relativelink。链接是完整的URL形式,而相对链接只针对根目录。这是要记住的。

(6)斜线问题

Disallow:/seojc表示禁止抓取seoic目录下的所有文件,如seojc.1.html、seojc/rmjc.PHP;

Disallow:/seojc/表示禁止抓取seojc目录下的文件,即允许抓取seojc.1.html,但不允许抓取seojc/rmjc.php

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/879825.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存