网站里的robots文件是什么意思?User-agent: *Disallow:这两个标签到底是什么意思?

网站里的robots文件是什么意思?User-agent: *Disallow:这两个标签到底是什么意思?,第1张

robots是做裂山肆SEO非常重要的文件,用来告诉搜索引擎哪些文件能收录哪些文件不能收录。

User-agent: *Disallow: 是允许所有搜索引擎收录的意思。

User-agent: *表示允许所有搜索引擎蜘蛛来爬行抓取,也可以把*去掉,改为特定某一个或者某些肆轿搜索引擎蜘蛛来爬行抓取,唯枣如百度是Baiduspider,谷歌是Googlebot。

Disallow: 是说明不允许搜索引擎蜘蛛抓取的URL路径,如Disallow: / 就是禁止收录根目录下的所有文件。当然楼主问的Disallow: 是没有URL路径的( / 代表网站根目录下的所有文件),也就是说没有要禁止的,那么就是都允许收录的意思。

搜索引擎爬去我们页面的工具叫做搜索引擎机器人,也生动的叫做“蜘蛛”

蜘蛛在爬去网站页面之前,会先去访问网站根目录下面悔稿的一个文件,就是robots.txt。这个碧塌孝文件其实衫乎就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的网站同意全部抓取网页。

Robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。

举个例子:建立一个名为robots.txt的文本文件,然后输入

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: index.php? 表示不允许收录以index.php?前缀的链接,比如index.php?=865

Disallow: /tmp/ 表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/tougao/12121910.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存