网站里的“robots”文件是什么意思？_教程

搜索引擎爬去我们页面的工具叫做搜索引擎机器人，也生动的叫做“蜘蛛”

蜘蛛在爬去网站页面之前，会先去访问网站根目录下面的一个文件，就是robots.txt。这个文件其实就是给“蜘蛛”的规则，如果没有这个文件，蜘蛛会认为你的网站同意全部抓取网页。

Robots.txr文件是一个纯文本文件，可以告诉蜘蛛哪些页面可以爬取（收录），哪些页面不能爬取。

举个例子：建立一个名为robots.txt的文本文件，然后输入

User-agent: * 星号说明允许所有搜索引擎收录

Disallow: index.php? 表示不允许收录以index.php?前缀的链接，比如index.php?=865

Disallow: /tmp/ 表示不允许收录根目录下的tmp目录，包括目录下的文件，比如tmp/232.html

robots.txt是一个纯文本文件，用于声明该网站中不想被robots访问的部分，或者指定搜索引擎蜘蛛只抓取指定的内容。robots.txt不是规定，而是约定俗成需要搜索引擎蜘蛛自觉遵守一种道德习俗。

当一种搜索引擎蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt。如果找到，搜索引擎蜘蛛就会按照该文件中的内容来确定抓取的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

欢迎分享，转载请注明来源：内存溢出

网站里的“robots”文件是什么意思？