robots.txt写法，robots怎么解除限制以及添加读取规则_服务器

robots.txt写法，robots怎么解除限制以及添加读取规则

Robots.txt是所有搜索引擎共同遵循的规则协议。搜索引擎蜘蛛抓取网站时，首先检测网站上是否有机器人，然后根据机器人的规则进行抓取。如果没有robots.txt，蜘蛛会沿着链接爬行。

记住:robots.txt必须放在站点的根目录下，文件名必须全小写。Disallow后面的冒号必须是英文。

让我们首先理解用户代理和禁止的定义。

用户代理:此项用于描述搜索引擎蜘蛛的名称。(1)规定所有蜘蛛:用户代理:*；(2)指定一个蜘蛛:用户代理:BaiduSpider。

不允许:此项用于描述您不希望被爬网和索引的URL。该URL可以是完整的路径。有几种不同的定义和写法:(1)Disallow:/AAA.net，任何以域名+Disallow描述的内容开头的URL都不会被蜘蛛访问，也就是说AAA.net目录下的文件不会被蜘蛛访问；(2)disallow:/AAA.net/允许机器人抓取和索引AAA.net/index.html,，但不允许抓取和索引AAA.net/admin.html;(3)如果Disallow记录为空，则允许访问该网站的所有部分。在robots.txt文件中，至少应该有一条Disallow记录。如果robots.txt是空文件，则网站对所有搜索引擎robot开放。

1，robot的名字，国内建网站需要的常用搜索引擎。

有时候，我们觉得网站访问量(IP)不算多，但是为什么网站流量消耗的那么快？垃圾(没有)蜘蛛爬行抓取的原因有很多。而网站要想屏蔽哪个搜索引擎或者只让哪个搜索引擎收录，首先要知道每个搜索引擎机器人的名字。

2，robots.txt文件基本上是常用的写法:

首先，您构建一个空白色文本文档(记事本)，然后将其命名为:robots.txt

(1)禁止所有搜索引擎访问网站的任何部分。

用户代理:*

不允许:/

(2)允许所有机器人参观，没有任何限制。

用户代理:*

不允许:

或者

用户代理:*

允许:/

你也可以创建一个空文件robots.txt或者不创建。

(3)只禁止一个搜索引擎访问(例如百度baiduspider)

用户代理:BaiduSpider

不允许:/

(4)允许从搜索引擎(或百度)访问

用户代理:BaiduSpider

不允许:

用户代理:*

不允许:/

这里需要注意的是，如果还需要允许Googlebot，也是加在“用户-代理:*”之前，而不是“用户-代理:*”之后。

(5)禁止蜘蛛访问特定目录和特定文件(图片、压缩文件)。

用户代理:*

不允许:/AAA.net/

不允许:/admin/

不允许:。jpg美元

不允许:。rar美元

在这之后，所有的搜索引擎都不会访问这两个目录。注意，每个目录必须单独解释，而不是写成“Disallow:/AAA.net//admin/”。

3，机器人特殊参数(这部分不熟悉的人不要轻易使用)

(1)允许

允许和不允许只是相反的功能。allow行的作用原理和Disallow行的作用原理完全一样，所以写法也一样。只需列出您想要允许的目录或页面。

Allow和allow可以同时使用。例如，如果您需要阻止子目录中除某个页面之外的所有页面，您可以这样写:

用户代理:*

不允许:/AAA.net/

允许:/AAA.net/index.html

这说明所有的蜘蛛都只能抓取/AAA.net/index.html的页面，而/AAA.net/文件夹中的其他页面则不能。你还应该注意以下错误的拼写:

用户代理:*

不允许:/AAA.net

允许:/AAA.net/index.html

请参考上面不允许值的定义。

(2)使用“*”匹配字符序列。

1.拦截搜索引擎对所有以admin开头的子目录的访问。写:

用户代理:*

不允许:/admin*/

2.阻止所有包含“？”的邮件网站编号，写为:

用户代理:*

不允许:/*？*

(3)使用“$”匹配URL的结束字符

1.阻止以结尾的URL。asp，写:

用户代理:*

不允许:/*。asp美元

2.如果“:”表示一个会话ID，可以排除包含该ID的URL，以确保蜘蛛不会抓取重复的网页。但是，用“？”末尾的URL可能是您想要包含的网页版本，写为:

用户代理:*

允许:/*？$

不允许:/*？

也就是只抢。asp？佩奇还有。asp？=1,.asp？=2等等都没抢到。

4，网站地图

对于提交网站地图，我们可以提交到Google站长工具，也可以使用robots.txt文件提示蜘蛛抓取:

网站地图:AAA.net/sitemaps.xml

5，机器人的优缺点.txt(解决方案)。

好处:

(1)有了robots.txt，蜘蛛抓取URL页面出错时不会被重定向到404错误页面，也有利于搜索引擎收录网站页面。

(2)robots.txt可以阻止我们不想要的搜索引擎占用服务器宝贵的带宽。

(3)robots.txt可以阻止搜索引擎非公开的抓取和索引，比如网站的后台程序和管理程序，蜘蛛抓取和索引一些临时的网站页面。

(4)如果网站内容由动态变为静态，但原有的一些动态参数仍然可以访问，可以通过在机器人中编写特殊参数进行限制，这样可以避免搜索引擎对重复内容的惩罚，保证网站排名不受影响。

缺点:

(1)robots.txt轻松为黑客指出后台路径。

解决方案:加密后台文件夹的内容，并将默认目录主文件inde.html重命名为其他。

(2)如果robots.txt设置不正确，会导致搜索引擎无法抓取网站内容或删除数据库中索引的所有数据。

用户代理:*

不允许:/

这一个是所有的搜索引擎将被禁止索引数据。

robots.txt写法，robots怎么解除限制以及添加读取规则

发表评论

评论列表（0条）