robots.txt写法,robots怎么解除限制以及添加读取规则

robots.txt写法,robots怎么解除限制以及添加读取规则,第1张

robots.txt写法,robots怎么解除限制以及添加读取规则

Robots.txt是所有搜索引擎共同遵循的规则协议。搜索引擎蜘蛛抓取网站时,首先检测网站上是否有机器人,然后根据机器人的规则进行抓取。如果没有robots.txt,蜘蛛会沿着链接爬行。

记住:robots.txt必须放在站点的根目录下,文件名必须全小写。Disallow后面的冒号必须是英文。

让我们首先理解用户代理和禁止的定义。

用户代理:此项用于描述搜索引擎蜘蛛的名称。(1)规定所有蜘蛛:用户代理:*;(2)指定一个蜘蛛:用户代理:BaiduSpider。

不允许:此项用于描述您不希望被爬网和索引的URL。该URL可以是完整的路径。有几种不同的定义和写法:(1)Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL都不会被蜘蛛访问,也就是说AAA.net目录下的文件不会被蜘蛛访问;(2)disallow:/AAA.net/允许机器人抓取和索引AAA.net/index.html,,但不允许抓取和索引AAA.net/admin.html;(3)如果Disallow记录为空,则允许访问该网站的所有部分。在robots.txt文件中,至少应该有一条Disallow记录。如果robots.txt是空文件,则网站对所有搜索引擎robot开放。

1,robot的名字,国内建网站需要的常用搜索引擎。

有时候,我们觉得网站访问量(IP)不算多,但是为什么网站流量消耗的那么快?垃圾(没有)蜘蛛爬行抓取的原因有很多。而网站要想屏蔽哪个搜索引擎或者只让哪个搜索引擎收录,首先要知道每个搜索引擎机器人的名字。

2,robots.txt文件基本上是常用的写法:

首先,您构建一个空白色文本文档(记事本),然后将其命名为:robots.txt

(1)禁止所有搜索引擎访问网站的任何部分。

用户代理:*

不允许:/

(2)允许所有机器人参观,没有任何限制。

用户代理:*

不允许:

或者

用户代理:*

允许:/

你也可以创建一个空文件robots.txt或者不创建。

(3)只禁止一个搜索引擎访问(例如百度baiduspider)

用户代理:BaiduSpider

不允许:/

(4)允许从搜索引擎(或百度)访问

用户代理:BaiduSpider

不允许:

用户代理:*

不允许:/

这里需要注意的是,如果还需要允许Googlebot,也是加在“用户-代理:*”之前,而不是“用户-代理:*”之后。

(5)禁止蜘蛛访问特定目录和特定文件(图片、压缩文件)。

用户代理:*

不允许:/AAA.net/

不允许:/admin/

不允许:。jpg美元

不允许:。rar美元

在这之后,所有的搜索引擎都不会访问这两个目录。注意,每个目录必须单独解释,而不是写成“Disallow:/AAA.net//admin/”。

3,机器人特殊参数(这部分不熟悉的人不要轻易使用)

(1)允许

允许和不允许只是相反的功能。allow行的作用原理和Disallow行的作用原理完全一样,所以写法也一样。只需列出您想要允许的目录或页面。

Allow和allow可以同时使用。例如,如果您需要阻止子目录中除某个页面之外的所有页面,您可以这样写:

用户代理:*

不允许:/AAA.net/

允许:/AAA.net/index.html

这说明所有的蜘蛛都只能抓取/AAA.net/index.html的页面,而/AAA.net/文件夹中的其他页面则不能。你还应该注意以下错误的拼写:

用户代理:*

不允许:/AAA.net

允许:/AAA.net/index.html

请参考上面不允许值的定义。

(2)使用“*”匹配字符序列。

1.拦截搜索引擎对所有以admin开头的子目录的访问。写:

用户代理:*

不允许:/admin*/

2.阻止所有包含“?”的邮件网站编号,写为:

用户代理:*

不允许:/*?*

(3)使用“$”匹配URL的结束字符

1.阻止以结尾的URL。asp,写:

用户代理:*

不允许:/*。asp美元

2.如果“:”表示一个会话ID,可以排除包含该ID的URL,以确保蜘蛛不会抓取重复的网页。但是,用“?”末尾的URL可能是您想要包含的网页版本,写为:

用户代理:*

允许:/*?$

不允许:/*?

也就是只抢。asp?佩奇还有。asp?=1,.asp?=2等等都没抢到。

4,网站地图

对于提交网站地图,我们可以提交到Google站长工具,也可以使用robots.txt文件提示蜘蛛抓取:

网站地图:AAA.net/sitemaps.xml

5,机器人的优缺点.txt(解决方案)。

好处:

(1)有了robots.txt,蜘蛛抓取URL页面出错时不会被重定向到404错误页面,也有利于搜索引擎收录网站页面。

(2)robots.txt可以阻止我们不想要的搜索引擎占用服务器宝贵的带宽。

(3)robots.txt可以阻止搜索引擎非公开的抓取和索引,比如网站的后台程序和管理程序,蜘蛛抓取和索引一些临时的网站页面。

(4)如果网站内容由动态变为静态,但原有的一些动态参数仍然可以访问,可以通过在机器人中编写特殊参数进行限制,这样可以避免搜索引擎对重复内容的惩罚,保证网站排名不受影响。

缺点:

(1)robots.txt轻松为黑客指出后台路径。

解决方案:加密后台文件夹的内容,并将默认目录主文件inde.html重命名为其他。

(2)如果robots.txt设置不正确,会导致搜索引擎无法抓取网站内容或删除数据库中索引的所有数据。

用户代理:*

不允许:/

这一个是所有的搜索引擎将被禁止索引数据。

相关内容:
  • robots.txt文件协议的最佳设置技巧
  • 欢迎分享,转载请注明来源:内存溢出

    原文地址: https://outofmemory.cn/zz/747572.html

    (0)
    打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
    上一篇 2022-04-29
    下一篇 2022-04-29

    发表评论

    登录后才能评论

    评论列表(0条)

    保存