robots.txt文件你真的知道怎么用吗？_服务器

robots.txt文件你真的知道怎么用吗？

根据一个程序流程，robot(也称蜘蛛)，搜索引擎在互联网技术上全自动访问网页，获取网页信息。

根据一个程序流程，robot(也称spider)，搜索引擎自动访问互联网技术上的网页，获取网页信息。

你可以在你的网站中设置一个纯文本文档robot.txt，在这个文档中声明一部分网站是机器人不想访问的，这样网站的部分或者全部内容就不能被百度、搜索引擎收录，或者特定的搜索引擎只能被百度收录特定的内容。Robots.txt文件应该放在URL的根目录下。

当一个搜索智能机器人(有的叫搜索引擎蜘蛛)访问一个网站时，它会先检查网站的根目录下是否有robots.txt。如果有，搜索智能机器人会根据文件内容定义访问范围；如果文件不存在，搜索智能机器人会沿着链接爬行。

robots.txt文件的文件格式:

“robots.txt”文件包含一条或大量记录，这些记录由空白线分隔(以CR、CR/NL或NL作为终止符)。每个记录的文件格式如下所示:

"<；field>:<optionalspace><值><optionalspace>。

在该文件中，可以使用#进行注释，实际 *** 作方法与UNIX中的国际惯例相同。通常，该文件中的记录以一行或几行User-agent开头，后面是几行Disallow。详情如下:

用户代理:

此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文档中，如果有几个用户代理记录表明几个机器人将受本协议限制，则该文档至少应有一个用户代理记录。如果该项的值设置为*，则协议对于所有设备平均来说是合理的。在“robots.txt”文档中，只有一条类似“user-agent:*”的记录。

不允许:

该项的值用于描述一个你不希望被访问的URL。这个URL可以是详细的方式，也可以是它的一部分。所有以Disallow开头的URL都不容易被robot访问。比如“不允许:/help”不允许搜索引擎访问/help.html和/help/index.html，而“不允许:/help/”允许robot访问/help.html而不是/help/index.html，所有不允许的记录都是空，表示允许访问URL的所有部分。在“/robots.txt”文档中，应该至少有一条不允许的记录。如果“/robots.txt”是空文档，那么它将对所有搜索引擎机器人开放。

如何robots.txt文件的示例:

1.严禁所有搜索引擎访问网址的所有部分，免费下载robots.txt文件。用户代理:*不允许:/

2.允许所有机器人访问(或者您可以创建空文档"/robots.txt"文件)用户代理:*不允许:

3.禁止访问搜索引擎。用户代理:badbotdisallow:/

4.允许搜索引擎访问用户代理:百度蜘蛛禁用:用户代理:*禁用:/

例5。一个简单的例子。在这个例子中，这个网站中有三个文件目录限制了搜索引擎的访问，即搜索引擎不容易访问这三个文件目录。必须注意的是，每个文件目录必须单独声明，而不是写成“Disallow:/cgi-bin//tmp///tmp/”。User-agent:后面的*有唯一的含义，表示“任何机器人”，所以不能有“disallow:/tmp/*”或“disallow:*”这样的记录。gif”文件中。用户代理:*Disallow:/CGI-bin/Disallow:/tmp/Disallow:/~Joe/

机器人独特的主要参数:

1.谷歌

允许Googlebot:

如果你想阻止除Googlebot之外的所有数据浏览者访问你的网页，你可以使用下面的英语语法:

用户代理:不允许:/

用户代理:Googlebot

不允许:

Googlebot遵循有利于自己的路线，而不是有利于所有数据行者的路线。

“允许”后缀:

Googlebot可以识别名为“Allow”的robots.txt规范的后缀。其他搜索引擎的数据漫游者可能不识别这个后缀，请使用你感兴趣的其他搜索引擎进行搜索。“允许”行效果的基本原理与“不允许”行完全相同。只需列出您希望允许的文件目录或网页。

您也可以分别应用“不允许”和“允许”。例如，要阻止根目录下除某个网页之外的所有网页，可以应用以下内容:

用户代理:Googlebot

不允许:/folder1/

允许:/folder1/myfile.html

此类内容将阻止folder1文件目录中除myfile.html以外的所有网页。

如果您想要阻止Googlebot并允许另一个Google数据漫游者(如Googlebot-Mobile)，您可以应用“允许”标准来允许数据漫游者的访问。例如:

用户代理:Googlebot

不允许:/

用户代理:谷歌机器人手机

允许:

将*符号与标识符编码序列一起使用:

您可以使用星号(*)来匹配标识符编码序列。例如，要阻止对所有以private开头的根目录的访问，可以应用以下方法:

用户代理:Googlebot

不允许:/private*/

要屏蔽所有包括问题(？)，可以应用以下内容:

用户代理:*

不允许:/*？*

将$与网站地址的完成标识符一起应用

您可以使用$identifier来匹配网站地址的完整标识符。例如，阻止以结尾的网站地址。asp，您可以应用以下内容:

用户代理:Googlebot

不允许:/*。asp美元

您可以使用Allow命令应用这种模式匹配。比如，如果呢？标明一个对话ID，就可以清除包括这个ID在内的所有网址，保证Googlebot不容易抓取重复的网页。但是，用什么？末尾的网址可能是您想要包含的网页的页面版本号。在这种情况下，可以对robots.txt文档进行以下设置:

用户代理:*

允许:/*？$

不允许:/*？

不允许:/*？一条线将阻塞包括？的网站地址(实际上，它会阻止所有以您的网站域名开头，后面是一组随机字符串，再后面是一个问题(？)，然后还有一个随机字符串数组的网址)。

允许:/*？一行$将允许一切都包括在内？最后的网站地址(实际上，它将被允许包括所有以您的网站域名开头的地址，后面是一个随机字符串数组，再后面是一个问题(？)，以后没有所有标识符的网址)。

网站地图sitmap:

sitmap的一个新的适用方法是在robots.txt文件中直接包含sitemap文件的链接。

像这样:

网站地图:http://www.eastsem.com/sitemap.xml

目前适用的搜索引擎公司有Google、Yahoo、Ask、MSN。

不过我建议在GoogleSitemap提交，里面有很多功能可以分析你的连接。

点击下一页了解更多精彩内容

上一页1[/s2/]2下一页阅读全文

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/784455.html

robots.txt文件你真的知道怎么用吗？

发表评论

评论列表（0条）