如何创建 robots.txt 文件?

如何创建 robots.txt 文件?,第1张

您可以在任何文本编辑器中创建此文件。该文件应为 ASCII 编码的文本文件,而非 HTML 文件。文件名应使用小写字母。语法 最简单的 robotstxt 文件使用两条规则:User-Agent: 适用下列规则的漫游器Disallow: 要拦截的网页这两行被视为文件中的一个条目。您可根据需要包含任意多个条目。您可在一个条目中包含多个 Disallow 行和多个 User-Agent。应在User-Agent 行中列出什么内容? user-agent 是特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用漫游器。您可设置应用于特定漫游器的条目(通过列示名称)或设置为应用于所有漫游器(通过列示星号)。应用于所有漫游器的条目应与下列条目类似:User-Agent:Google 使用多种不同漫游器(用户代理)。用于网络搜索的漫游器是 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器遵循您为 Googlebot 设置的规则,您还可为这些特定漫游器设置附加规则。应在Disallow 行中列出什么内容? Disallow 行列出了您要拦截的网页。您可列出具体网址或网址模式。条目应以正斜杠开头 (/) 开头。要拦截整个网站,请使用正斜扛。Disallow:/要拦截目录及其中的所有内容,请在目录名后添加正斜扛。Disallow:/private_directory/要拦截网页,请列出该网页。Disallow:/private_filehtml网址区分大小写。

robotstxt文件应该放在网站根目录下,用好robots是很容易为你网站提权的。
robotstxt其实就是个记事本文件,这个文件应该放到网站的根目录
如想让蜘蛛抓取你的所有页面,可以上传一个空的记事本文件命名为“robotstxt”上传到根目录即可
robotstxt最主要的代码是Disallow
格式:User-agent:
Disallow:/admin
Disallow:/proasp
Disallow:/abchtml

您可以在任何文本编辑器中创建此文件。
该文件应为 ASCII 编码的文本文件,而非 HTML 文件。
文件名应使用小写字母。语法 最简单的 robotstxt 文件使用两条规则:User-Agent: 适用下列规则的漫游器Disallow: 要拦截的网页这两行被视为文件中的一

robots 是站点与 spider 沟通的重要渠道,站点通过 robots 文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用 robotstxt 文件。如果您希望搜索引擎收录网站上所有内容,请勿建立 robotstxt 文件。

robots 文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以 CR,CR/NL, or NL 作为结束符),每一条记录的格式如下所示: <field>:<optional space><value><optionalspace>

在该文件中可以使用#进行注解,具体使用方法和 UNIX 中的惯例一样。该文件中的记录通常以一行或多行 User-agent 开始,后面加上若干 Disallow 和 Allow 行 , 详细情况如下:

User-agent:该项的值用于描述搜索引擎 robot 的名字。在 "robotstxt" 文件中,如果有多条- User-agent 记录说明有多个 robot 会受到 "robotstxt" 的限制,对该文件来说,至少要有一条 User-agent 记录。如果该项的值设为 ,则对任何 robot 均有效,在 "robotstxt" 文件中,"User-agent:" 这样的记录只能有一条。如果在 "robotstxt" 文件中,加入 "User-agent:SomeBot" 和若干 Disallow、Allow 行,那么名为 "SomeBot" 只受到 "User-agent:SomeBot" 后面的 Disallow 和 Allow 行的限制。

Disallow:该项的值用于描述不希望被访问的一组 URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以 Disallow 项的值开头的 URL 不会被 robot 访问。例如 "Disallow:/help" 禁止 robot 访问 /helphtml、/helpabchtml、/help/indexhtml,而 "Disallow:/help/" 则允许 robot 访问 /helphtml、/helpabchtml,不能访问 /help/indexhtml。"Disallow:" 说明允许 robot 访问该网站的所有 url,在 "/robotstxt" 文件中,至少要有一条 Disallow 记录。如果 "/robotstxt" 不存在或者为空文件,则对于所有的搜索引擎 robot,该网站都是开放的。

Allow:该项的值用于描述希望被访问的一组 URL,与 Disallow 项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以 Allow 项的值开头的 URL 是允许 robot 访问的。例如 "Allow:/hibaidu" 允许 robot 访问 /hibaiduhtm、/hibaiducomhtml、/hibaidu/comhtml。一个网站的所有 URL 默认是 Allow 的,所以 Allow 通常与 Disallow 搭配使用,实现允许访问一部分网页同时禁止访问其它所有 URL 的功能。

使用 ""and"$":Baiduspider 支持使用通配符 "" 和 "$" 来模糊匹配 url。 "" 匹配 0 或多个任意字符 "$" 匹配行结束符。

最后需要说明的是:百度会严格遵守 robots 的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对 robots 中所写的文件和您不想被抓取和收录的目录做精确匹配,否则 robots 协议无法生效。

ser-agent: 这里的代表的所有的搜索引擎,是一个通配符
Disallow:/plus/ad_jsphp Disallow是不允许、禁止的意思,这里定义是禁止爬寻plus目录下的ad_jsphp文件
下边的Disallow的意思也是禁止所有搜索引擎都不允许爬取的文件或目录
User-Agent:
Allow:/ 的意思是所有的搜索引擎都可以爬取你网站的所有内容
Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面
如果你设置了所有都可以爬取,那就不必要设置robots,上述的所有robots的作用也都没用

应该是robotstxt文件吧,

robotstxt是搜索引擎中访问网站的时候要查看的第一个文件。Robotstxt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。robotstxt 是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。
当一个搜索机器人robots(有的叫搜索蜘蛛或者爬虫)访问一个站点时,它会首先检查该站点根目录下是否存在robotstxt,如果存在,搜索引擎爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索引擎爬虫就沿着链接抓取。
robotstxt 文件限制抓取网络的搜索引擎爬虫对您的网站的访问。这些搜索引擎爬虫是自动的,它们在访问任意网站的网页之前,都会查看是否存在阻止它们访问特定网页的 robotstxt 文件。(虽然某些搜索引擎爬虫可能会以不同的方式解释 robotstxt 文件中的指令,但所有正规的搜索引擎爬虫都会遵循这些指令。然而,robotstxt 不是强制执行的,一些垃圾信息发送者和其他麻烦制造者可能会忽略它。因此,我们建议对机密信息采用密码保护。)
只有当您的网站中包含您不想让搜索引擎编入索引的内容时,才需要使用 robotstxt 文件。如果您希望搜索引擎将网站上的所有内容编入索引,则不需要 robotstxt 文件(甚至连空的 robotstxt 文件也不需要)。
为了能使用 robotstxt 文件,您必须要有对您网站的根目录的访问权限(如果您不能确定是否有该权限,请与您的网络托管商核实)。如果您没有对网站的根目录的访问权限,可以使用robots元标记来限制访问。

robots是什么?
robots是一个协议,是建立在网站根目录下的一个以(robotstxt)结尾的文本文件,对搜索引擎蜘蛛的一种限制指令。是蜘蛛程序爬行网站第一个要访问抓取的页面,网站可以通过robots协议来告诉搜索引擎蜘蛛程序哪些页面可以抓取,哪些页面不可以抓取。
robots协议用来告诉搜索引擎哪些页面能被抓取,哪些页面是不能被抓取的,我们通常用 robots来屏蔽网站的一些垃圾页面、重复页面、死链接通、动态和静态多路径的同一页面。这么做的好处是可以节省一部分的服务器带宽,同时也方便蜘蛛程序更好的来抓取网站内容。其实robots就像一个指路标一样,引导着蜘蛛程序爬取网站页面。
robots符号介绍
首先我们先来认识一下书写robots时常用到的几个字符
User-agent:写义搜索引擎类型,这里的首字母要大写U,结尾冒号:后要加一个空格键,如 User-agent: 不带空格,User-agent: 带空格的。
这里的星号是一个通配符,匹配0或多个任意字符
$ 是一个结束符
Disallow:表示不希望被访问的目录或URL
Allow:表示希望被访问的目录或URL
robots的确定写法
写法一:禁止所有搜索引擎来抓取网站任何页面
User-agent: (此处号也可以写成禁止某个蜘蛛抓取,例如百度的 User-agent: Baiduspider)
Disallow: /
写法二:允许所有搜索引擎抓取网站任何页面
User-agent:
Allow: /
当然如果允许的话也可以写个空的robotstxt放网站根目录
其它写法举例:
User-agent: 代表所有搜索引擎
Disallow: /abc/ 表示禁止抓取abc目录下的目录
Disallow: /abc/html 表示禁止抓取此目录下所有以 html为后缀的URL包含子目录
Disallow: /?禁止抓取所有带?问号的URL
Disallow: /jpg$ 禁止所有以jpg结尾格式的
Disallow: /ab 禁止抓取所有以ab 开头的文件
Disallow: /ab/ahtml 禁止抓取ab文件夹下面的ahtml 文件
Allow: /ABC/ 表示允许抓取abc目录下的目录
百度robots的写法
淘宝robots的写法
最后附上我自己网站robots的写法
好了就先举例这些,最后让提醒各位站长,慎重写robots协议,确保网站上线之前解决所有问题后,建立robotstxt文本到根目录。
85、Mr宋 94-80 作业


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/13338784.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-07-17
下一篇 2023-07-17

发表评论

登录后才能评论

评论列表(0条)

保存