Robots文件是网站与各种搜索引擎建立高质量沟通的道路和路桥,也是网站从搜索引擎获取流量的第一步。因为机器人设置不当,很可能会损失很大一部分流量。对于提高SEO的从业者或爱好者,尽量掌握基本概念和设置方法。对于网站技术人员和相关设计开发技术专业人员来说,掌握robots.txt文件的设置方法是一项大大加分的额外专业能力。网上有很多相关的入门教程,但总是缺乏或者难以理解。因此,对管理决策进行了详细的梳理。
机器人
robots.txt的作用是什么?
Robots.txt文件只有一个作用:用来屏蔽一个或多个搜索引擎。禁止在您的网站上包含该内容。默认情况下,网址允许所有搜索引擎抓取和收集网页。但出于某种目的,你可以屏蔽一个或多个搜索引擎在你的网址上收集网页,这样就很容易达成这种共识。因此,robots合同是完全公开的,所有搜索引擎都遵循robots合同。
搜索
每个搜索引擎都有一个 *** 作程序,叫做搜索引擎蜘蛛或服务机器人(bot)。大家下意识地称之为“搜索引擎蜘蛛”。在做出是否抓取你的网站页面的管理决策时,搜索引擎蜘蛛会先检查你的网站根目录下是否有robots.txt文件。如果没有robots.txt,表示允许所有抓取。如果有robots.txt文件,搜索引擎蜘蛛会识别自己的名字是否被拒绝,然后识别你设置的内容不允许抓取,然后抓取并收录网页。
robots.txt文件的写入
基础英语语法
默认情况下,所有URL都允许被所有搜索引擎抓取和包含。robots.txt只用于禁止搜索引擎收录,所以只需要添加搜索引擎蜘蛛(User-agent)的名称和disallow(禁止内容)即可。在特殊情况下,允许使用英语语法。
用户代理:*不允许:/允许:*。html$#seo
绝对不行
一定要大写第一个字母。灶台后面展示英文的空case,用“英镑符号”表示音符。可以用“*”匹配0个或多个任意空大小写,用“$”匹配行终止符,英文区分大小写。所以你要注意文档或者文件夹的名字的精确匹配,这样搜索引擎才能尽快做到。
Robots.txt各种写法
1.阻止所有搜索引擎中包含的所有网页。
屏蔽搜索引擎的搜索引擎只需要将user-agent设置为*,如下图图例所示,后面的斜杠disallow表示网站的根目录。网站根目录以下的都不允许收录,两行数字就够了。
用户代理:*不允许:/2。允许所有搜索引擎包含所有网页。
所有搜索引擎都允许。可以删除robots.txt文件中的所有内容,也就是可以保存一个空文档,也可以用下面的数字来说明。
用户代理:*Allseo入门教程pdf:ow:/
3.只允许包括特殊的搜索引擎。
一定要把搜索引擎蜘蛛的名字写在前面,最后用*匹配全部,下面编号。仅限百度搜索和谷歌seo初级教程pdf:允许,其他搜索引擎严禁。
User-agent:百度蜘蛛allow:/user-agent:googelebolable:/user-agent:*disallow:/严禁第五、第六、一两句话,前面允许特殊搜索引擎蜘蛛名称,所以除了百度、Google搜索引擎蜘蛛,其他搜索引擎不能收录网页。
4.严禁使用特殊搜索引擎。
如果你只是想专门屏蔽一个或多个搜索引擎,比如百度和谷歌搜索引擎蜘蛛,那么就写以下内容。
用户代理:baiduspiderDisallow:/用户代理:googelebotDisallow:/用户代理:*允许:/
因为默认状态是允许,所以第五句和第六句一般不写。仅写入disallow的一部分。你可能已经发现了,user-agent后面只跟了特定的搜索引擎蜘蛛名或者星号,而disallow和allow后面的内容是整个站点源代码用斜杠代替其他匹配,因为后面跟的是URL的文件目录,所以在强调文件目录的时候不能用其他匹配。比如“不允许:*”的写法也是不正确的。
严禁抓取和收录文件目录和文档写英文的语法。以下是一些例子。
1.严禁搜索引擎包含特殊文件目录。
用户代理:*disallow:/asf/disallow:/2020/表示ASF和2020文件夹名称中的所有内容都被所有搜索引擎严格禁止。当您阻止文件夹名称时,应该以斜杠结束。如果你那样写“Disallow:/2020”,但是不能在末尾加斜杠,那么就严禁在根目录中表示以2020开头的URL。比如/2020.html、/2020abc.html和/2020/df.html都是严禁包含的,所以不要写不允许屏蔽文件的目录。
2.允许搜索引擎在禁止的文件目录中包含唯一的URL。
如果一个文件目录“df”被阻止了,但是你想把df文件目录中的特殊网页包含进去,你该怎么做?使用下面的英语语法。
用户代理:*allow:/df/111.htmlallow:/df/*22c.phpdisallow:/df/allow应该写在前面,后面是写掩码的文件目录名。这种写法很少用。一般需要立即屏蔽文件目录,所以不需要允许几个或者某一类URL包含在其中。上面数字的第二句话指的是网站根目录的df文件夹名中111.html的网页。第三句是指允许网站根目录的df文件目录中所有包含“22c.php”的URL被收录。第四句是禁止包含df文件目录下的所有URL,允许的写在前面。
3.使用星号匹配特定类型的URL。
星号可以匹配一种类型的URL,这大大提高了设置的便利性。你要在整个过程中熟练掌握。如果在Sseo外链的设置中经常遇到屏蔽某类URL的情况,可以大量使用*。
用户代理:*不允许:/ABC/不允许:/*?*不允许:/rt/jc*不允许:/*phpdisallow:/*ps*第三句严禁包含动态URL,第四句严禁包含rt文件目录中以JC开头的URL,第五句严禁包含包含“.php”(包括那些以。php,比如php和as.php?Id=2,禁止dd.php23.html),第六句禁止在URL中包含带“ps”的URL。
4.使用$匹配URL。
如果必须在某个类的末尾屏蔽url或文档,此时必须选择结尾匹配标识符“$”。
用户代理:*禁止:/ABC/*ty.php$禁止:/*。php$disallow:/*。jpg$上面第二句话禁止ABC文件目录中以ty.php结尾的url,第三句话禁止以。php全站源代码,第四句禁止全站源代码JPG格式的照片。可以看出,如果是屏蔽特定的文件扩展名url,就必须以$结尾。
5.严禁搜索引擎搜索照片的英文语法。
严禁在网站照片中使用$和*匹配符号,写法比较简单。
用户代理:*不允许:/*。jpg$disallow:/*。jpeg$disallow:/*。png$disallow:/*。gif$以上是全网站的jpg/jpeg/png/gif格式的照片。
6.只有搜索引擎允许包含静态页面。
用户代理:*允许:/*。html$disallow:/与allow一起使用。禁止包含整个站点源代码的所有URL,然后使用allow允许URL以“.”结尾。html”包含在内。
那是所有机器人文件的写法。这里的难点是通配符星号和终止符$的使用。从genie的例子中学习,确保每次写记录时不会阻止错误的url,每列一个记录。对于robots.txt文件,每次写完后都要仔细检查,写错了危害会加大。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)