首先我们需要了解下robot.txt文件的用途。说到robot.txt不得不提到robot(又称spider),robot就是搜索机器人,它能够自动访问互联网上的网页并获取网页信息。它会首先检查该站点根目录下是否存在robots.txt,如果存在,就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜好毁索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robot.txt文件的详细使用教程
了解了它的用途之后,我们就可以深入的研究下这个文件了。一般建站的CMS下面都会自带有这个文件,而且里面书写了一些规则,当然这些规则都是根据CMS本身制定的。如果你用的不是现成的建站CMS,而是自己开发的,只需要在网站下面新建一个名为robot.txt文件即可。
robot.txt文件的详细使用教程
一般情况下robot.txt文件会以User-agent:开头,该项的值用于描述搜索引擎机器人robot的名字。例如User-agent:Baiduspider,就是针对百度蜘蛛进行的协议约束,robots.txt文件中至少要有一条User-agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机器人均有效。如果使用通配符,这样的记录只能有一条。
robot.txt文件的详细使用教程
第二个我们要熟悉的就是Disallow,这项值是用来描述不希望被搜索机器人访问到网址。这个网址可以是完整的路径,也就是域名加上目录名或者文件名的格式,也可以是相对,也陵高就是除去了域名,只有文件名或者目录名。
robot.txt文件的详细使用教程
很多时候我们需要Disallow的文件或者目录并不止一个,有些人可能会图省事,直接把所有的文件或者目录都写在了一个Disallow中,其实这是一种错误的做法,正确的做法是一个Disallow的对应一个文件或者目录,有多少个目录或者文件需要设置就写几个Disallow的。
robot.txt文件的详细使用教程
robot.txt文件中也只有这两个属性尺袜尺了,只要掌握了这两个属性的用法,我们就可以根据自己网站的情况自定义robot.txt文件了,如果你的robot.txt文件没弄好,或出错了,会影响整个网站的收录,所以自定义robot文件的时候还需要格外注意。
robot.txt文件的详细使用教程
7
虽然我们有些目录不想被搜索机器人抓取,但是也不能写到robot.txt文件中,例如后台管理地址。相信这个目录大家都不想被蜘蛛攀爬,但是千万不要写入robot文件中,因为它可以被任何人访问,这样无形中让别人通过这个文件知道了你的后台地址,最后的结果只会事与愿违。
登陆网站后台FTP,robots文件就在站点的根目录下面,直接使用查找输入r就可以找到,如梁冲氏果没有找到的话,可能设置的隐藏,强制现实判姿文件即可,橡散还有一种原因就是网站没有robots文件,不是所有的建站系统都自带robots文件的。欢迎分享,转载请注明来源:内存溢出
评论列表(0条)