Robots.txt是所有搜索引擎共同遵循的规则协议。搜索引擎蜘蛛抓取网站时,首先检测网站上是否有机器人,然后根据机器人的规则进行抓取。如果没有robots.txt,蜘蛛会沿着链接爬行。
记住:robots.txt必须放在站点的根目录下,文件名必须全小写。Disallow后面的冒号必须是英文。
让我们首先理解用户代理和禁止的定义。
用户代理:此项用于描述搜索引擎蜘蛛的名称。(1)规定所有蜘蛛:用户代理:*;(2)指定一个蜘蛛:用户代理:BaiduSpider。
不允许:此项用于描述您不希望被爬网和索引的URL。该URL可以是完整的路径。有几种不同的定义和写法:(1)Disallow:/AAA.net,任何以域名+Disallow描述的内容开头的URL都不会被蜘蛛访问,也就是说AAA.net目录下的文件不会被蜘蛛访问;(2)disallow:/AAA.net/允许机器人抓取和索引AAA.net/index.html,,但不允许抓取和索引AAA.net/admin.html;(3)如果Disallow记录为空,则允许访问该网站的所有部分。在robots.txt文件中,至少应该有一条Disallow记录。如果robots.txt是空文件,则网站对所有搜索引擎robot开放。
1,robot的名字,国内建网站需要的常用搜索引擎。
有时候,我们觉得网站访问量(IP)不算多,但是为什么网站流量消耗的那么快?垃圾(没有)蜘蛛爬行抓取的原因有很多。而网站要想屏蔽哪个搜索引擎或者只让哪个搜索引擎收录,首先要知道每个搜索引擎机器人的名字。
2,robots.txt文件基本上是常用的写法:
首先,您构建一个空白色文本文档(记事本),然后将其命名为:robots.txt
(1)禁止所有搜索引擎访问网站的任何部分。
用户代理:*
不允许:/
(2)允许所有机器人参观,没有任何限制。
用户代理:*
不允许:
或者
用户代理:*
允许:/
你也可以创建一个空文件robots.txt或者不创建。
(3)只禁止一个搜索引擎访问(例如百度baiduspider)
用户代理:BaiduSpider
不允许:/
(4)允许从搜索引擎(或百度)访问
用户代理:BaiduSpider
不允许:
用户代理:*
不允许:/
这里需要注意的是,如果还需要允许Googlebot,也是加在“用户-代理:*”之前,而不是“用户-代理:*”之后。
(5)禁止蜘蛛访问特定目录和特定文件(图片、压缩文件)。
用户代理:*
不允许:/AAA.net/
不允许:/admin/
不允许:。jpg美元
不允许:。rar美元
在这之后,所有的搜索引擎都不会访问这两个目录。注意,每个目录必须单独解释,而不是写成“Disallow:/AAA.net//admin/”。
3,机器人特殊参数(这部分不熟悉的人不要轻易使用)
(1)允许
允许和不允许只是相反的功能。allow行的作用原理和Disallow行的作用原理完全一样,所以写法也一样。只需列出您想要允许的目录或页面。
Allow和allow可以同时使用。例如,如果您需要阻止子目录中除某个页面之外的所有页面,您可以这样写:
用户代理:*
不允许:/AAA.net/
允许:/AAA.net/index.html
这说明所有的蜘蛛都只能抓取/AAA.net/index.html的页面,而/AAA.net/文件夹中的其他页面则不能。你还应该注意以下错误的拼写:
用户代理:*
不允许:/AAA.net
允许:/AAA.net/index.html
请参考上面不允许值的定义。
(2)使用“*”匹配字符序列。
1.拦截搜索引擎对所有以admin开头的子目录的访问。写:
用户代理:*
不允许:/admin*/
2.阻止所有包含“?”的邮件网站编号,写为:
用户代理:*
不允许:/*?*
(3)使用“$”匹配URL的结束字符
1.阻止以结尾的URL。asp,写:
用户代理:*
不允许:/*。asp美元
2.如果“:”表示一个会话ID,可以排除包含该ID的URL,以确保蜘蛛不会抓取重复的网页。但是,用“?”末尾的URL可能是您想要包含的网页版本,写为:
用户代理:*
允许:/*?$
不允许:/*?
也就是只抢。asp?佩奇还有。asp?=1,.asp?=2等等都没抢到。
4,网站地图
对于提交网站地图,我们可以提交到Google站长工具,也可以使用robots.txt文件提示蜘蛛抓取:
网站地图:AAA.net/sitemaps.xml
5,机器人的优缺点.txt(解决方案)。
好处:
(1)有了robots.txt,蜘蛛抓取URL页面出错时不会被重定向到404错误页面,也有利于搜索引擎收录网站页面。
(2)robots.txt可以阻止我们不想要的搜索引擎占用服务器宝贵的带宽。
(3)robots.txt可以阻止搜索引擎非公开的抓取和索引,比如网站的后台程序和管理程序,蜘蛛抓取和索引一些临时的网站页面。
(4)如果网站内容由动态变为静态,但原有的一些动态参数仍然可以访问,可以通过在机器人中编写特殊参数进行限制,这样可以避免搜索引擎对重复内容的惩罚,保证网站排名不受影响。
缺点:
(1)robots.txt轻松为黑客指出后台路径。
解决方案:加密后台文件夹的内容,并将默认目录主文件inde.html重命名为其他。
(2)如果robots.txt设置不正确,会导致搜索引擎无法抓取网站内容或删除数据库中索引的所有数据。
用户代理:*
不允许:/
这一个是所有的搜索引擎将被禁止索引数据。
相关内容:欢迎分享,转载请注明来源:内存溢出
评论列表(0条)