Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt
文件,如果有这个文件就根据文件的
内容确定收录范围,如果没有就按默认访问以及收录所有页面。另外,当搜索蜘蛛发现不存在robots.txt文件时,会产生一个404错误日志在服务器上,从而增加服务器的负担,因此为站点添加一个robots.txt文件还是很重要的。知道Robots协议的作用后,下面具体说一下WordPress站点如何编写robots.txt文件。WordPress站点默认在浏览器中输入:你的域名/robots.txt,会显示如下内容:User-agent: *Disallow: /wp-admin/Disallow: /wp-includes/这是由WordPress自动生成的,意思是告诉搜索引擎不要抓取后台程序文件。但这是远远不够的,比较完整的WordPress站点robots.txt文件内容如下:User-agent: *Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/Disallow: /*/comment-page-*Disallow: /*?replytocom=*Disallow: /category/*/page/Disallow: /tag/*/page/Disallow: /*/trackbackDisallow: /feedDisallow: /*/feedDisallow: /comments/feedDisallow: /?s=*Disallow: /*/?s=*\Disallow: /attachment/
写robos的抓取目录要以实际的文件根目录来写,并且书写时是以相对地址的形式来写的,跟前台太网址无关,下面提供给你一个写法你参照下:
User-agent: *
Disallow: /rb/
Disallow: /ajaxAction/
Disallow: /tag/
Disallow: /xz/ci_*/*.html
Disallow: /xz/name_*/*.html
Disallow: /xz/id_*/*.html
Disallow: /pcsame/
Disallow: /mobilesame/
Disallow: /pcwordrank/
Disallow: /mobilewordrank/
你打任意网址并且/robots.txt都是可以查看到各个网站的robots的,你可以参照下。
很多新手站长都在因为这个问题而提问,我顺便来解答一下。
一个没有完善的网站是不应该直接上线的或者说这样对你网站的发展并没有任何好处,建议完全屏蔽roboots禁止被收录,因为搜索引擎是通过数据分析后才收录这样给你网站带来不了任何好处,网站上线一旦给搜索引擎一个不好的印象在想被收录或者说得到好的排名就不是那么容易了。
很多站群站长都很值这个理念,不过你不用担心收录问题,只要文字内容好,蜘蛛爬取内容不是很困难没有大量js和flv就是好的,如今是内容时代,所以你网站没有完善好之前肯定会有一些url不规范错误页面,内容重复,没必要的页面应该先nofollow避免权重分散
评论列表(0条)