框架里面怎么设置robots.txt文件

框架里面怎么设置robots.txt文件,第1张

您可以在任何
文本编辑器
中创建此文件
该文件应为
ASCII
编码的文本文件,而非
HTML
文件。
文件名应使用
小写字母
。语法
最简单的
robotstxt
文件使用两条规则:
User-Agent
:
适用下列规则的漫游器Disallow:
要拦截的网页这两行被视为文件中的一

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是国际互联网界通行的道德规范,尊重信息提供者的意愿维护其隐身,正如08年淘宝网屏蔽蜘蛛,11年京东的一淘网屏蔽了爬虫,都是体现robotstxt的规范互联网的原则,遵从民主自由。话题有点偏了,回到wordpress如何设置最佳robotstxt。
Robotstxt是搜索引擎蜘蛛进站的第一个胃口,首要检查的文件,网站有很多内容例如js,style,插件,是无需爬虫去抓取的,对博客网站来说文章才是重中之重,把所有力气放在文章,一点击破,而不是浪费资源做无用功,而wordpress默认的robotstxt是:
User-agent: Disallow: /wp-admin/ Disallow: /wp-includes/
这只是其中的一小部分,对不懂优化的人来说,屏蔽这些应该已经足够,但对SEO来说,就是追求完美,没有最好只有更好,那么要屏蔽那些,如何屏蔽呢
1动态页面对搜索引擎不友好,搜索引擎的口味是静态页面,所以可以屏蔽动态页面,前提是网站要伪静态,
Disallow: / 限制动态页面 /%post_id%html 伪静态设置
2管理员登录界面,既然是管理员就没必要给爬虫抓取,登录界面对用户也没用
Disallow: /wp-admin/ 限制管理员登陆页面
3插件、模板、js文件这些是网站的后台程序代码,也可以屏蔽
Disallow: /wp-content/plugins/ 限制插件文件
Disallow: /wp-content/themes/ 限制模板文件
Disallow: /wp-includes/ 限制js文件
4feed,不知道站长们对这个熟悉吗,这个是网站的订阅文件,原本漳州网站建设也不知道,只知道有RSS订阅,在网站域名后加个feed你就清楚了,这个也可以屏蔽。
Disallow: /feed
5网站的评论,评论被抓取会导致文章的重复,不利于观察分析,用户体验,但这个视具体情况,个人爱好不一。
Disallow: /comments 限制评论
Disallow: /replytocom 限制每一个评论页面
设置完Robotstxt后,为保险起见,最好用百度站长工具检查一下,漳州网站建设就被robotstxt解禁困扰过,花了很长时间才把它搞定。插个小曲,robotstxt不仅可以禁止爬虫爬取网站结构,也可以禁止 404页面,搜索蜘蛛非常喜欢网站地图,sitemap可以为搜索引擎蜘蛛指路,增加网站重要内容页面的收录,也有利于用户体验,所以最后一点就是加入网站地图。

;网站要设置robotstxt文件,我们就必需先了解什么是robotstxt?robotstxt是一个协议,而不是一个命令。robotstxt文件是搜索引擎来到一个网站必先看的文件,它是用来告诉搜索引擎在这个网站上什么可以看,什么不可以看。robotstxt文件对我们做seo的来说是非常有好处的,所以一个seo出色的网站在这些细节上做的非常到位,许多大型的网站都有设置robotstxt协议。比如:>网站的robotstxt文件一定要存放在网站的根目录。搜索引擎来网站抓取内容的时候,首先会访问你网站根目录下的一个文本文件robotstxt,搜索引擎机器人通过robotstxt里的说明,来理解该网站是否可以全部抓取,或只允许部分抓取。注意:网站的robotstxt文件一定要存放在网站的根目录。robotstxt文件举例说明
禁止所有搜索引擎访问网站的任何内容
User-agent:
Disallow: / 禁止所有搜索引擎抓取某些特定目录
User-agent:
Disallow: /目录名1/
Disallow: /目录名2/
Disallow: /目录名3/ 允许访问特定目录中的部分url
User-agent:
Allow: /158
Allow: /joke 禁止访问网站中所有的动态页面
User-agent:
Disallow: /
仅允许百度抓取网页和gif格式,不允许抓取其他格式
User-agent: Baiduspider
Allow: /gif$
Disallow: /jpg$
Disallow: /jpeg$
Disallow: /png$
Disallow: /bmp$ 1屏蔽404页面
Disallow: /404html 2屏蔽死链
原来在目录为/158下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robotstxt把他屏蔽掉。
Disallow: /158/ 3屏蔽动态的相似页面
假设以下这两个链接,内容其实差不多。
/XXX123/123html我们要屏掉/XXX123 页面,代码如下:
Disallow: /XXX 4告诉搜索引擎你的sitemapxml地址

一、 什么是robotstxt文件
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息。您可以在您的网站中创建一个纯文本文件robotstxt,在这个文件中声明该网站中不想被robot 访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜 索引擎只收录指定的内容。
二、 robotstxt文件放在哪里
robotstxt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如 >

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12802545.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存