我相信很多站长都遇到过那种困难,就是网站建好之后,百度搜索引擎不会把你的网站收录到百度百度里。遇到这样的困难让很多站长无从下手,也不知道如何解决。发现的那堆黑帽SEO资料解决不了问题,今天就带朋友去抓Robots协议。看完原文,也许你会发现你的网站没有被百度收录的原因!
什么是Robots协议?
RobotsExclusionProtocol,全称RobotsProtocol(又称爬虫技术协议、服务机器人协议等。),
Robots.txt是一个存储在网站根目录下的纯文本文件。虽然它的设置比较简单,但是功能非常强大。根据网站Robots协议,告诉百度搜索引擎哪些网站页面可以抓取,哪些网站页面不能抓取。所以朋友们没必要忽视这个起大作用的小关键环节!
robots.txt文件是一个文本文件,可以使用所有扩展的文本编辑器来创建和编写,例如Windows系统中嵌入的记事本和记事本。Robots.txt是协议,不是命令。估计很多站长也有误解。
有些站长的建站软件中可能嵌入了Robots.txt文件,有些则根本没有Robots.txt文件。这种爬虫技术无法抓取网站的sql索引。百度百度收录你的网站不容易自圆其说(你吃了哑巴亏还想对你的网站友好吗?所以站长们在网站建立完善后,会立即检查Robots.txt的存在,以及Robots.txt的内容是否规范。
如何使用Robots协议?
Robots.txt文本文档seo基础实例教程三金手指技术专业20:要放在网站的根目录下,根据自己的网站域名可以访问文件。所以朋友们不用把这个文本文档弄乱了!
例如,如果您的网站的具体地址是https://www.xxxx.com/,,则可以根据https://www.xxxx.com/robots.txt打开文档并查看内容。
robots.txt的标准写作格式文件是什么?
Robots.txt由User-agent、Disallow和Sitemap注解组成,每一个注解都有非常重要的声誉,不可忽视。所以朋友们不用随意换或者根本不知道robots.txt怎么写,也不用手忙脚乱!
用户代理:
用来形容百度搜索引擎搜索引擎蜘蛛的名字。在文本文档“Robots.txt”中,如果有很多用户代理记录,就意味着很多百度搜索引擎的搜索引擎蜘蛛都会受到这个协议的限制。对于此文件,必须至少有一个用户代理记录。如果此项的值设置为*,则该协议对所有百度搜索引擎、搜索引擎和搜索引擎蜘蛛都有效。在“Robots.txt”文本文档中,只有一条类似“User-agent:*”的记录。
不允许:
例一:“不允许:/help”是指/help.html和/help/index.html都不允许百度搜索引擎蜘蛛抓取。
例二:“不允许:/help/”是指允许百度搜索引擎蜘蛛抓取/help.html,而不是/help/index.html。
例Disallow的记录为空,表示允许该网站的所有网页被百度搜索引擎抓取。在“/robots.txt”文本文档中,必须至少有一条不允许记录。如果“/robots.txt”是一个空文本文档,那么对于所有的百度搜索引擎和搜索引擎蜘蛛来说,网站是开放的,是可以抓取的。
网站地图:
Sitemap:是一个方便快捷的网站站长,通知百度搜索引擎其网站可以抓取哪些网页。相对简单的Sitemap方法是XML文本文档,其中网站的详细地址和其他数据库查询涉及到每个网站的详细地址(上次升级的时间,更改的频率,相对于网站上其他网站的详细地址的重要程度等。)都在列,有利于百度搜索引擎更加智能、系统地抓取网站。
比如sitemap的具体地址是https://www.qiebk.com/sitemap.xml.
你应该加载Robots.txt中的sitemap:https://www.qiebk.com/sitemap.xml百度搜索引擎抓取sitemap时,会抓取大量的网站页面。
Robots.txt综合示例:
例一:根据“/robots.txt”,禁止所有百度搜索引擎蜘蛛抓取“/bin/cgi/”文件名,以及“/tmp/”文件名和/foo.html文本文档,并告知百度搜索引擎sitemap的具体地址。设置以下方法:
用户代理:*
Disallow:/bin/cgi/
Disallow:/tmp/
Disallow:/foo.html
网站地图:https://www.xxxx.com/sitemap.xml
例2:根据“/robots.txt”,只允许某个百度搜索引擎抓取,其他百度搜索引擎禁止抓取。比如只允许抓取全名为“slurp”的百度搜索引擎蜘蛛,而拒绝其他百度搜索引擎抓取文件名“/cgi/”下的内容。设置方法如下:
用户代理:*
Disallow:/cgi/
用户代理:slurp
不允许:
例三:禁止所有百度搜索引擎抓取我的网站。设置方法如下:
用户代理:*
不允许:/
例4:只禁止seo基础示例教程三。金手指科技专业20:百度搜索引擎抓取我的网站。比如只禁止全名为“slurp”的百度搜索引擎抓取。设置方法如下:
用户代理:slurp
不允许:/
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)