PJzhang:robots协议的实际场景

PJzhang:robots协议的实际场景,第1张

概述猫宁!!! 参考链接: https://bbs.360.cn/thread-15062960-1-1.html https://ziyuan.baidu.com/college/courseinfo?id=150   看到robots这个关键词,先了解一下它的定义,如下是百度百科介绍: robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots @H_419_4@

猫宁!!!

参考链接:

https://bbs.360.cn/thread-15062960-1-1.HTML

https://ziyuan.baIDu.com/college/courseinfo?ID=150

 

看到robots这个关键词,先了解一下它的定义,如下是百度百科介绍:

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

 

展示一个robots.txt使用的例子:

https://cn.bing.com/robots.txt,这是必应搜索的robots.txt文件,节取其中一部分。

User-agent: msnbot-media

disallow: /

Allow: /th?

 

User-agent: Twitterbot

disallow:

 

User-agent: *

disallow: /account/

disallow: /amp/

disallow: /bfp/search

disallow: /bing-site-safety

disallow: /blogs/search/

disallow: /entitIEs/search

disallow: /fd/

disallow: /history

disallow: /hotels/search

disallow: /images?

disallow: /images/search?

disallow: /images/search/?

 

Sitemap: http://cn.bing.com/dict/sitemap-index.xml

 

只有当网站运营者不想让一些网页被搜索引擎收录,才会采用robots.txt,否则表示默认全站都可以被搜索引擎爬取收录了。

robots.txt文件放于根目录,内容可包含多条记录,中间用空行分割,如果robots.txt中什么都没有,表示全站可以爬取。

User-agent: *,表示针对所有爬虫。

User-agent: Twitterbot,表示针对Twitterbot这一种爬虫。

disallow: /bfp/search,表示爬虫不能访问以/bfp/search开头的所有url页面,例如/bfp/search/abc.HTML,/bfp/searchabc.HTML等等,当然直接不允许对方访问某一个特定的url也是可以的。

Allow: /bfp/search/vip,表示爬虫可以访问/bfp/search/vip开头的所有url页面。

Sitemap: http://cn.bing.com/dict/sitemap-index.xml,告知爬虫这个文件是站点地图

Allow和disallow结合使用,灵活掌握爬虫所访问的页面内容,不至于导致一刀切的局面。

 

这里严格区分字母的大小写。

 

*,星号表示0个及以上字符。

$,美元符号表示结束符。

这两个都是通配符

 

禁止所有搜索引擎访问网站的任何目录。

User-agent: *

disallow: /

 

允许所有的搜索引擎访问网站的任何目录

User-agent: *

Allow: /

 

禁止百度访问网站的任何目录

User-agent: BaIDuspIDer

disallow: /

 

仅允许百度访问网站的任何目录

User-agent: BaIDuspIDer

Allow: /

 

禁止访问/abc/开头下的目录,但是其中的HTML后缀文件除外

User-agent: *

disallow: /abc/

Allow:/abc/*.HTML$

 

禁止访问网站中的所有动态页面,注意字符全都是英文字符

User-agent: *

disallow: /*?*

 

以上的都是一些基本的解释说明,可以通过查看知名站点的robots.txt文件,了解对方不想要让搜索引擎抓取的路径,对于渗透测试有时会有新的发现或启发。

http://www.dianPing.com/robots.txt,能看出来大众点评不希望所有的爬虫爬取其中的7个目录,例如优惠券、图片、账户等等,但绝对禁止爱帮网(聚合本地生活信息)和口碑网(阿里巴巴旗下生活信息平台)这两家的爬虫爬取任何大众点评域名www.dianPing.com上的东西。

全部内容

User-agent: *

 

disallow: /coupon/

disallow: /events/

disallow: /thirdconnect/

disallow: /member/

disallow: /album/

disallow: /dplab/

 

User-agent: www.aibang.com disallow: /

User-agent: aibang.com disallow: /

User-agent: aibang disallow: /

User-agent: aibangspIDer disallow: /

User-agent: aibang-spIDer disallow: /

User-agent: aibangbot disallow: /

User-agent: aibang-bot disallow: /

User-agent: koubeispIDer disallow: /

User-agent: koubei.com disallow: /

 

认真解读一家站点的robots.txt,也许可以看到互联网江湖的一些刀光剑影的余晖。

@H_419_4@ @H_419_4@ @H_419_4@ 总结

以上是内存溢出为你收集整理的PJzhang:robots协议的实际场景全部内容,希望文章能够帮你解决PJzhang:robots协议的实际场景所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/web/1072426.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-26
下一篇 2022-05-26

发表评论

登录后才能评论

评论列表(0条)

保存