robot可以限制爬虫程序采集某些网页的数据是对的还是错的_软件运维

robots是网站跟爬虫间的协议，用简单直接竖亏的txt格式文本方式告诉对应的爬虫被允许的权限，

也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问

一脊轿个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会

按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网余野神站

上所有没有被口令保护的页面。

适用于未伪静态的DEDECMS网站。

User-agent: *

Disallow: /dede 管理后台目录，需要改名，具体设置后面具体讲

Disallow: /include 程序核心文件目录

Disallow: /member 会员管理目录，有些文件可以开放

Disallow: /plus 插件及辅助功能目录，有些文件可以开放，如search.php

Disallow: /templets 默认模板存放目录

Disallow: /data 系统缓存或其它可写入数据存放目录

Disallow: /uploads 上传下载文件保存目录,不想搜索引擎引用图片的话，禁止

Disallow: /images 系统默认模板图片存放目录

Disallow: /index.php 网站默认首页，静态化的话，最好禁止

Disallow: /404.html

Allow: /plus/search.php 开放禁止目录里的具体文件

...

基本设置就是这样，下面着重讲下后台管理目录和栏目页的设置：

1.dede目录，为了网站安全考虑需要改名。然而改名之后，大家不免疑惑：改了名，在robots.txt文件里怎么设置呢？直接禁止抓取，还是泄露了后台目录，等于改名无效。那么该如何解决这个问题呢?我们可以通过下面的设置解伍做悉决这个问题，如后台目录为dedecms：

Disallow: /d*ms

这样我们就能即禁止了搜索引擎的抓取，又不会泄露了后台目录名称。

2.栏目页。有些人会注意到，如果网站不做伪静态优化的话，栏目分页后会有两个链接指向栏目首页，如*/web/和*/web/list_1_1.html，为了网站优化，建议先将栏目腔乎分页优化以下，把首页和第一页的链接改为*/web/的形式，然后在robots.txt文件里做以下设置:

Disallow: /*1.html$

以上就是DEDECMS robots.txt文件的设置，大家可以根据胡消自己网站的情况具体设置。

注意事项：

1.按官方说明设置好目录权限；

2.后台目录改后的名称开头字母和结尾字母不要和其他目录一样；

3.用百度站长工具测试一下robots.txt文件设置是否有效。

欢迎分享，转载请注明来源：内存溢出

robot可以限制爬虫程序采集某些网页的数据是对的还是错的