根据一个程序流程,robot(也称蜘蛛),搜索引擎在互联网技术上全自动访问网页,获取网页信息。
根据一个程序流程,robot(也称spider),搜索引擎自动访问互联网技术上的网页,获取网页信息。
你可以在你的网站中设置一个纯文本文档robot.txt,在这个文档中声明一部分网站是机器人不想访问的,这样网站的部分或者全部内容就不能被百度、搜索引擎收录,或者特定的搜索引擎只能被百度收录特定的内容。Robots.txt文件应该放在URL的根目录下。
当一个搜索智能机器人(有的叫搜索引擎蜘蛛)访问一个网站时,它会先检查网站的根目录下是否有robots.txt。如果有,搜索智能机器人会根据文件内容定义访问范围;如果文件不存在,搜索智能机器人会沿着链接爬行。
robots.txt文件的文件格式:
“robots.txt”文件包含一条或大量记录,这些记录由空白线分隔(以CR、CR/NL或NL作为终止符)。每个记录的文件格式如下所示:
"<;field>:<optionalspace><值><optionalspace>。
在该文件中,可以使用#进行注释,实际 *** 作方法与UNIX中的国际惯例相同。通常,该文件中的记录以一行或几行User-agent开头,后面是几行Disallow。详情如下:
用户代理:
此项的值用于描述搜索引擎机器人的名称。在“robots.txt”文档中,如果有几个用户代理记录表明几个机器人将受本协议限制,则该文档至少应有一个用户代理记录。如果该项的值设置为*,则协议对于所有设备平均来说是合理的。在“robots.txt”文档中,只有一条类似“user-agent:*”的记录。
不允许:
该项的值用于描述一个你不希望被访问的URL。这个URL可以是详细的方式,也可以是它的一部分。所有以Disallow开头的URL都不容易被robot访问。比如“不允许:/help”不允许搜索引擎访问/help.html和/help/index.html,而“不允许:/help/”允许robot访问/help.html而不是/help/index.html,所有不允许的记录都是空,表示允许访问URL的所有部分。在“/robots.txt”文档中,应该至少有一条不允许的记录。如果“/robots.txt”是空文档,那么它将对所有搜索引擎机器人开放。
如何robots.txt文件的示例:
1.严禁所有搜索引擎访问网址的所有部分,免费下载robots.txt文件。用户代理:*不允许:/
2.允许所有机器人访问(或者您可以创建空文档"/robots.txt"文件)用户代理:*不允许:
3.禁止访问搜索引擎。用户代理:badbotdisallow:/
4.允许搜索引擎访问用户代理:百度蜘蛛禁用:用户代理:*禁用:/
例5。一个简单的例子。在这个例子中,这个网站中有三个文件目录限制了搜索引擎的访问,即搜索引擎不容易访问这三个文件目录。必须注意的是,每个文件目录必须单独声明,而不是写成“Disallow:/cgi-bin//tmp///tmp/”。User-agent:后面的*有唯一的含义,表示“任何机器人”,所以不能有“disallow:/tmp/*”或“disallow:*”这样的记录。gif”文件中。用户代理:*Disallow:/CGI-bin/Disallow:/tmp/Disallow:/~Joe/
机器人独特的主要参数:
1.谷歌
允许Googlebot:
如果你想阻止除Googlebot之外的所有数据浏览者访问你的网页,你可以使用下面的英语语法:
用户代理:不允许:/
用户代理:Googlebot
不允许:
Googlebot遵循有利于自己的路线,而不是有利于所有数据行者的路线。
“允许”后缀:
Googlebot可以识别名为“Allow”的robots.txt规范的后缀。其他搜索引擎的数据漫游者可能不识别这个后缀,请使用你感兴趣的其他搜索引擎进行搜索。“允许”行效果的基本原理与“不允许”行完全相同。只需列出您希望允许的文件目录或网页。
您也可以分别应用“不允许”和“允许”。例如,要阻止根目录下除某个网页之外的所有网页,可以应用以下内容:
用户代理:Googlebot
不允许:/folder1/
允许:/folder1/myfile.html
此类内容将阻止folder1文件目录中除myfile.html以外的所有网页。
如果您想要阻止Googlebot并允许另一个Google数据漫游者(如Googlebot-Mobile),您可以应用“允许”标准来允许数据漫游者的访问。例如:
用户代理:Googlebot
不允许:/
用户代理:谷歌机器人手机
允许:
将*符号与标识符编码序列一起使用:
您可以使用星号(*)来匹配标识符编码序列。例如,要阻止对所有以private开头的根目录的访问,可以应用以下方法:
用户代理:Googlebot
不允许:/private*/
要屏蔽所有包括问题(?),可以应用以下内容:
用户代理:*
不允许:/*?*
将$与网站地址的完成标识符一起应用
您可以使用$identifier来匹配网站地址的完整标识符。例如,阻止以结尾的网站地址。asp,您可以应用以下内容:
用户代理:Googlebot
不允许:/*。asp美元
您可以使用Allow命令应用这种模式匹配。比如,如果呢?标明一个对话ID,就可以清除包括这个ID在内的所有网址,保证Googlebot不容易抓取重复的网页。但是,用什么?末尾的网址可能是您想要包含的网页的页面版本号。在这种情况下,可以对robots.txt文档进行以下设置:
用户代理:*
允许:/*?$
不允许:/*?
不允许:/*?一条线将阻塞包括?的网站地址(实际上,它会阻止所有以您的网站域名开头,后面是一组随机字符串,再后面是一个问题(?),然后还有一个随机字符串数组的网址)。
允许:/*?一行$将允许一切都包括在内?最后的网站地址(实际上,它将被允许包括所有以您的网站域名开头的地址,后面是一个随机字符串数组,再后面是一个问题(?),以后没有所有标识符的网址)。
网站地图sitmap:
sitmap的一个新的适用方法是在robots.txt文件中直接包含sitemap文件的链接。
像这样:
网站地图:http://www.eastsem.com/sitemap.xml
目前适用的搜索引擎公司有Google、Yahoo、Ask、MSN。
不过我建议在GoogleSitemap提交,里面有很多功能可以分析你的连接。
点击下一页了解更多精彩内容
上一页1[/s2/]2下一页阅读全文
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)