搜索引擎智能机器人不断抓取网站,使其加入搜索引擎数据库索引。然而,有时开发者希望在搜索引擎结果中隐藏他们的网站或特殊网页。在这种情况下,robots.txt可以用来阻止搜索引擎蜘蛛访问网站。在本示例教程中,您将学习如何构建robots.txt文件,并防止搜索引擎蜘蛛访问或抓取网站。
流程1–访问web服务器并创建一个新文件
首先创建一个robots.txt文件,可以使用FTP手机客户端或者宝塔面板提交到附属网站的根目录下。
第二步–编写robots.txt
每一个搜索引擎往往都有自己专门的抓取工具(用户代理)。在robots.txt中,可以专门抓取专门的抓取工具user-agent。互联网有数以百计的网络爬虫,但最常见的是:
谷歌机器人
雅虎!大声地吃
bingbot
AhrefsBot
蜘蛛
Ezooms
MJ12bot
YandexBot
举个例子,如果你想阻止百度搜索抓取的专用工具访问可靠的网站,可以应用以下标准编写robots.txt:
用户代理:Baiduspider
不允许:/
如果想防止所有搜索引擎抓取特殊工具,可以使用*作为通配符:
用户代理:*
不允许:/
如果您希望阻止搜索引擎crawler进程仅访问特殊文件或文件夹,您应该应用类似于英语的语法,但是您必须指定文件或文件夹的名称。假设人们想阻止搜索引擎抓取工具只访问文章和private.php文件。在这种情况下,robots.txt文件的内容应该如下所示:
用户代理:*
不允许:/articles/
不允许:/private.php
编写完robots.txt文件后,保存更改并提交到网站的根目录。能够在浏览器搜索栏中键入网站域名/robots.txt进行查询。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)