【岳阳seo】使用robots.txt屏蔽蜘蛛对网站的抓取_服务器

【岳阳seo】使用robots.txt屏蔽蜘蛛对网站的抓取

搜索引擎智能机器人不断抓取网站，使其加入搜索引擎数据库索引。然而，有时开发者希望在搜索引擎结果中隐藏他们的网站或特殊网页。在这种情况下，robots.txt可以用来阻止搜索引擎蜘蛛访问网站。在本示例教程中，您将学习如何构建robots.txt文件，并防止搜索引擎蜘蛛访问或抓取网站。

流程1–访问web服务器并创建一个新文件

首先创建一个robots.txt文件，可以使用FTP手机客户端或者宝塔面板提交到附属网站的根目录下。

第二步–编写robots.txt

每一个搜索引擎往往都有自己专门的抓取工具(用户代理)。在robots.txt中，可以专门抓取专门的抓取工具user-agent。互联网有数以百计的网络爬虫，但最常见的是:

谷歌机器人

雅虎！大声地吃

bingbot

AhrefsBot

蜘蛛

Ezooms

MJ12bot

YandexBot

举个例子，如果你想阻止百度搜索抓取的专用工具访问可靠的网站，可以应用以下标准编写robots.txt:

用户代理:Baiduspider

不允许:/

如果想防止所有搜索引擎抓取特殊工具，可以使用*作为通配符:

用户代理:*

不允许:/

如果您希望阻止搜索引擎crawler进程仅访问特殊文件或文件夹，您应该应用类似于英语的语法，但是您必须指定文件或文件夹的名称。假设人们想阻止搜索引擎抓取工具只访问文章和private.php文件。在这种情况下，robots.txt文件的内容应该如下所示:

用户代理:*

不允许:/articles/

不允许:/private.php

编写完robots.txt文件后，保存更改并提交到网站的根目录。能够在浏览器搜索栏中键入网站域名/robots.txt进行查询。

欢迎分享，转载请注明来源：内存溢出

【岳阳seo】使用robots.txt屏蔽蜘蛛对网站的抓取