【岳阳seo】使用robots.txt屏蔽蜘蛛对网站的抓取

【岳阳seo】使用robots.txt屏蔽蜘蛛对网站的抓取,第1张

【岳阳seo】使用robots.txt屏蔽蜘蛛对网站的抓取

搜索引擎智能机器人不断抓取网站,使其加入搜索引擎数据库索引。然而,有时开发者希望在搜索引擎结果中隐藏他们的网站或特殊网页。在这种情况下,robots.txt可以用来阻止搜索引擎蜘蛛访问网站。在本示例教程中,您将学习如何构建robots.txt文件,并防止搜索引擎蜘蛛访问或抓取网站。

流程1–访问web服务器并创建一个新文件

首先创建一个robots.txt文件,可以使用FTP手机客户端或者宝塔面板提交到附属网站的根目录下。

第二步–编写robots.txt

每一个搜索引擎往往都有自己专门的抓取工具(用户代理)。在robots.txt中,可以专门抓取专门的抓取工具user-agent。互联网有数以百计的网络爬虫,但最常见的是:

谷歌机器人

雅虎!大声地吃

bingbot

AhrefsBot

蜘蛛

Ezooms

MJ12bot

YandexBot

举个例子,如果你想阻止百度搜索抓取的专用工具访问可靠的网站,可以应用以下标准编写robots.txt:

用户代理:Baiduspider

不允许:/

如果想防止所有搜索引擎抓取特殊工具,可以使用*作为通配符:

用户代理:*

不允许:/

如果您希望阻止搜索引擎crawler进程仅访问特殊文件或文件夹,您应该应用类似于英语的语法,但是您必须指定文件或文件夹的名称。假设人们想阻止搜索引擎抓取工具只访问文章和private.php文件。在这种情况下,robots.txt文件的内容应该如下所示:

用户代理:*

不允许:/articles/

不允许:/private.php

编写完robots.txt文件后,保存更改并提交到网站的根目录。能够在浏览器搜索栏中键入网站域名/robots.txt进行查询。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/747348.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-29
下一篇 2022-04-29

发表评论

登录后才能评论

评论列表(0条)

保存