如何屏蔽搜索引擎蜘蛛对网站的抓取?

如何屏蔽搜索引擎蜘蛛对网站的抓取?,第1张

如何屏蔽搜索引擎蜘蛛对网站的抓取?

要明白在seo优化的整个过程中,有时候搜索引擎蜘蛛是必须被屏蔽的,也就是说禁止抓取网站的某个区域,那么人们应该如何屏蔽搜索引擎蜘蛛呢?我们来看看实际 *** 作步骤。

百度抓取人们的网站,期望人们的网页被其搜索引擎收录。在未来,当客户搜索时,它将允许我们产生一定数量的搜索引擎,以增加总流量。自然,人们不希望搜索引擎抓取所有项目。

所以,这个时候,人们只指望能抢到搜索引擎检索到的内容。例如,客户的隐私保护和背景信息内容不期望搜索引擎被捕获和包含。处理这个问题有两种最好的方法,如下所示:

robots协议文件封杀百度蜘蛛抓取

Robots协议是放在网站根目录下的协议文档,根据网址(网址:http://www.simcf.cc/robots.txt)可以浏览。百度蜘蛛抓取人家网站的时候,会先浏览这个文档。因为它告诉蜘蛛它们能抓什么,不能抓什么。

Robots协议文档设置非常简单,可以根据三个主要参数进行设置:用户代理、禁止和允许。

  • 用户代理:不同搜索引擎的声明;
  • 不允许:不允许被爬网的文件目录或页面;
  • 允许:允许抓取的文件目录或页面一般可以省略或不写,因为不写所有不能抓取的内容,都是可以抓取的。
  • 人们看下面一个例子。情况是,我不会指望百度搜索和抓取我网站的所有css文件、数据文件目录和seo-tag.html页面。

    用户代理:BaidusppiderDisallow:/*。CSSDisallow:/data/Disallow:/SEO/SEO-tag.html

    如上所述,用户代理声明了蜘蛛的名称,这意味着它是针对百度蜘蛛的。无法获得以下几点&"/*。css",第一个/指的是网站根目录,也就是你的网站域名。*使用通配符意味着一切。这意味着您不能抓取所有以结尾的文档。css。是你自己的两次亲身经历。逻辑是一样的。

    根据403状态码,限制内容输出,阻止蜘蛛抓取。

    403状态码是http协议中网页的返回状态码。当搜索引擎遇到403状态代码时,它知道该页面受到管理权限的限制。我打不开。比如你要登录才能查询内容,搜索引擎本身就无法登录。如果你回到403,他也知道这是权限管理页面,无法加载内容。自然不容易被收录。

    当返回到403状态代码时,应该有一个类似于404页面的页面。提醒客户或蜘蛛实现他们想要浏览的内容。两者都是必不可少的。只能提醒页面状态码回到200,这是百度蜘蛛的很多重复页面。有403个状态代码,但是它们返回到不同的内容。也不是很友好。

    最后,对于智能机器人协议,我觉得应该补一点:“现在搜索引擎会根据网页的合理布局和版面来区分网页的客户友好度。如果屏蔽css文件和js文件与合理布局有关,那么我不知道你的web界面设计是好是坏。所以不建议屏蔽蜘蛛这类内容。

    欢迎分享,转载请注明来源:内存溢出

    原文地址: http://outofmemory.cn/zz/747386.html

    (0)
    打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
    上一篇 2022-04-29
    下一篇 2022-04-29

    发表评论

    登录后才能评论

    评论列表(0条)

    保存