【官方说法】全面解读BaiduSpider与站点死链

【官方说法】全面解读BaiduSpider与站点死链,第1张

【官方说法】全面解读BaiduSpider与站点死链

百度站长工具注:死链是直接与网址的抓取和总流量的转化联系在一起的,所以对于站长来说尤为重要。不久前,百度站长学院对BaiduSpider和网站死链做了一系列解释...

实际内容如下:

问:机器人屏蔽百度抓取死链合理吗?

答:自然合理。百度严格执行robots协议。如果发现百度还在爬,先确定是不是Baiduspider。如果是,它可以根据反馈向管理中心报告。

如何正确识别Baiduspider移动ua?

新版本移动ua:

Mozilla/5.0(Linux;u;安卓4.2.2;zh-cn;)AppleWebKit/534.46(KHTML,像壁虎一样)版本/5.1MobileSafari/10600.6.3(兼容;baiduspider/2.0;http://www.Baidu.com/search/spider.html)

PCua:

Mozilla/5.0(兼容;baiduspider/2.0;http://www.Baidu.com/search/spider.html)

一定要关注之前根据“http://www.Baidu.com/search/spider.html”识别的网站!您必须更改识别方法,新的正确识别Baiduspider移动ua的方法如下:

1.根据关键词“安卓”或“移动”进行识别,区分是移动浏览还是抓取。

2.根据关键词“Baiduspider/2.0”,可以区分为百度网络爬虫。

另外,必须注意的是,如果被禁代理是Baiduspider,对PC端和移动端会有另一种作用。也就是PC或者Baiduspider不容易抢到被禁目标。经常需要注意这一点的是,发现一些编码兼容的网站(网址相同,PCua打开时是PC页面,移动ua打开时是移动页面),根据设置机器人代理的禁令,想要只允许移动Baiduspider抓取。但是因为PC端和移动端Baiduspider的代理都是百度蜘蛛,所以这种方式非常不可取。

如何识别为百度蜘蛛?

百度搜索引擎蜘蛛可以说是站长的座上宾,但是我们有一次遇到站长,问了这样一个问题:你怎么知道疯狂抓取你网站内容的搜索引擎蜘蛛是不是百度的?其实站长可以根据DNS搜索IP的方法来判断一个蜘蛛是否来自百度百度搜索引擎。根据不同的服务平台有不同的认证方式。例如,linux/windows/os下的认证方法如下:

1.在linux服务平台下,可以使用主机ip命令解析ip来区分是否来自Baiduspider的抓取。以*.baidu.com或*.baidu.jp的文件格式命名的Baiduspider的主机名,如果不是*.baidu.com或*.baidu.jp,就是假的。

2.在windows服务平台或IBMOS/2服务平台下,可以使用nslookupip命令解析ip来区分是否来自Baiduspider的抓取。打开CPU,输入nslookupxxx.xxx.xxx(ip地址)解析ip,从而区分是否来自Baiduspider的抓取。Baiduspider的主机名以*.baidu.com或*.baidu.jp的文件格式命名,如果不是*.baidu.com或*.baidu.jp,就是假的。

3.在macos平台下,可以用dig指令反推ip来区分是否来自Baiduspider的抓取。打开CPU,输入digxxx.xxx.xxx.xxx(ip地址)解析ip,从而辨别是否来自Baiduspider的抓取。Baiduspider的主机名以*.baidu.com或*.baidu.jp的文件格式命名,如果不是*.baidu.com或*.baidu.jp,就是假的。

问:百度可以按照机器人屏蔽的方法删除已经被百度抓取的死链吗?

答:不建议你这么做。最快捷有效的方法就是根据百度站长工具的死链提交一个专门的工具(详细地址:http://zhanzhang.baidu.com/badlink/)。

问:我已经按照死链专用工具提交了,但是根据系统日志,百度还在抓大家的死链。

答:在你提交了标准之后,spider要带一部分回家进行认证,以便更好地验证连接是否真的死了。

问:百度抓取死链会对所有正常文章的抓取造成很大伤害。

答:没有统一的标准。如果你没有设置机器人,没有提交给百度,而且死链接量特别大,你的网站可能会有很多抓取配额,导致无法抓取所有正常内容。如果只是蜘蛛为了更好的认证而抓取部分死链标准,不容易对所有正常内容造成伤害。

问:百度对死链有什么规定?如何设置死链才是最好的实用效果?

答:现阶段百度应用的是协议死链、内容死链、自动跳转死链,其中最实用的效果是协议死链。

规范百度死链官网文本文档:

基本上所有不再需要呈现的网页都会出现,如何处理这样的网页成为了站长们经常讨论的话题。因此,百度站长学院采访了负责死链识别和解决的技术工程师,了解到百度眼中的死链其实包含三种:协议死链、内容死链和自动跳转死链,这三种死链都是众所周知的。另外,现阶段比较时髦的“人性化死链”对百度并不友好(后面会有详细解释)。在此,大家呼吁所有站长尽量按照百度站长工具死链提交协议死链、内容死链、自动跳转死链,提高网站在百度百度搜索引擎中的可访问性和使用价值,以获得更高的用户反馈。

首先,协议是死链:

协议死链是指建立HTTP协议的状态码,表示网页没有阅读文章的使用价值。HTTP状态码有很多,但是百度的协议死链首先推荐404,就是找不到文档。请尽量不要使用其他状态代码来表示死链。

二、内容的死链:

内容的死链主要是网站本身的变化造成的。网页可以正常打开,不会自动跳转。而网页的内容对于网络爬虫来说没有使用价值,对于客户来说也没有实用价值,比如帖子被删除,内容被迁移,室内空房间被关闭,信息内容过期,交易被关闭等。在没有有用信息内容的网页上,网址应立即在显著位置给出提醒文字,如:

页面不存在(不会有网页)

内容已被迁移

帖子已被删除。

网站域名到期或被出售。

室内空房间关闭。

网站要备案。

信息内容已过时

交易已经结束。

在给各位站长展示标准化内容死链的典型例子之前,先说一个对百度不友好的做法:现在很多网站追求完美的人性化和客户体验,但在网页内容无效后仍然不做协议死链解决方案。换句话说,状态码还是200,只是网页上一张有趣的人性化照片,据此告知客户这个网页没有什么有用的内容——百度不轻易认为这是一个内容死链,也不提倡大家那么做。

典型示例1:

下面是内容死链的典型例子。让我们感受一下。必须强调的是,在站长申请取消关闭网站的维护时,百度除了检查网站中的协议死链外,还会继续检查内容死链的比例和总数。即使不使用关闭站点进行维护的功能,百度也倡导大家积极提交内容的死链,保证网站的顺利分级。典型示例2:

典型示例3:

典型示例4:

典型示例5:

典型示例6:

典型示例7:

典型:8:

第三,自动跳转死链。

自动跳转死链是指网站会自动将没有阅读价值的网页跳转到某个网页,比如上一级目录、首页等。自动跳转前后两个网页主题内容不同,不会有可替换的关联。除了404协议死链和内容死链,站长还必须向百度提交自动跳转死链。典型示例9:

典型示例10:

问:百度站长工具有没有专门的工具帮你找到网站中未知的死链?

答:可以根据链接分析专用工具的死链分析功能(详细地址:http://ZhanZhang.Baidu.com/inbound/deadlink)和抓取异常专用工具(详细地址:http://ZhanZhang.Baidu.com/crawl/index)进行查找和分析。

注:阅读相关网站基本建设方法的文章,请移至网站建设教程频道栏目。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/767504.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存