浅谈百度爬虫的HTTP状态码返回机制

浅谈百度爬虫的HTTP状态码返回机制,第1张

浅谈百度爬虫的HTTP状态码返回机制

科学学习seo的人,一定要很好的把握下面这段返回代码的含义。对于不太了解的人来说,也要知道基本的,比如200代表成功,301代表跳跃,404代表失败。下面先来介绍一下百度针对每种情况的解决逻辑。

百度蜘蛛对常见http返回码的解决逻辑如下:

404
404返回代码表示“未找到”。百度会认为该网页已经无效,所以一般会从百度搜索中删除。而且,如果蜘蛛短时间内再次找到这个网址,就不会抓取了。

503
503返回代码表示“服务不可用”。百度会认为网页暂时无法浏览。一般网站暂时关闭,网络带宽有限,都会造成这种情况。对于网页返回503,百度蜘蛛不容易马上删除这个网址,会在短时间内重新浏览。到时候如果网页已经修复,一切正常抓取;如果再回到503,短期内还会继续浏览几次。但如果网页长时间返回503,这个网址还是会被百度认为无效,从百度搜索中删除。

403
403返回码的意思是“禁止”。百度会认为该网页今天禁止访问。针对这种情况,如果是探索发现类的url,百度蜘蛛暂时不会抓取,短期内会再次检查;如果百度已经收录了网址,今天不会马上删除,短期内会再次浏览。到时候如果允许网页浏览,一切正常抓取;如果还是不允许浏览,短期内会继续浏览几次。但如果网页长时间返回403,百度也会认为是无效连接,从百度搜索中删除。

301
301返回码的含义是“永久移动”。百度今天会感觉网页自动跳转到新的网址。遇到网站转让、域名变更、网站重做等情况时,强烈建议应用301返回码,尽量避免重做造成的总流量损失。虽然现在百度蜘蛛对301跳转的响应时间比较长,但是我们还是强烈建议大家这样做。

如果网站暂时关闭,当网页无法打开时,不必立即返回404并提出应用503。03你能告诉百度蜘蛛这个网页暂时不可用吗?请稍后再试。
如果百度蜘蛛抓取你的网站压力太大,请尽量不要应用404,建议回归503。这样百度蜘蛛会尝试爬一段时间这个连接,如果网站空还剩下一段时间,就爬成功了。
有一些网站希望百度只收录一些内容,比如已经批准的内容和一段时间积累的新用户页面。这种情况建议暂时将新内容返回到403,待批准或解决后再返回所有正常情况的返回码。
网站转让,或者域名变更,请套用301返回码。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/784922.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-04
下一篇 2022-05-04

发表评论

登录后才能评论

评论列表(0条)

保存