404错误页面对网站优化的阻碍与改善措施

404错误页面对网站优化的阻碍与改善措施,第1张

404错误页面对网站优化的阻碍与改善措施

Http404或notfound错误信息是Http的“标准响应信息”(HTTP状态码)之一,表示客户端浏览网页时,服务器无法正常提供信息,或者服务器无缘无故无法响应。

1.很多站点都无法避免死链接的存在,但是死链接的概率大,会影响搜索引擎对站点的评级。

2.搜索引擎每天抓取各个网站的频率。如果网站死链接多,会浪费抓取配额,影响正常页面的抓取。

3.死链太多对网站用户来说也是不好的表现。

百度站长工具有一个抓取异常,那么这个工具是如何产生异常数据的呢?

编辑的错误或程序员的粗心使页面产生不存在的页面。

由于服务器、空或程序问题,网站暂时无法访问,导致大量服务器错误页面,返回代码为500。

当单个爬虫提取页面URL时,它们只提取URL的一部分或者正常URL之后的文本或字符。

在网站修改过程中,不跳转到301中的相应页面,直接删除旧页面,或者跳转到301后,一些旧页面无法访问。

站长删除被黑的,广告的,过期的,泛滥的页面,导致很多死链接。

很多异常网页中的错误页面都是由于程序员的疏忽或者我们的程序问题造成的。它们应该是普通页面,因为由于错误而无法访问。请尽快修复此页面。

404错误页面对网站优化的障碍及改进措施

但是肯定有很多不应该存在的错误页面,所以我们需要想办法获取这些页面的URL。主要有三种方式:

(1)百度站长工具-抓取异常-找不到页面-复制数据【修复:此处不需要提交死链,百度站长工具自动提交死链】;

(2)删除页面时,管理员手动或自动保存网址;已删除页面的;

(3)使用相关爬虫软件对整个站点进行爬虫,获取死链,比如Xenu。

然后将上述处理后的数据粘贴到网站根目录下的文档中,提交文档地址到百度站长工具-网页抓取-死链提交-添加新数据-填写死链文件地址。

如果大量错误的URL有一定的规则,可以在robots文件中编写规则来阻止爬虫获取此类链接,但前提是要妥善处理正常页面,避免阻止规则对正常页面的破坏。

将规则添加到robots文件后,必须通过百度站长的robots工具进行验证。把指定的错误页面放进去看看拦截是否成功,再把正常页面放进去看看是否被错误拦截。

相关说明:

1.在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接。一旦有活动链,会显示提交失败,无法删除。

2.由于很多网站程序问题,很多打不开的页面返回码不是404,这是个大问题。比如打不开的页面返回码是301,200,500。如果它们是200,网站上会出现不同的URL来获取相同的内容。比如我的一个网站,社区帖子删除后,返回的代码居然是500。后来发现了,马上处理。尝试找出所有错误的URL格式,并将HTTP状态代码设置为404。

3.找到所有错误页面后,一定要找到这些页面的URL的相同特征,并与普通页面的特征区分开来。将相应的规则写入robots文件,禁止蜘蛛获取。即使你已经在站长工具里提交了死链,也建议机器人拦截抓取。

4.机器人只能解决蜘蛛不再抓取这类页面的问题,却无法解决删除包含页面的快照的问题。如果你的网站是黑的,而黑的页面被删除了,这些页面除了被机器人封禁的黑页面之外,还要提交到死链。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/881130.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存