关于网站日志中的不完整url或莫名其妙的url抓取

关于网站日志中的不完整url或莫名其妙的url抓取,第1张

关于网站日志中的不完整url或莫名其妙的url抓取

在整个分析日志的过程中,通常会发现404案例中存在一些或者很多不详细的url,或者网站本身无缘无故没有的url有一个比原url空更大的字段名。在群里也看到有人问类似的情况,觉得这是大家都会广泛遇到的难题。我猜想它可能被别人收藏了,所以我在课堂上问了郭萍。当时,郭萍表示,网络爬虫可以免费下载网址,但没有实际数据支持。总觉得若隐若现,所以无所谓。

告诉你googleadministrator这个角色在下面有详细描述,很混乱。管理员工具是根据网站seo的各项考核指标制定的最权威的seo工具之一。做seo所必需的大部分数据信息都可以从这里获得。下面详细介绍一下管理员工具这个角色(好像是最近更新的,以前不是这样的)。

首页,看看百度搜索日志里诡异的404。

这个网址的渠道在哪里?百度搜索引擎是从哪里得到这个网址的?

谷歌对你说

首先详细介绍一下google管理员工具在抓取错误中的作用。

这里还有一个网站,因为没有针对重做问题做自动跳转和抓取块,所以找不到抓取错误。有一个非常详细的图表,可以让你清楚的看到网站存在的这些问题的趋势分析。

以及网络服务器问题导致的抓取错误。

拍第一张图(同一个网站)

一开始从日志中发现了这种错误,但是不知道这个错误的来源。

现在,我们能知道错误的网址来自哪里吗?

点击第102条,d出底部的框。该网址不在sitemap中,但出现在自己的其他网站中,说明该网址存在于网站本身中但早已被删除。

点击110条,d出最下面的框。你可以看到百度搜索引擎是从别的网站(或者采集站,或者别的什么)回来的。

单击查看网页中的实际页面。

最新的还有其他功能,感兴趣的盆友可以自己感受一下。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/769817.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存