关于网站抓取问题及解决建议方案

关于网站抓取问题及解决建议方案,第1张

关于网站抓取问题及解决建议方案

教程:当你面对大型网站可能遇到的成千上万的潜在问题时,你从哪里开始?这是我们在重建网页抓取时试图解决的问题。答案几乎完全取决于你的网站。深入了解它的历史和目标可能是必要的,但我想概述一个SEO过程,它可以帮助你减少噪音并开始使用它。简单的 *** 作有时很危险。为什么?在此之前,我们尝试将网站开头的每个问题标记为高、中、低优先级。这个简单的方法可能有用,但我们发现不可能做到。你可能想知道我们为什么放弃它。

首先,网站优化元素的优先级取决于你的意图。如果搜索引擎正在搜索网站,误解你的意图可能会导致不好的结果,从混乱到灾难性的结果。比如我们在moz上雇佣了一个全新的seoer,发现了以下问题:站点上同时有近35000个noindex标签?如果我们使用搜索引擎优化工具快速删除这些标签,那么网站本身就会受到很大的伤害,而不是意识到这些指令大部分是有意的。我们可以让我们的系统变得更智能,但他们不理解,所以我们需要对假警报保持谨慎。

其次,优先级问题不能帮助你理解这些问题的本质或者如何解决。现在,我们把网页抓取分为四种类型:历史数据问题、重定向问题、元数据问题、内容问题,按类型分类可以让你获得更多的SEO技巧。

只是帮你找到问题的一步。我们希望能够帮助您更好地解决这个问题。从爬行动物的严重问题开始,这并不意味着一切都是主观的。有些问题会阻止爬虫(不仅是我们的,还有搜索引擎)到达你的页面。我们将这些“关键爬虫问题”分为几类,目前包括5xx错误、4xx错误和重定向到4xx。如果你突然得到一个5xx错误,你要知道很少有人故意重定向到404。在整个网络爬虫界面,你会看到一个突出显示的严重爬虫问题:找到红色警示图标,快速找到关键问题。

首先,解决这些问题。如果你爬不到页面,那么其他所有爬虫的问题都解决不了,这对SEO非常不利。2。在解决你的技术性SEO问题时,一定要平衡问题的流行度,也要平衡问题的严重度和数量。如果我不知道你的网站,我会说404错误可能值得在复制内容之前解决——但如果你有11个404和17843重复页面呢?你的优先权突然变得非常不同。我们为你做了一些SEO数据分析,通过问题的普遍性来提高紧迫性。这需要一些关于优先级的假设,但是如果你的时间有限,我们希望为你提供至少一个快速的起点来解决几个关键问题。

解决多页问题的另一个好处是解决大容量问题。在许多情况下,您可以一次修复数百(甚至数千)个页面。这是一种更具战术性的方法,可以节省你大量的时间和金钱。

所以我们可以通过URL过滤来解决网页抓取的问题:我可以很快看到这些页面占了392页,我的描述缺失率高达43%。如果我担心这个问题,也许我可以通过一个相当简单的CMS页面来解决,用几行代码就能消除数百个问题。在不久的将来,我们希望为您做一些分析,但如果过滤不能做到这一点,您也可以将任何问题列表导出到csv。然后,旋转并过滤你心中的内容。

通过PA和爬行深度进入页面。如果你找不到一个清晰的模式,或者你已经解决了一些重大问题,下一步该怎么做?如果你知道这些网址很重要,那就值得一下子解决成千上万的问题。幸运的是,您现在可以在Web爬行中按页面权限(PA)和爬行深度进行排序。PA是我们排名能力的一个内在指标(主要由链接权重决定),爬行深度是页面到主页的距离:在这里,我可以看到我们Mozbar网站中的重定向链,这是一个特权非常高的页面。这可能是一个值得解决的问题,即使它不是一个明显的、更大的组织的一部分。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/879654.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存