TF-IDF算法为什么对SEO很重要?

TF-IDF算法为什么对SEO很重要?,第1张

TF-IDF算法为什么对SEO很重要?

在过去一年多的时间里,你可能看到过TF-IDF这个词被抛出来。很多SEO趋势来来去去,一些最有趣的SEO最终也会招来惩罚,对吧?

但是TF-IDF有点不一样。

TF-IDF算法不是对搜索引擎的 *** 纵,它是一种分析内容主题的方法,它与搜索引擎本身基于相同的原理。因此,对于需要一种真正客观的方法来衡量和改进其内容的SEOer来说,它具有惊人的潜力。

最近刚把案例研究纳入能力,结果很有意思。

我想确保在我从个人实验中学到什么之前,我会了解TF-IDF以及它是如何使用的。

什么是TF-IDF?

从字面上看,它意味着术语频率乘以逆文档频率。

TF-IDF是一个结合了这两种测量方法的等式,测量一个术语在页面上使用的频率(TF),以及该术语在一组页面的所有页面中出现的频率(IDF),以分配分数或权重,以及该术语对页面的重要性。

这个方程在学术界有很长的历史,语言学和信息构建领域的研究人员把它作为一种方法在短时间内分析了大量的文档库。

信息检索程序(包括所有搜索引擎)也使用它来有效地排序和判断数百万个结果的相关性。

对于同样的信息,你想做的和搜索引擎想做的有一个重要的区别。

搜索引擎想要考虑网络上所有结果的集合,并且你想要将一个页面或网站与仅仅表现差的网站进行比较...即前10名。

深入看看TF和IDF…TF-IDF的方程式

您可能需要做一些数学运算来获得所有测量值,即TF和IDF。但我保证不会那么难。根据应用的不同,TF-IDF的等式可能比我下面用的例子要复杂得多。

简化与否,如果你试图优化你的网站,你通常不想被人抓住把柄。这些方程会帮助你理解TF-IDF的功能,但它是我在最后讨论的一个工具,它确实打开了潜力。

通过计算一个术语在一页上出现的次数来求解第一个术语的频率。然后,将该数字插入以下等式:

词频=(原始计数)/(文档总字数)

TF评分可以告诉你是否用词过于频繁,但只有在权衡其他指标时才真正有用。

通过将出现该术语的文档数除以所选集合中的文档总数,计算出文档频率的倒数,如下所示:

反向文档频率(术语)=log(文档数量//(包含关键字的文档)

通过IDF评分,您现在可以衡量短语对页面的重要性,而不仅仅是它们被使用的次数。这很重要,因为它让你对构建搜索引擎算法的人的心态有所了解。

为什么TF-IDF对SEO很重要?

能够填充这个等式的最终目标是能够为您的内容提供可 *** 作的相关性分数。使用TF-IDF工具,您可以将您的分数与任何学期的最佳表现分数进行比较。

通过对测量页面的评分,你几乎可以知道谷歌和百度对致力于同一主题的网站的评分。

目前还不清楚谷歌或百度等搜索引擎是否在其算法中使用TF-IDF。如果有,是变种吗?也就是说有一些私人的相关研究,我已经知道了,数据显示可能是。TF-IDF分析允许您根据算法已经奖励的内容来优化术语的平衡。

使用TF-IDF增强关键字搜索

TF-IDF比关键词密度更进一步。它可以让你知道网站上整个单词系列的见解。

举个例子,假设你已经完成了关键词研究来优化“SEO培训南宁”这个页面。大部分关键词研究工具都会吐槽“南宁SEO培训”“南宁SEO培训”等关键词。

当您使用我稍后将介绍的TF-IDF工具时,您也可以找到排名靠前的页面使用的相关非SEO术语,这些术语是您在使用常规关键字研究之前从未找到的。诸如“法律”、“经验”、“权利”和“实践”等术语。

这些词不会出现在关键词研究工具中,因为文章本身并不会对它们进行排名,但它们需要讲述搜索意图的故事。

如何使用TF-IDF?

假设您正在检查的文档(例如,客户端的登录页面)包含术语“PPC”12次,长度约为100个单词。如果要开始分析这一段,先把它插入前面的项频方程。

TF(PPC)=(12/100)=0.12

现在,假设您想知道这种用法与网络的其他部分相比如何。从10,000,000的样本量来看,这些页面中至少有一些是关于Web服务的,并且会包含对PPC的引用。比如30万。

我们可以使用这些数字来完成逆文档频率等式。

IDF(PPC)=log(10,000,000/300,000)=1.52

现在,您使用TF-IDF等式根据该术语对页面进行评分。

TF-IDF(PPC)=0.12*1.52=0.182

事实是,这不是满足极限的问题。你想平衡目标词的分数和第一页上最好的URL。

某个学期的高分不一定是好事(毕竟100个单词中有12个用的很多)。

像“是”、“这个”或者“和”这样的常用词呢?由于方程的结构,这种噪声不是一个真正的问题。

这几个词在整套文档中经常用到,所以这些词的重要性就大大降低了。

让我们回到这个等式。为了真正说明区别,我们会说页面上的“是”和“PPC”一样多。

TF(是)=(12/100)=0.12

但是看看当我们完成IDF方程时会发生什么,要知道绝大多数结果都会包含“是”这个词,比如800万。

IDF(是)=log(1000万/800万)=0.09

这将产生最终的TF-IDF值:

TF-IDF(是)=0.12*0.09=0.010

TF-IDF值与文档中使用的短语数量成比例增加,但在这种情况下,它被整个集合的其余部分中的词的频率抵消,其值分数与上一个示例的值分数相同。

换句话说,这个词越常用,IDF就越小。

短语怎么样?

搜索引擎倾向于给单个词的多词短语额外的权重。

当考虑到语言的自然属性时,尤其如此。

当然,您希望使用这些考虑因素来执行TF-IDF评估。

幸运的是,你不需要额外的努力。大多数TF-IDF工具能够将关键字计算为2个单词和3个单词的版本。

当TF-IDF专门用于学术和研究目的时,术语被计算为称为两个字母组的两个单词组或称为三个单词组的三个单词组。搜索引擎采用相同的方法,所以用和他们一样的方法分析你的内容是很重要的。

利用前一页PPC的例子,让我们看看可能出现在这一页的短语,以及这些短语对这个话题的建议。

“PPC广告系列需要大量广告”

这个短语中的每组两个单词可以计算为一组两个字母的组合。

PPC

PPC活动

活动需求

等等

在加第三个词的时候,在考虑更长的短语的时候,会更清楚加了多少重要的上下文。

PPC活动

PPC活动需求

等等

并非所有的TF-IDF工具都能处理两种以上的组合。TF-IDF适用于几乎任何SEO内容开发过程。

在你开始构建内容之前,这是一种学习更多的方法,然后知道在哪里以及如何再次改进它。

一旦选择了工具,你只需要一步步了解选择每个关键词的过程。如果您还没有选择TF-IDF工具,您可以在下一节中找到我用它们执行的测试的数据。

1)写内容

按照你知道的最高标准写内容,或者参考你为客户优化的内容。用一个、两个或三个单词创建一个主题列表,并将其添加到您选择的TF-IDF工具中。

您的目标是找到关键词及其顶级域名的URL,以揭示哪些主题您遗漏了,哪些主题您没有深入讨论。

2)插入TF-IDF工具

每种工具的工作方式略有不同,它们也跟踪不同的信息,但最有用的信息是帮助您了解竞争对手如何通过使用关键字获得成功。

利用您选择的工具的任何功能来帮助您发现与前10-20个URL相关的单词,然后生成一个反映它使用的每个其他单词的权重的分数。

3)重新优化内容

现在,您已经完全了解了每个竞争对手涉及的主题以及这些词的使用频率,您可以使用这些信息来优化您自己的内容。

第二次传递内容,找到自然的方式引入你还没有涉及的话题。记住,你的动机不是不自然的,而是要恢复他们当前缺失的自然联系。

4)发布

使用您最近从搜索中收集的见解发布更新的内容。从这里,你可以继续分析它,以及排名的任何变化。

5)显示TF-IDF前后的图表

TF-IDF的一个好处是,它允许您在非常小的级别上跟踪性能。在每次调整内容之前和之后,您可以生成关于页面上主题平衡如何变化的图表。对于有兴趣查看您对其内容所做更改的具体指标的客户来说,这些非常有用。

TF-IDF工具

博主只找到了一些针对Google等英文搜索引擎优化的TF-IDF工具,没有针对中文TF-IDF工具的。

1.文本工具

2.外贸代理

结论

希望这篇文章能帮助我们清楚地理解TF-IDF分析。

你不仅学到了它背后的数学知识,还学到了如何将它应用到SEO中,并在你的文章中创造相关性。

相关内容:
  • TF-IDF算法解释
  • 欢迎分享,转载请注明来源:内存溢出

    原文地址: http://outofmemory.cn/zz/747711.html

    (0)
    打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
    上一篇 2022-04-29
    下一篇 2022-04-29

    发表评论

    登录后才能评论

    评论列表(0条)

    保存