深圳网络维护:TF*IDF的计算公式是什么?
TF-IDF优化计算方法早已为许多专业SEO工作者所熟悉,是信息新闻搜索和信息新闻探索中使用的通用权重系数专业。应用到网页分析中,就是对网页中的行业关键词进行权重系数,分析一个唯一关键词在多个网页中的相关网页的权重值,在最终的快速快速排序中给出科研依据。 先看一下TF*IDF的计算公式:TF*IDF值=TF×IDF(TF乘以IDF)=1logTF(t,d)×IDF(t)=1logTF(t,d)×log(n/df)为什么要分析这个计算公式?因为网页的TF-IDF值越大,网页的文本内容与sql索引词的相关性就越强,在百度百度搜索引擎上能获得的权重值就越高,这就能为网页后半段的排名提供极大的可用性。 TF*IDF的TF词频(TermFrequency)表示百度词条在某个文本文件中出现的频率,而IDF的InverseDocumentFrequency表示如果包含百度词条T的文本文件总数越低,IDF就越大,说明百度词条T具有很好的类别差异专业能力。通过计算表明,DF(t)表示包含一个关键词搜索的文本文件数(用t表示),n表示大数据技术的网页总数。 我们无法把握这种定义的深层次。举个例子,你就能很好的理解了。 用TF-IDF来描述“SEO诊断”网站的排名 比如关键词“SEO诊断”的网页排名。我们来查一下排名前十的与单词三网址相关的句子的一些词频:[ 排名第三的网站是长沙的一家公司。他们“SEO”和“诊断”的词频分别是12和4,“SEO诊断”的词频是1; 我的网站“嗅玫瑰博客”排名第10,网站中“SEO”的词频更大,保证84。“确诊”的词频是7,“SEO确诊”的词频是4。 关于“SEO诊断”的网页大概有153万个。“SEO”和“诊断”限制在100,000,000个网页左右,n=10,000亿。所以三个网页中三个关键词的TF*IDF值计算如下: 1。首先计算三个词的IDF值: SEO:IDF=log(N/df(t)。df(t)=log(10000/1)=4 SEO诊断:IDF=log(n/df(t))=log(10000/0.015)=7-log15≈6三站关键词SEO的TF值: 长沙:TF=log(TF(t,d))=log12≈1.1 站长论坛D))=log1=0 站长论坛:TF=log(TF(t,d))=log20≈1.45 嗅玫瑰:TF=logD)=log4≈0.63 3。三站三个字的TF*IDF标准值: TF*IDF值SEO诊断SEO诊断 玫瑰嗅探器8.684.464.78 /] 从上表可以清楚的看到,一个网站“SEO”的TF*IDF值大,站长论坛的“确诊”和“IDF”一个网站应该是互相排名的(前天的网站排名确实是互相之间的),长沙站应该是垫底的,但是好像和实际结果有一定程度的出入。这说明URL关键词的排名还有一些其他的重要因素,比如URL的整体权重、独立网页的权重和质量、外部链接、与客户的互动(即用户体验),这些都是必须要充分考虑的。 另外,相对于同一个网站的TF*IDF值,长沙站和我的嗅玫瑰博客对关键词“SEO”的网站排名要求更高,起整体作用,而站长论坛中“SEO确认”的网站排名起整体作用。【这是有一定依据的。比如前天,一个名为“SEO诊断”的网站排名第三。当时关键词“SEO”排第十。现在降到了23页,网站排名降到了第十。所以,多利用TF*IDF的科研成果,可以帮你找出很多关键词排名,制定针对性的SEO提升防范措施。 当然这个计算是建立在理性情况下的,但是也可以解释一些seo情况的成因。如果你能掌握TF*IDF优化计算方法的基本意识,然后运用到seo优化中,你一定能早日推广SEO。举个例子,如果一个网站减少了“SEO”这个词对百度搜索引擎排名的危害,也许就有可能
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)