深圳seo教程,处理网络seo中文分词最关键的是,要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于网络seo中文分词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。 关于网络seo的关键词提取方法分为有监督、半监督和无监督三种: 1.有监督的关键词抽取算法 它是建关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的训练预料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取 2.半监督的关键词提取算法 只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。 3.无监督的方法 不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词抽取。 有监督的网络seo中文分词提取算法需要高昂的人工成本,因此现有的网络seo中文分词提取主要采用适用性较强的无监督关键词抽取。其网络seo中文分词抽取流程如下:
图1无监督网络seo中文分词抽取流程图 无监督关键词抽取算法可以分为三大类,基于统计特征的关键词抽取、基于词图模型的关键词抽取和基于主题模型的关键词抽取。 网络seo中文分词提取算法 基于统计特征的关键词提取算法 基于于统计特征的关键词抽取算法的思想是利用文档中词语的统计信息抽取文档的关键词。通常将文本经过预处理得到候选词语的集合,然后采用特征值量化的方式从候选集合中得到关键词。基于统计特征的关键词抽取方法的关键是采用什么样的特征值量化指标的方式,目前常用的有三类: 1、基于词权重的特征量化 基于词权重的特征量化主要包括词性、词频、逆向文档频率、相对词频、词长等。 2、基于词的文档位置的特征量化 这种特征量化方式是根据文章不同位置的句子对文档的重要性不同的假设来进行的。通常,文章的前N个词、后N个词、段首、段尾、标题、引言等位置的词具有代表性,这些词作为关键词可以表达整个的主题。 3、基于词的关联信息的特征量化 词的关联信息是指词与词、词与文档的关联程度信息,包括互信息、hits值、贡献度、依存度、TF-IDF值等。 下面介绍几种常用的特征值量化指标。 词性时通过分词、语法分析后得到的结果。现有的关键词中,绝大多数关键词为名词或者动名词。一般情况下,名词与其他词性相比更能表达一篇文章的主要思想。但是,词性作为特征量化的指标,一般与其他指标结合使用。 词频表示一个词在文本中出现的频率。一般我们认为,如果一个词在文本中出现的越是频繁,那么这个词就越有可能作为文章的核心词。词频简单地统计了词在文本中出现的次数,但是,只依靠词频所得到的关键词有很大的不确定性,对于长度比较长的文本,这个方法会有很大的噪音。 位置信息 一般情况下,词出现的位置对于词来说有着很大的价值。例如,标题、摘要本身就是作者概括出的文章的中心思想,因此出现在这些地方的词具有一定的代表性,更可能成为关键词。但是,因为每个作者的习惯不同,写作方式不同,关键句子的位置也会有所不同,所以这也是一种很宽泛的得到关键词的方法,一般情况下不会单独使用。 互信息是信息论中概念,是变量之间相互依赖的度量。互信息并不局限于实值随机变量,它更加一般且决定着联合分布p(X,Y)和分解的边缘分布的乘积p(X)p(Y)的相似程度。互信息的计算公式如下:
其中,p(x,y)是X和Y的联合概率分布函数,p(x)和p(y)分别为X和Y的边缘概率分布函数。 当使用互信息作为关键词提取的特征量化时,应用文本的正文和标题构造PAT树,然后计算字符串左右的互信息。 词跨度是指一个词或者短语字文中首次出现和末次出现之间的距离,词跨度越大说明这个词对文本越重要,可以反映文本的主题。一个词的跨度计算公式如下:
其中,d为阻尼系数,通常为0.85。是指向网页i的网页集合。是指网页j中的链接指向的集合,是指集合中元素的个数。 TextRank在构建图的时候将节点由网页改成了句子,并为节点之间的边引入了权值,其中权值表示两个句子的相似程度。其计算公式如下: 公式中的为图中节点和的边的权重。其他符号与PageRank公式相同。 TextRank算法除了做网络seo中文分词提取,还seo定制培训:可以做文本摘要提取,效果不错。但是TextRank的计算复杂度很高,应用不广。 网络seo中文分词提取算法 基于主题模型的关键词抽取 基于主题关键词提取算法主要利用的是主题模型中关于主题的分布的性质进行关键词提取。算法步骤如下: 1、获取候选关键词 从文章中获取候选关键词。即将文本分词,也可以再根据词性选取候选关键词。 2、语料学习 根据大规模预料学习得到主题模型。 3、计算文章主题分部 根据得到的隐含主题模型,计算文章的主题分布和候选关键词分布。 4、排序 计算文档和候选关键词的主题相似度并排序,选取前n个词作为关键词。 算法的关键在于主题模型的构建。主题模型是一种文档生成模型,对于一篇文章,我们的构思思路是先确定几个主题,然后根据主题想好描述主题的词汇,将词汇按照语法规则组成句子,段落,最后生成一篇文章。 主题模型也是基于这个思想,它认为文档是一些主题的混合分布,主题又是词语的概率分布,pLSA模型就是第一个根据这个想法构建的模型。同样地,我们反过来想,我们找到了文档的主题,然后主题中有代表性的词就能表示这篇文档的核心意思,就是文档的关键词。 pLSA模型认为,一篇文档中的每一个词都是通过一定概率选取某个主题,然后再按照一定的概率从主题中选取得到这个词语,这个词语的计算公式为: 一些贝叶斯学派的研究者对于pLSA模型进行了改进,他们认为,文章对应主题的概率以及主题对应词语的概率不是一定的,也服从一定的概率,于是就有了现阶段常用的主题模型--LDA主题模型。 LDA是D.M.Blei在2003年提出的。LDA采用了词袋模型的方法简化了问题的复杂性。在LDA模型中,每一篇文档是一些主题的构成的概率分布,而每一个主题又是很多单词构成的一个概率分布。同时,无论是主题构成的概率分布还是单词构成的概率分布也不是一定的,这些分布也服从Dirichlet先验分布。 文档的生成模型可以用如下图模型表示: 其中和为先验分布的超参数,为第k个主题下的所有单词的分布,为文档的主题分布,w为文档的词,z为w所对应的主题。 图3Blei在论文中的图模型 DA挖掘了文本的深层语义即文本的主题,用文本的主题来表示文本的也从一定程度上降低了文本向量的维度,很多人用这种方式对文本做分类,取得了不错的效果。具体LDA的算法在请参考《一文详解LDA主题模型》。 LDA关键词提取算法利用文档的隐含语义信息来提取关键词,但是主题模型提取的关键词比较宽泛,不能很好的反应文档主题。另外,对于LDA模型的时间复杂度较高,需要大量的实践训练。 网络seo中文分词提取算法 应用 现阶段,文本的关键词提取在基于文本的搜索、推荐以及数据挖掘领域有着很广泛的应用。同时在实际应用中,因为应用环境的复杂性,对于不同类型的文本,例如长文本和短文本,用同一种网络seo中文分词提取方法得到的效果并相同。因此,在实际应用中针对不同的条件环境所采用的算法会有所不同,没有某一类算法在所有的环境下都有很好的效果。 相对于上文中所提到的算法,一些组合算法在工程上被大量应用以弥补单算法的不足,例如将TF-IDF算法与TextRank算法相结合,或者综合TF-IDF与词性得到关键词等。同时,工程上对于文本的预处理以及文本分词的准确性也有很大的依赖。对于文本的错别字,变形词等信息,需要在预处理阶段予以解决,分词算法的选择,未登录词以及歧义词的识别在一定程度上对于关键词突提取会又很大的影响。 关键词提取是一个看似简单,在实际应用中却十分棘手的任务,从现有的算法的基础上进行工程优化,达观数据在这方面做了很大的努力并且取得了不错的效果。 网络seo中文分词提取算法 总结 本文介绍了三种常用的无监督的关键词提取算法,并介绍了其优缺点。关键词提取在文本挖掘领域具有很广阔的应用,现有的方法也存在一定的问题,我们依然会在关键词提取的问题上继续努力研究,也欢迎大家积极交流。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)