从百度搜索引擎优化的角度来说,如果分词技术能运用得当,你的网站上一层楼就能优化。其实分词的原理很简单,就是当用户输入查询关键词时,能够匹配出相关的、准确的输出结果,这也是百度所追求的人性化体验。
如果能很好的掌握百度的分词技术,可以定位网站的关键词,列出长尾关键词,会带动网站更好的优化,吸引更多的流量。百度的分词技术之所以比Google先进,是因为百度有庞大的词库,包括人名、地名、企业名等。同时具有正向匹配和反向匹配,以更短的路径满足用户的搜索需求。
百度分词主要是利用词义、词、词频来满足搜索引擎对词的把握。具体的分词原理分为三部分:
一、字符串匹配分词方法
细分为正向匹配法、反向匹配法、短路径分词法等。
1.正向匹配法
正匹配法主要是结合我们长期的写作风格,从左到右划分一个单词或句子,比如“一个学生正在教室里自习”。这句话的正匹配法是一个学生,一个学生,一个老师,一个教室,一个班级,一个自习。主要采用左右匹配的方法。
2.反向匹配法
反向匹配法与正向匹配法正好相反。比如“一个学生在教室里自习”,主要是利用反向匹配的方法,从右到左区分学生、学生、老师、学生、学生。
3.最短路径分割
其实一个段落中需要分隔的字数比较少。尽量把一个句子分成几个词来区分。也有特例,即正向匹配、反向匹配和短路径匹配相结合的分词方法。比如正向匹配和反向匹配相结合,称为双向匹配法。
注:上图为百度分词技术的应用
二。词义切分方法
分词方法是利用机器语言进行判断,分析句法和语义,借助语法信息和语义信息判断和处理歧义的一种分词方法。目前这种方法在百度并不成熟。
三。统计分析方法
统计分析主要在人工标注和统计特征下进行。对于中文,建立模型,在分词阶段通过模型计算分词的概率,这样概率的结果就可以作为筹码。比较常见的序列模型是HMM和CRF。
优点是可以处理歧义和无法登录词,效果比字符串匹配好。
缺点可能需要大量的人工标注,速度会比较慢。
因为同时出现的相邻词的数量越多,就越有可能形成一个词,所以词和词的相邻部分出现的概率就能很好地反映词的可信度。
还可以统计语料库中相邻词的组合频率,估计它们的共同信息,从而定义这些信息,计算相邻词的概率。
在百度分词分析的过程中,我们不能随意使用百度搜索的任何关键词,无论是标题分词还是首页的相关关键词设置,因为你会发现首页标题可以被百度搜索引擎截掉,排名靠前。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)