31_彻底掌握IK中文分词_IK分词器配置文件讲解以及自定义词库实战_IT百科

ik配置文件地址：es/plugins/ik/config目录

IKAnalyzer.cfg.xml：用来配置自定义词库

main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起

quantifier.dic：放了一些单位相关的词

suffix.dic：放了一些后缀

surname.dic：中国的姓氏

stopword.dic：英文停用词

main.dic：包含了原生的中文词语，会按照这个里面的词语去分词

stopword.dic：包含了英文的停用词

停用词，stopword

a the and at but

一般，像停用词，会在分词的时候，直接被干掉，不会建立在倒排索引中

（1）自己建立词库：每年都会涌现一些特殊的流行词，网红，蓝瘦香菇，喊麦，鬼畜，一般不会在ik的原生词典里

自己补充自己的最新的词语，到ik的词库里面去

IKAnalyzer.cfg.xml：ext_dict，custom/mydict.dic

补充自己的词语，然后需要重启es，才能生效

（2）自己建立停用词库：比如了，的，啥，么，我们可能并不想去建立索引，让人家搜索

custom/ext_stopword.dic，已经有了常用的中文停用词，可以补充自己的停用词，然后重启es

需要手动安装IKAnalyzer jar包到本地maven仓库

1.进入到你的本地仓库，手动创建一个文件夹repository/com/lucene/

2.把ikAnalyzer-2012FF_u1.jar包放到文件夹下

3.命令窗口执行：

mvn install:install-file -Dfile=D:\SSHTools\repository_ssh.zip\repository_ssh\com\lucene\IKAnalyzer2012FF_u1.jar -DgroupId=com.lucene -DartifactId=ikAnalyzer -Dversion=2012FF_u1 -Dpackaging=jar -DgeneratePom=true

4.在你的pom.xml中导入

<groupId>com.lucene</groupId>

<artifactId>ikAnalyzer</artifactId>

<version>RELEASE</version>

</dependency>

最后就ok了

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/bake/11552949.html

31_彻底掌握IK中文分词_IK分词器配置文件讲解以及自定义词库实战

发表评论

评论列表（0条）