java ansj分词器怎么配置_教程

1. 基本分词方式，速度快；

官方示例：

List<Term>parse = BaseAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。")

System.out.println(parse)

result:[让/v, 战士/n, 们/k, 过/ug, 一个/m, 欢乐/a, 祥和/a, 的/uj, 新春/t, 佳节/n, 。/w]

2. 精准分词方式兼顾精度与速度，比较均衡；

官方示例：

List<Term>parse = ToAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。")

System.out.println(parse)

3. NLP分词方式可是未登录词，但速度较慢；

Result parseR = ToAnalysis.parse(str)

System.out.println(parseR.toStringWithOutNature())

System.out.println(parseR.toStringWithOutNature(" "))

网上百度了很多，大部分都是说要修改library.properties的文件，但是这个文件我根本找不到。

后来采用的方法是，首先建立起自己的自定义字典文件，格式为词\t词性\t频数，比如手机 n 1000

词典建立好后，在进行分词时，加入如下语句：

Forest forest = null

forest=Library.makeForest（filepath）//filepath为自定义词典路径

String line = "这是一段测试文字"

List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()

输出的结果就是：

这是

一段

测试

文字

欢迎分享，转载请注明来源：内存溢出

java ansj分词器怎么配置