官方示例:
List<Term>parse = BaseAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。")
System.out.println(parse)
result:[让/v, 战士/n, 们/k, 过/ug, 一个/m, 欢乐/a, 祥和/a, 的/uj, 新春/t, 佳节/n, 。/w]
2. 精准分词方式兼顾精度与速度,比较均衡;
官方示例:
List<Term>parse = ToAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。")
System.out.println(parse)
3. NLP分词方式可是未登录词,但速度较慢;
Result parseR = ToAnalysis.parse(str)System.out.println(parseR.toStringWithOutNature())
System.out.println(parseR.toStringWithOutNature(" "))
网上百度了很多,大部分都是说要修改library.properties的文件,但是这个文件我根本找不到。
后来采用的方法是,首先建立起自己的自定义字典文件,格式为 词\t词性\t频数,比如 手机 n 1000
词典建立好后,在进行分词时,加入如下语句:
Forest forest = null
forest=Library.makeForest(filepath)//filepath为自定义词典路径
String line = "这是一段测试文字"
List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()
输出的结果就是:
这是
一段
测试
文字
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)