java ansj分词器怎么配置

java ansj分词器怎么配置,第1张

1. 基本分词方式,速度快;

官方示例:

List<Term>parse = BaseAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。")

System.out.println(parse)

result:[让/v, 战士/n, 们/k, 过/ug, 一个/m, 欢乐/a, 祥和/a, 的/uj, 新春/t, 佳节/n, 。/w]

2. 精准分词方式兼顾精度与速度,比较均衡;

官方示例:

List<Term>parse = ToAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。")

System.out.println(parse)

3. NLP分词方式可是未登录词,但速度较慢;

Result parseR = ToAnalysis.parse(str)

System.out.println(parseR.toStringWithOutNature())

System.out.println(parseR.toStringWithOutNature(" "))

网上百度了很多,大部分都是说要修改library.properties的文件,但是这个文件我根本找不到。

后来采用的方法是,首先建立起自己的自定义字典文件,格式为 词\t词性\t频数,比如 手机    n    1000

词典建立好后,在进行分词时,加入如下语句:

Forest forest = null

 forest=Library.makeForest(filepath)//filepath为自定义词典路径

String line = "这是一段测试文字"

List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()

输出的结果就是:

这是

一段

测试

文字


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11266632.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-14
下一篇 2023-05-14

发表评论

登录后才能评论

评论列表(0条)

保存