1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹法和逆向最大匹法结合起来构成双向匹配法。
统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率
网上百度了很多,大部分都是说要修改library.properties的文件,但是这个文件我根本找不到。
后来采用的方法是,首先建立起自己的自定义字典文件,格式为 词\t词性\t频数,比如 手机 n 1000
词典建立好后,在进行分词时,加入如下语句:
Forest forest = null
forest=Library.makeForest(filepath)//filepath为自定义词典路径
String line = "这是一段测试文字"
List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()
输出的结果就是:
这是
一段
测试
文字
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)