如何使用中文分词和自定义中文分词词典_IT百科

这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

1）正向最大匹配法（由左到右的方向）；

2）逆向最大匹配法（由右到左的方向）；

3）最少切分（使每一句中切出的词数最小）。

还可以将上述各种方法相互组合，例如，可以将正向最大匹法和逆向最大匹法结合起来构成双向匹配法。

统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率

网上百度了很多，大部分都是说要修改library.properties的文件，但是这个文件我根本找不到。

后来采用的方法是，首先建立起自己的自定义字典文件，格式为词\t词性\t频数，比如手机 n 1000

词典建立好后，在进行分词时，加入如下语句：

Forest forest = null

forest=Library.makeForest（filepath）//filepath为自定义词典路径

String line = "这是一段测试文字"

List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()

输出的结果就是：

这是

一段

测试

文字

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/bake/11689924.html

如何使用中文分词和自定义中文分词词典

发表评论

评论列表（0条）