如何使用中文分词和自定义中文分词词典

如何使用中文分词和自定义中文分词词典,第1张

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹法和逆向最大匹法结合起来构成双向匹配法。

统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率

网上百度了很多,大部分都是说要修改library.properties的文件,但是这个文件我根本找不到。

后来采用的方法是,首先建立起自己的自定义字典文件,格式为 词\t词性\t频数,比如 手机    n    1000

词典建立好后,在进行分词时,加入如下语句:

Forest forest = null

 forest=Library.makeForest(filepath)//filepath为自定义词典路径

String line = "这是一段测试文字"

List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()

输出的结果就是:

这是

一段

测试

文字


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/bake/11689924.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-18
下一篇 2023-05-18

发表评论

登录后才能评论

评论列表(0条)

保存