srilm是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。
srilm支持语言模型的估计和评测。估计是从训练数据(训练集)中得到一个模型,包括最大似然估计及相应的平滑算法;而评测则是从测试集中计算其困惑度。
其中,-vocab traindict中 traindict为词典文件,每行一个词,格式如下:
-text traintxt 中 traintxt为语料库文件,每行中的词用空格隔开,表示分词结果,格式如下:
-order 最大的n元模型,3表示unigram,bigram,trigram
-write traincount 统计文件写到traincount中
-unk 表示没有在词典中的词用<unk>表示
traincount中的内容如下(每行格式为:ngram 词频):
其中,-read traincount 读取上一步生成的统计文件
-lm trainlm 生成最高为trigram的语言模型trainlm
-interpolate 利用差值算法
生成的语言模型trainlm为ARPA格式的语言模型,如下:
上面的两个步骤可以直接生成,如下:
上面已经生成了语言模型trainlm,利用它来测试数据的困惑度
测试数据的格式同语料数据,每个句子内部用空格隔开表示分词。
结果如下:
参考 :
以上就是关于人工智能与机器翻译 和 自然语言处理 哪个方向更火全部的内容,包括:人工智能与机器翻译 和 自然语言处理 哪个方向更火、语言模型训练工具SRILM报错、语言模型训练工具srilm等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)