从日语源估计英语翻译单词数的算法_html-js-css

概述我正试图想出一种估算日语翻译的英语单词数量的方法.日语有三个主要的脚本 – Kanji, Hiragana和 Katakana – 每个都有不同的平均字符比率(汉字最低,片假名最高). 例子： >电脑：コンピュータ(片假名 – 6 字符);计算机(汉字：3 字符) >鲸鱼：くじら(平假名 – 3个字符);鲸(汉字：1 字符) 作为数据,我有一个很大的日语单词和他们的英语翻译词汇表,以及一个相当大的我正试图想出一种估算日语翻译的英语单词数量的方法.日语有三个主要的脚本 – Kanji,Hiragana和 Katakana – 每个都有不同的平均字符比率(汉字最低,片假名最高).

例子：

>电脑：コンピュータ(片假名 – 6
字符);计算机(汉字：3
字符)
>鲸鱼：くじら(平假名 –
3个字符);鲸(汉字：1
字符)

作为数据,我有一个很大的日语单词和他们的英语翻译词汇表,以及一个相当大的匹配日语源文档和他们的英语翻译语料库.我想提出一个公式来计算源文本中的汉字,平假名和片假名字符的数量,并估计这可能变成的英文单词的数量.

解决方法我将从线性近似开始：approx_english_words = a1 * no_characters_in_script1 a2 * no_chars_in_script2 a3 * no_chars_in_script3,系数a1,a2,a3使用线性最小二乘拟合.

如果这不是很接近,那么看看最糟糕的情况是因为它们不适合(专业词等).

总结

以上是内存溢出为你收集整理的从日语源估计英语翻译单词数的算法全部内容，希望文章能够帮你解决从日语源估计英语翻译单词数的算法所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/1075063.html

从日语源估计英语翻译单词数的算法

发表评论

评论列表（0条）