从日语源估计英语翻译单词数的算法

从日语源估计英语翻译单词数的算法,第1张

概述我正试图想出一种估算日语翻译的英语单词数量的方法.日语有三个主要的脚本 – Kanji, Hiragana和 Katakana – 每个都有不同的平均字符比率(汉字最低,片假名最高). 例子: >电脑:コンピュータ(片假名 – 6 字符);计算机(汉字:3 字符) >鲸鱼:くじら(平假名 – 3个字符);鲸(汉字:1 字符) 作为数据,我有一个很大的日语单词和他们的英语翻译词汇表,以及一个相当大的 我正试图想出一种估算日语翻译的英语单词数量的方法.日语有三个主要的脚本 – Kanji,Hiragana和 Katakana – 每个都有不同的平均字符比率(汉字最低,片假名最高).

例子:

>电脑:コンピュータ(片假名 – 6
字符);计算机(汉字:3
字符)
>鲸鱼:くじら(平假名 –
3个字符);鲸(汉字:1
字符)

作为数据,我有一个很大的日语单词和他们的英语翻译词汇表,以及一个相当大的匹配日语源文档和他们的英语翻译语料库.我想提出一个公式来计算源文本中的汉字,平假名和片假名字符的数量,并估计这可能变成的英文单词的数量.

解决方法 我将从线性近似开始:approx_english_words = a1 * no_characters_in_script1 a2 * no_chars_in_script2 a3 * no_chars_in_script3,系数a1,a2,a3使用线性最小二乘拟合.

如果这不是很接近,那么看看最糟糕的情况是因为它们不适合(专业词等).

总结

以上是内存溢出为你收集整理的从日语源估计英语翻译单词数的算法全部内容,希望文章能够帮你解决从日语源估计英语翻译单词数的算法所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1075063.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-26
下一篇 2022-05-26

发表评论

登录后才能评论

评论列表(0条)

保存