近期,Google翻译悄然升级了其翻译内核。据Google官方提供的数据显示,Google翻译搭载的Google的神经机器翻译(GNMT:GoogleNeuralMachineTranslaTIon)系统使用了当前最先进的训练技术,因而提升了机器翻译水平,将翻译误差再度降低了55%-85%。
Google展示的翻译模型质量
十多年前,Google发布了Google翻译,早年基于短语的统计机器翻译,会将输入句子分解成词和短语,然后对它们进行独立翻译。这种翻译方式的劣势非常明显:句子中原本完整的信息被碎片化,无法连贯地进行表达。而这种现象在英中互译的情况下显得尤其明显。
而Google神经机器翻译则将输入的句子作为一个整体翻译。
以中英翻译为例,Google神经机器翻译首先将这句中文的词编码成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义(编码器“Encoder”)。读取完整个句子,解码器就开始工作——一次生成英语句子的一个词(解码器“Decoder”)。
上图展示了Google神经机器翻译的中英翻译原理
为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关编码的中文向量的权重分布。
在被首次提出时,神经机器翻译系统在中等规模的数据集上就与基于短语的翻译系统水平相当。
现在,Google方面表示,通过让神经机器翻译战胜在非常大型的数据集上工作的许多挑战,打造了在速度和准确度上都更好翻译的系统。
目前,Google神经机器翻译系统已投入到了中文-英语的翻译中。现在,移动版和网页版的Google翻译的中英翻译已完全使用神经机器翻译——每天大约1800万条翻译。
有经过大型数据集考验的Google神经机器翻译系统加持,最新的Google翻译效果究竟如何呢?
我们做了一个简单的比较测试。当然,还是在中英翻译场景下。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)