优秀的讯飞翻译机，拥有强大的语音识别技术_技术

（文章来源：砍柴网）

如今人工智能的发展过程，就如同我们求学的过程：不停地努力学习，不停地扩充知识，不停地刷新成绩。当成绩刷到语言这一关，翻译机出现了。而且为了帮人类越过语言障碍这条“沟”，翻译机做了许多努力，才最终行的“通”。“听得清才能译得准。”对于翻译机而言，这句话不光是一句广告词，更说出了翻译机的本质。

想要翻译机译的准，首先需要的就是对你说的话有一个准确的识别。就像如果要正确的回答问题，就一定要先听清、听懂问题。如果连你说的话识别出来都是错的，那还谈何翻译的准呢?所以翻译机工作的第一步，就是从听懂你说话开始。讯飞翻译机依托讯飞语音识别技术，应用强大的神经网络模型，中文语音识别准确率超过98%，并且支持5种汉语方言识别，2016和2018连续两届包揽CHiME语音识别大赛冠军。

所以今天我们就来扒一扒，有科大讯飞语音识别技术傍身的讯飞翻译机，到底为什么能译的更准。记得上学那会儿，老师洋洋洒洒讲完一个知识点，总喜欢最后接一句“都听懂了没有?”台下的学生七零八落的点着头，但也不知道有多少人只是因为听见了老师说的每个字而点头，又有多少人是因为真正听懂了每句话的含义而点头。

市面上的翻译机，其实就像是一个班里水平层次不齐的学生。老师教学方式是相同的，但有人资质平平，勉强及格，对外界信息需要一定时间消化才能反馈(或者不能);而有的人学习能力强、成绩优秀，对外界的信息能迅速做出准确的反应。翻译机在开始的语音识别阶段，从收到声音到转换成对应的文字，过程都是相同的：接收声音信号-提取声音特征-综合声学模型和语言模型-解码形成文字。

难就难在如何把你说的话能够意思分毫不差、一字不差的识别出来。这也就是不同品牌的翻译机从一开始拉开差距的地方。为什么说识别的一字不差很难呢?如果在安静的环境下说着语法、发音都标准的普通话，机器可以很容易准确识别，而一旦夹杂了多音字、方言口音，或者说话环境嘈杂、有回音等声音干扰，机器的识别过程就没那么轻松了。

在收到了有特征的声纹信息后，机器会通过声学模型组成单词或拼音，再通过语言模型来让识别结果变得更准确。语言模型是非常重要的，它通过学习词与词之间的相互关系，来估计你所说的话对应的每个字的可能性，并利用语言本身的统计规律来帮助提升识别正确率。如果还了解特定领域或任务相关的先验知识，语言模型可以识别的更准确。但如果不使用语言模型，机器面对大量的声音信息，识别出的结果则会是一团乱麻。

所以说，机器也和人一样，越学习、越优秀。但不是所有翻译机都能有足够的学习资源，而讯飞翻译机恰巧就是“饱读诗书”的那一个。众所周知，科大讯飞深耕人工智能技术，为医疗、教育、家庭、城市等智能化建设作出了相当的成就，也因此，讯飞拥有了千万级各行业平行领域数据的支撑，也因此为语言模型带来了丰富的学习文本。

随着对各行业学习的不断深入，基于大量垂直领域语料，不断对特定垂直领域的语音听写模型进行训练，这样一来，机器不仅能听懂日常口语，连那些专业术语也能听懂了。这就是讯飞翻译机行业翻译官工作的基础——先听清楚你在说什么，再为你翻译出专业的结果。

打开讯飞翻译机，我们能看到医疗、金融、外贸、法律、体育、能源、计算机、电力八大行业翻译官。行业翻译功能的到来，也就意味着讯飞翻译机相较于其他翻译机，对你说话含义的理解又更深入了一步。另一个影响翻译机识别能力的关键，是翻译机的耳朵——麦克风。回想一下，当我们和别人说话时，面对着对方和背对着对方，听到的清楚程度是有区别的。

麦克风作为翻译机的耳朵，如果想要各个方向都听的清楚，获得较好音质的音频，就需要360度无死角、多带几个麦克风在身上。所以，讯飞翻译机采用四麦克风阵列，利用阵列方位信息进行噪声抑制，将阵列原始信号与深度学习结合，加强识别模型训练，以便让翻译机听得更清楚，从而提高翻译机在嘈杂环境、声音源过远等情况下的语音识别准确率。

（责任编辑：fqj）

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2532417.html