口音已成为语音识别技术发展的一大难题_技术

（文章来源：品途商业评论）

语音对于人机交互的重要性毋庸置疑，无论是国内外企业，都在语音识别的速度、准确度以及多语种方面持续创新，但是当机器面对那些有口音的人来说，似乎就没有那么灵敏了：不仅注意力会不集中，反应迟钝，甚至还会成为一个独立的个体，不予任何回应。如何解决口音识别问题，已成为智能语音下一阶段的竞争焦点，但这不仅仅是单纯的增加语料库就能提升的，好在已经有少数公司，开始通过构建新的语音模型，来解决口音问题。

自IBM的Shoebox与Worlds of Wonders的Julie Doll问世以来，语音识别技术已经取得了长足进步。甚至有报道称，到2018年底，谷歌Google Assistant将支持超过30种语言。除此以外，高通已经开发出了一款能够识别单词和短语的语音识别设备，准确率高达95％。而微软也不甘示弱，其呼叫中心解决方案（智能语音客服）比人工展开的呼叫服务更准确，更高效。

但需要注意的是，尽管在机器学习的加持下，语音识别技术取得了巨大的进步，但现在的语音识别系统还是不完美的。比如，不同地区的口音，让这项技术拥有了很强的“地域歧视性”。通常情况下，口音对人类来说不是什么大问题，有时还会让人感觉到一种异国风情的魅力，但是对机器而言，这是一条难以跨越的鸿沟，可能是其发展过程中面临的最大挑战。

最近，华盛顿邮报与Globalme和Pulse Labs两家语言研究公司合作，对搭载了语音识别技术的智能音箱设备的口音问题进行了研究，研究范围来自美国近20个城市、超过100名参与者发出的数千条语音命令，结果显示，这些系统在理解来自不同地区的人的语言时存在显著差异。

举个例子，谷歌智能音箱Google Home识别西岸口音的准确率比识别南方口音高3％；而亚马逊语音助手Alexa识别中西部的口音的准确率要比东岸口音低2％。但面临最大问题的是持非本土口音的人：在一项研究中，通过对比Alexa识别的内容与测试组的实际话语，结果显示不准确率可达30％。此外，面对以西班牙语和汉语作为第一语言的人所说的英文，不管是Google Home还是Amazon Echo，其识别率都是最低的，要知道，拉丁裔和华裔是美国的两大移民族群。

虽然这项研究是非正式的，也存在一定的限制，但其结果还是表明口音仍是语音识别技术面临的主要挑战之一。对此，亚马逊在一份声明中称，“随着越来越多的拥有不同口音的人与Alexa进行交流，Alexa的理解能力也会得到改善。”同时，谷歌也表示，“在扩大数据集的同时，我们也将继续提高Google Home的语音识别能力。”

事实上，不只是Amazon Echo和Google Home，采用率更低一些的微软Cortana和苹果Siri也是如此，它们都需要及时提高自家的语音识别技术，以便让用户感到满意的同时，又能在全球范围内扩大自己的影响力。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2553113.html