语音识别面临的几大挑战市场渴求更好的解决方案_技术

因为资本的涌入、智能家居的火热和人工智能的崛起，市场对语音市场的关注度迅速提升。尤其是近年来随着亚马逊、谷歌、华为和BAT等厂商入局智能音箱，争先押宝这个智能家居的关键入口之后，语音市场变得空前拥挤。

根据 ReportLinker的预测，到2024年，全球智能语音市场规模将跃升到215亿美元，而在当中AI语音芯片就扮演了一个关键角色。不同于过往的芯片只考虑PPA，开发者在选择语音芯片的时候更多是考虑其体验，但这是很多过往的硬件解决方案所不具备的。这就吸引了众多传统厂商或者初创企业开始纷纷涌入AI语音芯片这个赛道，用MCU、DSP或者ASIC的方案来解决现有，有些厂商甚至还推出了颠覆传统的新架构去抢占市场。

但在行业专家看来，这些方案或多或少都存在一些问题。要了解这一点，就必须从语音识别行业的一些现状说起。

语音识别面临的几大挑战

以智能音箱为例，现在的语音识别产品在厂商的智能家居规划蓝图中是扮演一个人与机器交流的桥梁，那在实际应用中就要求音箱能够听得到人说的话，同时还要求它听得清晰和听得准。这就提出了第一个挑战——那就是信噪比。

所谓信噪比，就是目标信号与干扰信号强度比值的对数，我们需要一定的信噪比，才能让机器听得清楚。但根据声音的传播特性，它在空气中衰减会非常大，但人在与智能音箱交流的过程中，可能会处在不同的位置和距离。这就给相关的方案提供商提出了一个难题，这也是语音识别所面临的最大挑战。

第二个问题是非稳态的噪声影响。如果我们面对的是规律的噪声，应对的办法无疑会简单很多。但在实际的使用环境中，我们经常会面对的是带有突发性和不可预见性的噪音，这给供应商也带来了不小的挑战。

第三，多声源的问题。智能音箱在使用的过程中，只会听从一个声源的指令，但在人机交流的过程中，必然会出现干扰源。如何处理这个干扰的问题，也困扰着相关供应商和开发者。

而其实面对这些问题，产业链已经想了不少应对之法。例如麦克风阵列、波束成形和降噪的引入，更强的人工智能芯片加持，但这依然没有能彻底解决问题。

如上图所示，在传统方案中，系统最后识别的信号是在波束成形之后做的，因为波束成形依赖于声源定位（即DOA），但DOA一般用单MIC信号来做检测。换而言之，我们这样设计的目的原本是为了提升唤醒率和识别率，但依赖于单MIC信号的检测之后，两者之间就存在相互依赖的关系，这就会给设备的唤醒率造成影响。

其次，传统方案里面有多个模块和多个环节，但他们并不都是以降低识别率为优化目标，这就让降噪、信号增强和最后的识别可能会出现不适配的情况，使得系统虽然降了噪，但没有得到想要的识别率的提升。

再者，传统的流程对硬件要求非常高，对MIC的一致性以及电容元器件的一致性要求非常高。这就节能会导致大家在实验室和在量产线上取得不同的结果。量产场景下的识别率非常差。这主要与波束成形和声源定位要求高，一旦出现波动会影响识别效果有关。

此外，波束成形算法原理是增强设定波束内的信号强度，衰减波束外的信号幅度。那就意味着当干扰声源和目标声源方向非常接近的时候，信号和噪声是会同时增强，这是传统波束成形算法也不能解决的问题。

单从芯片的角度看，也有不少的困难要面对。如算力问题、冯诺依曼架构带来的内存墙问题，还有基于浮点训练出来的模型与定点推理之间的不匹配引致的重新训练和精度丢失等问题。其他如对神经网络支持不够、功耗过高和开发复杂等也是当下很多语音识别芯片的掣肘所在。

市场渴求更好的解决方案。

基于创新架构开辟新路径

面对以上种种挑战，由Marvell中国芯片研发部门前高管鲁勇创立的探境科技正在从架构、芯片、软件和算法等多维度创新入手，帮助语音识别方案客户解决其问题。而其颠覆性创新的SFA（storage First Architectur）架构则是他们“全栈”式服务的基础。

探境科技CEO鲁勇先生首先告诉半导体行业观察记者，他们的SFA架构并不是大家所认为的存算一体架构。在他看来，现在很多所谓的存算一体架构存在着成本、可靠性、算法兼容性等问题。

“我们的SFA从架构上也是将计算和存储单元分开，但是我们的做法是以存储来驱动计算，并且将传统AI运算时要在数据在存储和计算单元中来回搬回多次的过程压缩到一次却又不影响结果精度。这是我们的核心竞争力所在，这也能很多AI语音识别芯片碰到的问题迎刃而解”，鲁勇说。

从实际测试上看，探境科技AI语音芯片的表现优越。据鲁勇介绍，在实际测试中，探境科技的AI语音识别芯片的数据访问可降低10~100倍，存储子系统功耗下降10倍，而基于28nm工艺打造的芯片系统能效超过4T OPS/W。

SFA架构芯片与其他芯片的对比

注：在28nm专用测试芯片上得到的对比数据，测试方法为带有卷积加速扩展指令的DSP模式与SFA架构模式的对比，乘法器数目相同，DRAM为LPDDR4

除了高性能的能耗比之外，这个架构还有非常好的易用性和通用性。

鲁勇指出，基于SFA架构打造的AI芯片不是针对某一个神经网络做的优化，可以支持所有已知的神经网络，并且能让所有神经网络在其上面都能跑出最高的效率；同时它对参数也没有限制，可以用任意的参数；此外，基于SFA架构打造的芯片对数据类型也没有限制，可以支持定点数、位点数。针对常见的稀疏数据，这个芯片也有自适应的支持，而不用人工干预。“探境科技提供的工具链可以让开发者能够零基础切入SFA架构芯片的开发。”鲁勇强调。

基于SFA架构，探境科技开辟出了语音和图像两条产品线，其中语音产品已经获得了客户的高度认可。其中音旋风611功不可没。

据了解，这是探境科技针对智能家居市场推出的一款语音识别芯片，是目前市面上综合性能最好，性价比最高的一款芯片。如下图所示，它能够支持200条的命令词，能够做到99%的唤醒率和极低的误唤醒率。

至于探境科技的另一条产品线图像芯片也已经流片成功，期待探境科技用其给市场带来更多的赋能。

音旋风611

虽然基于SFA打造的芯片拥有多项优势。但正如上文所说，语音识别方案是一个涉及多个模块的项目，芯片只是当中的一环。为此，探境科技从多个角度入手，为语音识别方案商提供了一个交钥匙方案。

针对前文提到的传统麦克风阵列信号增强算法的缺点，探境科技提出了一个新的处理方法，把增强和识别一体化处理，做了一个端到端的识别流程。

据探境科技的技术副总裁李同治介绍，他们在这个识别流程里放弃了用传统数字信号处理算法来做语音增强的做法，而是用一套基于神经网络的AI算法来做信号增强。他指出，这个方案的处理算法所有的参数都是和神经网络一起训练的，这样整体优化的目标都是为了降低最后的识别错误率，而不仅仅是提升信号质量。

端对端的处理算法是最前沿的处理算法

“我们这套降噪算法与传统的降噪算法不一样，我们的降噪算法是基于深度学习的AI降噪算法，不仅可以处理常见的稳态噪声，对一些非稳态的噪声和突发性的噪声也可以很好地处理。”，李同治补充说。

除了这个降噪算法以外，探境科技还开发出了专门用来做语音识别的高计算强度的神经网络HONN。据了解，高强度神经网络的参数量不大，仅为DNN的五分之一，这就让探境科技可以用更少的参数量和更少的存储达到了更好的效果。

与此同时，高强度计算神经网络的算力需求量很大，但DNN只有个位数的计算强度，两者之间差了30倍。这也是为什么其他厂商并没有使用效果更好的HONN，而是DNN的原因。因为这个算力要求对基于SFA打造的AI芯片来说是绰绰有余，但对很多其他架构芯片来说，是难以应付的，李同治告诉记者。

“SFA不仅仅是适配于终端，也适配于云端、推理、训练，可以组合成各种不同的产品形态，适合于终端、推理、训练”，鲁勇最后说，但他也强调，将SFA应用到云端会是一个很漫长的过程。我们现在可以看到的是，探境科技正在用他们的全栈实力在拥挤的语音AI芯片赛道上找到了属于他们的”捷径”.