谷歌拟使用机器学习技术改善Duo通话服务的音质

北大笑长 • 2022-8-9 • 技术 • 阅读 13

外媒报道称，为保障 Duo 通话服务在不稳定连接状态下的音频质量，谷歌推出了一项名叫 WaveNetEQ 的音质改善方案。据悉，其基于谷歌 DeepMind 部门的相关技术，旨在利用人工加入的噪音来抑制音频的抖动。这种噪音听起来就像人类在说话，但其实是通过机器学习技术产生的。

如果你曾经拨打过网络电话，那肯定多多少少地经历过因连接不稳定而导致的音频抖动。

当通话期间的部分音频数据包在通信过程中丢失、延迟过高、或顺序错误时，就有可能发生这样的情况。

谷歌表示，99% 的 Duo 通话都会出现数据包丢失，其中 20% 的丢失率超过 3%、另有 10% 的丢失率超过 8% 。

每款通信应用都有采取某种方式来处理丢包问题，但谷歌表示，传统的丢包掩饰（PLC）过程，或导致高达 60ms 的空缺。

相比之下，基于 DeepMind 神经网络技术的 WaveNetEQ 解决方案，已经在 48 种不同语言的 100 多个扬声器数据上展开了训练。

为增加说服力，谷歌还放出了一些 WaveNetEQ 与常见的 PLC 技术的比较音频。当然，新技术能够转换多少音频，还是有一定的局限的。

谷歌表示，WaveNetEQ 旨在替换较短的音频间隔，而不是真人通话期间漏掉的整个单次。因此在 120ms 之后，这套系统会淡出并产生静音。

通过评估，谷歌确保了 WaveNetEQ 不会引入任何新运算的重音，此外所有处理都能够在用户的设备端进行，毕竟 Google Duo 默认就开启了端到端加密。

一旦网络连接变得顺畅，真人的音频会立即恢复，WaveNetEQ 将无缝地淡出介入。目前该技术已在 Pixel 4 智能机上进行测试，后续该公司还将向更多设备推广。
责任编辑：wv

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2598047.html

机器学习

打赏

微信扫一扫

支付宝扫一扫

北大笑长一级用户组

人工智能技术预测有可能成为现实吗

上一篇 2022-08-09

东京大学和索尼共同研发出AI系统“Derma” 可实现从口形到语音的转化

下一篇 2022-08-09

发表评论

登录后才能评论

评论列表（0条）