一对一语音聊天场景的技术难点是什么

诺基亚n79 • 2022-8-6 • 技术 • 阅读 10

（文章来源：布谷鸟网络科技）

视频聊天时候，因为可以看到彼此，对声音也不那么在意。而纯语音聊天时，人注意力都放在声音上，对音质的要求更高。

1)整体稳定的技术，1 对 1 语聊的技术门槛相对较低，多人语聊和特定场景相对复杂，技术实现难度比较大。以pia戏为例，如果经常出现卡顿、延迟和听不清的情况，会将营造的剧情气氛破坏殆尽，主播时不时要退出重新登录，无法全身心投入，用户听到的是断断续续的声音，不能沉浸到剧情中。

自研的音视频引擎，通过抖动缓冲技术、前向纠错技术、丢帧补偿技术减少网络抖动和弱网环境下的延迟，保障语音通话低延时且清晰。让用户在复杂网络环境和多类型手机的情况下，也能实现畅通优质的语音通话。

2)多人聊天的语音前处理，以KTV语聊房为例，在房间当中，有人说话声音、歌声、伴奏都在房间呈现，每个人所处的地方，所用的设备也不一样，这就有很大可能出现回声、噪音，或是某个人设备不是很好，发出的声音很小。

成熟的语音前处理3A技术：回声消除(AEC)、噪音抑制(ANS)、音量增益(AGC)，杜绝回声和啸叫，降噪而无损音质。这样歌者能展示甜美歌声，听众也有良好的听觉享受。

3)媒体次要信息同步，而在KTV类的场景中，AB两人轮麦合唱，如果轮到B唱歌时发现歌词没同步，就很难唱下去。这当中技术难点就在于歌词等媒体次要信息是否能做到同步。支持将非媒体信息注入媒体流中，歌词等媒体次要信息和音视频信息放在同一个媒体通道传输的，做到歌词与歌声同步展示果。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/dianzi/2552976.html

语音技术

打赏

微信扫一扫

支付宝扫一扫

诺基亚n79 一级用户组

不要轻易的去刷脸了危险正在向你走来

上一篇 2022-08-06

人脸识别门禁系统的工作原理与医院应用实例

下一篇 2022-08-06

发表评论

登录后才能评论

评论列表（0条）