站在中国阿尔法狗背后的科大讯飞

站在中国阿尔法狗背后的科大讯飞,第1张

  最近吸睛事件除了中国足球,就数谷歌Alphago与李世石的围棋大战,人工智能究竟有多火爆,看看科大讯飞于3月30日在深圳阿基米互联网公社举办的“讯飞核心技术开发日——麦入云端,引领智能交互新主义”沙龙活动就能知道了。

  

  图:会场人气爆棚

  在活动现场,科大讯飞分享了其对人工智能的理解和为此而做出的努力,并带来了完整的智能硬件语音交互解决方案和开放平台核心交互技术。

  

  图:科大讯飞开放平台副总经理马汉君

  科大讯飞开放平台副总经理马汉君表示,人工智能正在成为时代的趋势,现在已经进入真正爆发的前夜。目前在计算智能和感知智能方面AI都已经赶上甚至超过人类,Alphago战胜李世石就是一个很好的例子,而认知智能则是当下人工智能的重点挑战。人工智能的快速发展也将助力IOT时代的蓬勃兴起,科大讯飞的愿景则是加速这一过程。当前讯飞的自然开放交互平台上的应用已经超过90000个,连接终端超过8.8亿台,接下来讯飞将通过深度神经网络大数据的结合,实现人工智能从“能听会说”到“能理解会思考”的突破。在2015年讯飞发布了AIUI,这是一个为智能硬件量身定制的智能交互方案,重新定义了万物互联时代人机语音交互标准,具备了远场降噪、方言识别、语音纠错、多轮对话等功能,通过统一接口、开放的服务扩展、灵活的能力搭配实现人机交互与产品体验的结合。科大讯飞希望和合作伙伴一起,用人工智能改变世界。

  

  图:科大讯飞云平台事业部产品经理张良春

  科大讯飞云平台事业部产品经理张良春在这次活动中带来了带来打破远场语音交互瓶颈的最新利器——环形五麦克风阵列,其远场拾音距离可达5米、 支持360°全平面拾音角度、支持连续唤醒、回声消除、语音打断。张良春表示,使用科大讯飞的麦克风阵列模块可以帮助开发者迅速开发产品,大大节省产品开发周期。讯飞也提供包括单麦、双麦、四麦线性、环形五麦和环形七麦等软核方案,特别是环形七麦方案支持7米拾音距离、360°声源定位、±10°声源定位精度,阵列录入的音频信噪比更高。硬件方案搭配科大讯飞开放平台的语音唤醒闭环优化服务、语音识别、语义理解深度定制、身份鉴别、自然语音合成等能力可以让开发者的产品“如同黑暗中的萤火虫那么鲜明和出众。”

  

  图:科大讯飞研究院王海坤博士

  科大讯飞研究院王海坤博士表示:噪声、混响、干扰和回声是声学信号处理需要解决的问题,麦克风阵列主要作用是声源点位、抑制背景噪声、信号提取和分离,是解决上述问题的最佳手段。声源定位技术是利用麦克风阵列计算声源距离阵列的角度和距离,实现对目标声源的跟踪;再通过波束形成技术,即在期望方向上有效地形成一个波束,仅拾取波束的信号,从而达到同时提取声源和抑制噪声的目的。对于混响,则使用麦克风阵列+深度学习实现有效的去混响处理。至于回声的处理,主要利用自适应滤波方法估计回声路径和利用参考信号求得麦克风拾取的喇叭声音并将其减去。讯飞的回声消除技术达到了国际顶尖水平,各项声学处理技术指标都是国际领先。通过这一系列的技术,讯飞麦克风阵列实现了优异的声学信号处理,确保了良好的用户体验。

  

  图:科大讯飞云平台事业部智能硬件商务总监汤熙

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/dianzi/2489843.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-04
下一篇 2022-08-04

发表评论

登录后才能评论

评论列表(0条)

保存