什么是无插件的跨浏览器语音接入?

什么是无插件的跨浏览器语音接入?,第1张

一、导言
随着互联网应用的发展,网络浏览器已经成为头等应用程序。鼠标和键盘设备完全满足信息获取类应用的人机交互需求,但对于人机语音交互的应用需求,浏览器行业尚无标准的语音接入方案来支持。本文对现有的浏览器语音接入方案做了综述,然后介绍了苏州思必驰信息科技有限公司采用的无插件的跨浏览器语音接入方案,并且分析了该方案的应用特点。最后,本文还探讨了基于浏览器的语音接入方案的技术发展方向。谨以本文分享苏州思必驰多年在语音技术应用领域的研发心得,抛砖引玉。
二、现有浏览器语音接入方案综述
鼠标和键盘设备完全满足基于网络浏览器的信息获取类应用的人机交互需求,但由于网络浏览器已经成为头等应用程序,人机语音交互的应用也纷纷在浏览器上做了实现。
典型的语音应用流程包括如下步骤:应用采集用户的语音,将语音数据送给语音分析模块(例如语音识别、发音评估或者声纹识别等),将语音分析模块的输出(例如语音识别得到的文本、发音评估得到的评分或者声纹识别得到的用户标志)反馈给用户。
将人机交互的语音应用在浏览器上实现的关键技术是基于浏览器完成用户音频的采集。出于安全考虑,网页应用不允许通过浏览器直接访问终端的硬件资源,包括声卡设备。所以,基于浏览器的语音交互方案大都围绕着浏览器插件做文章。常见的技术选型包括:
·基于IE浏览器的ActiveX插件;
·基于NP插件架构的插件,支持Firefox等浏览器;
·基于Java Applet开发应用;
·基于Flash Player开发应用;
·基于Silverlight开发应用。
·除了插件系列,Google Chrome浏览器将语音输入功能作为了浏览器内置的功能。但该功能尚仅限于Google Chrome浏览器。
三、无插件的跨浏览器语音接入方案
浏览器之争不见消停而愈演愈烈,让终端用户使用其熟悉的浏览器无缝地来访问网络语音应用,是基于浏览器的语音接入方案设计的关注点之一。
自行开发的浏览器插件,需要用户安装许可。如果用户有安全考虑,或者有类似360这样对浏览器插件管理苛刻的桌面程序,插件能否成功部署到用户的终端都是一个问题。
Java Applet是过时技术,且需要购买安全授权,应用部署成本高。
Silverlight提供了类似Flash Player的音频采集功能。但相比Adobe对Flash Player平台的持续关注和投入,Microsoft对Silverlight抱有非常暧昧的态度。何况,Silverlight在浏览器的占有率远远不如Flash Player。
Flash Player几乎安装在了每个用户的浏览器上,基于Flash Player开发的语音接入方案,无需用户安装,仅需要用户许可访问本地麦克风硬件,流程友好,便于迅速启动语音接入功能。基于Flash Player开发的语音接入方案,得益于Flash Player的普及和标准化,可以称得上是无插件的跨浏览器语音接入方案。AIChinese,midomi,Arivoc(demo),EnglishCentral,以及曾经昙花一现的百度哼唱识别,都是采用Flash Player实现语音接入,并且在云端提供语音分析技术服务。
四、苏州思必驰的无插件的跨浏览器语音接入方案的特点
从面上看,技术方案就是know-how,但各自所下的功夫不同,方案所实现的效果也有所差别。
2009年,思必驰选择了基于Flash Player平台的无插件跨浏览器语音接入方案。当时利用ActionScript的NetStream类和Microphone类的相关函数,配合Adobe Flash Media Server的一个试用版,走通了技术方案。随后,思必驰在如下方面对该方案进行了深入的研发:
前台语音接入功能和使用流程的标准化和组件化
思必驰深度封装了Flash Player的核心录音采集功能、语音应用流程、以及与服务器的交互流程,并且定义了详尽的应用和系统状态。思必驰提供ActionScript SDK和JavaScript SDK、语音面板组件、开发案例和详细的开发文档,将开发语音应用的难度降到最低。
服务器接入层设计
从应用的终端考虑,不仅仅有跨浏览器的语音接入需求,而且有跨平台、跨网络协议、跨编码甚至跨物理网络的多种终端接入需求。思必驰专注于核心语音技术,同样致力于将优秀的语音技术提供给多种类型的应用。因此,思必驰在服务器端设计了接入层。该层作为一个配适器,支持多种方式的语音接入。基于Flash Player平台的语音接入方案,其语音源来自Internet,采用RTMP协议,采用Nelly Moser或者SpeeX编码。思必驰参考了开源项目Red5,开发出轻量级RTMP接入接口,支持流解码,并且在硬盘I/O等资源使用上做了充分的优化。RTMP客户端和服务器在一个RTMP连接上做语音数据和参数的传递,以及结果返回,采用AMF3序列化数据。接入层基于TCP第四层做负载均衡,此策略支持高度的横向扩展。
基于如上的技术演变,历时两年,思必驰将无插件的跨浏览器语音接入方案扩展为“声动之芯”(AISpeech API)——语音技术云计算平台——的一部分。(今后将专门撰文对该平台的架构设计以及应用方向做介绍。)
五、基于浏览器的语音接入方案的技术发展方向
经过AIChinese商用以及为多家行业客户提供技术授权和解决方案,思必驰对基于浏览器的语音接入方案有一些自己的心得和设想。
近年来,基于浏览器的语音技术应用,逐渐丰富起来,但仍属群雄逐鹿,缺乏规范。虽然思必驰是做核心技术的,但其应用仍需要看平台的“脸色”。思必驰尚无领导行业的能力,仍需要关注行业规范的发展。像目前这样闭门造车,不利于平台、技术和应用的普及。
W3C的HTML Speech Incubator Group是基于浏览器的语音接入方案的行业组织,其规范尚在酝酿中,值得关注。传统语音应用领域已经实现的行业规范和标准以及方案值得深入研究和融合,包括VoiceXML、MRCP、VoIP、P2P等。
本地服务方案应该作为云平台的补充深入研究。本地服务方案不同于插件方案,独立于浏览器,仅涉及跨 *** 作系统的兼容性设计。从架构上讲,可以将本地服务视为云平台的一个完整的节点。本地服务方案和云平台的协助工作、负载分流以及部署和升级策略等,是思必驰的研究重点之一。
声动之芯 API简介
“声动之芯”是思必驰倾力打造的基于云计算的智能语音交互技术服务,将复杂的语音技术压缩为简易的接口。语言教学领域的出版社、教育软件公司、外语培训机构等,无需专业语音知识,只需20分钟,就可调用这些接口或应用成熟模板,在互联网、局域网或客户终端上实现教学“声动”化,让教辅产品摇身一变,价值倍增。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13457324.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-10
下一篇 2023-08-10

发表评论

登录后才能评论

评论列表(0条)

保存