语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
语音识别可以应用到的场景:1. 智能家居
相对于传统的控制、交互形式,在智能家居领域中使用语音交互对于用户会更加便捷。亚马逊、谷歌、百度、小米、阿里巴巴等企业都先后发布了自己的智能音箱产品。目前,智能音箱作为所有智能家居交互的入口,扮演着一个非常重要的角色,且不用附加在一些重服务家电上。除了常规的日程设置、音乐播放、天气等信息查询,智能音箱还可以控制灯光、空调、电视、窗帘、门窗、安防与监控等。未来的家居场景,是全屋产品的智能化,届时语音与其他技术会更加深度地融合。图1-4展示了几种智能音箱的形态。
2. 智慧生活与办公
智慧生活是一个比较宽泛的场景,包括语音控制硬件、可穿戴设备和语音助手等。智能可穿戴设备趋于小屏化、无屏化的特点决定了智能语音将成为其天然入口,无论是眼镜、耳机,还是手表、手环,语音交互会更方便也更自然。语音助手更是语音识别深度学习时代最早的落地产品,根据Strategy Analytics的预计,到2023年,90%的智能手机都会配备AI语音助手。
其他的消费级产品还包括翻译机、录音笔、语音输入法等,这些产品强依赖于语音识别技术本身的准确率,在办公、教育、旅游等领域的应用也都越来越广泛。
3. 智能汽车
另一个正在飞速发展的智能语音落地场景,是智能汽车。除了L4,L5级别的自动驾驶,车载语音交互作为智能座舱中的一部分,在未来汽车形态中扮演着更加重要的角色。与传统车载系统通过按键或者屏幕 *** 控不同,多模态融合检测、智能语音交互、多屏互动手势 *** 作等一系列技术,将成为下一代智能座舱的标配。由于车内环境相对稳定,语音识别率较高,因此座舱内是部署语音交互的极佳落地场景。由此带来的司机双手的解放不仅能增强安全性,也能极大地提高用户驾驶体验。
4. 语音质检
语音质检普遍被应用在智能外呼和客服领域。通过语音识别与声纹识别的相关技术,不仅可以对客户说话的内容进行语音语义分析,挖掘客户潜在需求,进行用户画像,提供个性化的客户服务与产品的精准营销,还可以对对话内容的合规性进行稽核与审查,进一步提升服务满意度。
5. 智慧物流
拣货是物流仓储作业中成本最高的一项任务,占总体作业量的50%~70%。语音拣货是仓库作业人员通过蓝牙耳麦与语音系统对话推进拣货工作的方式。传统的语音拣选是人与人沟通,指示拣货员挑选货物,耗时长,成本高。而通过语音识别和合成技术,可以使仓库作业人员直接与仓库管理系统进行对话沟通。系统通过语音指导作业员到指定区域的库位拿取或放置货品;作业员通过语言进行动作确认,仓库管理系统直接识别作业人员的语音进行相应的数据处理。
语音唤醒,有时也称为关键词检测(Keyword spotting),也就是在连续不断的语音中将目标关键词检测出来,一般目标关键词的个数比较少(1~2个居多,特殊情况也可以扩展到更多的几个)。语音唤醒和语音识别的区别:语音识别只能处理一段一段的语音数据,也就是待识别的语音有明确的开始和结束,比如siri按下home键,开始录音说话,松开录音结束,返回识别结果;语音唤醒是处理连续不断的语音流,比如语音开关24小时不间断的检测麦克录音中的关键词信息;语音唤醒可以和语音识别技术结合,用于检测语音开始的位置,替换掉按键,比如Amazon Echo中,用”alexa”作为唤醒词,一旦检测到唤醒词,则开始录音进行语音识别。
语音唤醒性能:
唤醒率:将连续语流中存在的唤醒词检测出来,这个和语音识别的识别率有一定的相似性
误唤醒率:连续语音中不存在唤醒词,但是将一些其他语音误判为唤醒关键词
常用的实现方式:dnn+hmm(深度神经网络+隐马尔科夫模型),lstm+ctc(长短时记忆网络+全连接时序分类模型)
目前业界软件唤醒方案,也即提供SDK,实现唤醒功能一般分为在线和离线版本。国内主要以科大讯飞与百度为代表。唤醒率总体超过95%(这个只能参考,具体看测试场景)。网上也有多种开源的小型语音识别引擎,可以实现单独的语音唤醒功能,性能参差不齐。
简单说明各算法优缺点
Sphinx
优点
前端结构模块化较好。包括实现预加重、加窗、FFT、Mel频率滤波器、离散余弦变换、MFCC特征提取
通用的声学模型结构
适合嵌入到Android、ARM平台
*** 作文档具有很好的可读性,易于学习,贴近实践 *** 作
缺点
采用传统的HMM-GMM框架,对其原理的学习及掌握具有一定的难度
Mozilla DeepSpeech
优点
该模型的准确性接近人类在听同样的录音时的感知
Mozilla还发布了世界上第二大公开的语音数据集,这是全球近2万名用户的贡献
缺点
语音数据主要集中在英文语言,还缺乏多种语音数据集的支持
男性语音数据暂时多于女性语音数据
HTK
优点
代码历史悠久、稳定、高效
*** 作文档HTKBOOK全面
模型训练工具齐全
缺点
采用传统的HMM框架,对其原理的学习及掌握具有一定的难度
模型训练的预处理的部分工作繁琐易出错
Julius
优点
支持神经网络建模
最新的版本采用模块化的设计思想,使得各功能模块可以通过参数配置
缺点
文档以日文居多
神经网络中的优化trick较多,较多地依赖于经验
Kaldi
优点
加入了对神经网络的支持
维护更新及时
学术界、工业界活跃度高,是目前主流的语音识别研发工具
缺点
通过公共接口的设计让不同的工具容易协作,但是增加了对脚本及算法的理解难度
神经网络中的优化较多,调参较多地依赖于经验
iATROS
优点
适用于语音和手写文字识别的实现
提供了一个模块化的结构,可以用来建立不同的系统,其核心是一个类维特比在Hidden Markov模型的网络搜索
提供离线识别和在线语音识别标准工具(基于ALSA模块)
缺点
网络复杂度较高,识别速度略慢
Wav2letter
优点
简单高效的端到端自动语音识别(ASR)系统,结合了基于卷积网络的声学模型和图解码
其被训练输出文字,转录语音,而无需强制对齐音素
引入了一个自动的序列标注训练分割准则,而不需要与CTC一致的对齐方式
缺点
目前只能识别英文语音
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)