1商业化的语音交互平台
1)微软Speech API
微软的Speech API(简称为SAPI)是微软推出的包含语音识别(SR)和语音合成(SS)引擎的应用编程接口(API),在Windows下应用 广泛。目前,微软已发布了多个SAPI版本(最新的是SAPI 54版),这些版本要么作为于Speech SDK开发包发布,要么直接被包含在windows *** 作系统中发布。SAPI支持多种语言的识别和朗读,包括英文、中文、日文等。
2)IBM viaVoice
IBM是较早开始语音识别方面的研究的机构之一,早在20世纪50年代末期,IBM就开始了语音识别的研究,计算机被设计用来检测特定的语言 模式并得出声音和它对应的文字之间的统计相关性。1999年,IBM发布了VoiceType的一个版。2003年,IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权,随后ScanSoft与Nuance合并,如今viaVoice早已淡出人们的视线,取而代之的是Nuance。
3)Nuance
Nuance通讯是一家跨国计算机软件技术公司,总部设在美国马萨诸塞州伯灵顿,主要提供语音和图像方面的解决方案和应用。目前的业务集中 在服务器和嵌入式语音识别,电话转向系统,自动电话目录服务等。Nuance语音技术除了语音识别技术外,还包扩语音合成、声纹识别等技术。世界语音技术市场,有超过80%的语音识别是采用Nuance识别引擎技术, 其名下有超过1000个专利技术,公司研发的语音产品可以支持超过50种语言,在全球拥有超过20亿用户。苹果的iPhone 4S的Siri语音识别中就应用了Nuance的语音识别服务。
4)科大讯飞
科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项 技术上拥有国际领先的成果。占有中文语音技术市场60%以上市场份额,语音合成产品市场份额达到70%以上。
5)其他
其他的影响力较大商用语音交互平台有谷歌的语音搜索(Google Voice Search),百度和搜狗的语音输入法等等。
2开源的语音交互平台
1)CMU-Sphinx
CMU-Sphinx也简称为Sphinx(狮身人面像),是卡内基 - 梅隆大学( Carnegie Mellon University,CMU)开发的一款开源的语音识别系统, 它包括一系列的语音识别器和声学模型训练工具。最早的Sphinx-I 由@李开复 (Kai-Fu Lee)于1987年左右开发,使用了固定的HMM模型(含3个大小为256的codebook),它被号称为第一个高性能的连续语音识别 系统(在Resource Management数据库上准确率达到了90%+)。 最新的Sphinx语音识别系统包含如下软件包:
Pocketsphinx — recognizer library written in C
Sphinxbase — support library required by Pocketsphinx
Sphinx4 — adjustable, modifiable recognizer written in Java
CMUclmtk — language model tools
Sphinxtrain — acoustic model training tools
这些软件包的可执行文件和源代码在sourceforge上都可以下载得到。
2)HTK
HTK是Hidden Markov Model Toolkit(隐马尔科夫模型工具包)的简称,HTK主要用于语音识别研究,最初是由剑桥大学工程学院(Cambridge University Engineering Department ,CUED)的机器智能实验室(前语音视觉及机器人组) 于1989年开发的,它被用来构建CUED的大词汇量的语音识别系统。HTK的最新版本是09年发布的341版,关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。
3)Julius
Julius是一个高性能、双通道的大词汇量连续语音识别(large vocabulary continues speech recognition,LVCSR)的开源项目, 适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM,在当前的PC机上能够实现实时的语音识别,单词量达到60k个。
4)RWTH ASR
该工具箱包含最新的自动语音识别技术的算法实现,它由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发。RWTH ASR工具箱包括声学模型的构建、解析器等重要部分,还包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化 训练和单词词根处理组件等。
5)其他
上面提到的开源工具箱主要都是用于语音识别的,其他的开源语音识别项目还有Kaldi 、simon 、iATROS-speech 、SHoUT 、 Zanzibar OpenIVR 等。1针对输入源来测试:
(人声、录音、广播),语音采集:语音输入方式(人声、录音、广播等)、语音的类型(男生、女生、童声等)、不同语音环境(室外、室内、浴室、火车站、大厅等等),声音大小
(1)用户正常比较标准的哼唱,查看识别结果,并且能够点播;
(2)用户加了特效的哼唱,比如加了电音效果,查看识别结果;
(3)用户的哼唱咬字不清或者是错字,查看识别结果;
(4)用户的哼唱停顿点节奏不对,查看识别结果;
(5)用户的哼唱音调比较低,查看识别结果;
(6)用户的哼唱音调比较高,查看识别结果;
(7)还可以从用户哼唱的音色来看,音色明亮和低沉,查看识别结果;
(8)输入比较短的哼唱,比如1秒,查看识别结果;
(9)输入比较长的哼唱,就是哼唱的特别慢,查看识别结果;
2对识别结果测试:
(1)对正常比较标准的哼唱输入,查看得到的结果,是否正确,是否模糊匹配到其它歌曲,准确度如何;
(2)对非正常的哼唱输入,结果显示如何,是否需要显示空白提示页
3容错性和性能测试:
比对速度、准确性,乐库容量对识别速度和结果的影响数据;什么量级,什么结果;服务器并发量;
(1)哼唱的环境有比较多杂音,查看识别结果;
(2)哼唱的声音时大时小,查看识别结果;
(3)哼唱识别得到结果后,多次反复哼唱,查看是否每次都能够识别出结果;
4兼容性测试:
(1)平台测试:iOS和Android;
(2)设备系统测试:iOS8-11系统,Android40-81等,具体得看需求支撑哪些系统;
(3)设备内存和存储等,如存储不够的时候,输入一段音频,是否会出现crash等;
(4)分辨率:手机不同分辨率,页面显示;这个也可以归为UI测试了;
(5)方言识别;122是中国的公安报警电话,通常情况下是有录音的。不同地区的公安系统对于通话录音的保存时间和方式可能会有所不同,但大多数情况下都会保存一定时间的录音供后续参考。
如果你想要在自己手机或办公室电话上开启录音功能,需要根据设备型号和系统版本进行设置。具体设置方法可以参照以下步骤:
1 对于安卓手机用户,可以在通话时打开内置自带的录音应用进行录音。手动开启的方法为:在通话界面中,点击屏幕上方的“录音”按钮即可。部分应用也支持自动开启录音设置。
2 对于苹果手机用户,可以通过第三方应用来实现录音。具体 *** 作方法是,在App Store中搜索并下载支持通话录音功能的应用(如:iRec、Call Recorder、TapeACall等),安装后按照提示进行设置即可。
3 对于座机电话用户,可以通过购买专门的电话录音设备来实现。这些设备一般需要插入座机与电脑之间,并利用电脑软件进行配置和管理。
需要注意的是,在一些国家和地区可能存在法律风险或隐私问题与通话录音相关。使用时需遵守本地相关法规,并得到对方知情同意。1、打开控制面板---轻松使用启动语音识别的时候如果出现下图。
2、这个时候我们关闭提示框,跟随问题点击左边的语言设置。
3、点击语言设置之后我们点击右边的添加语言。
4、添加的时候我们根据提示点击选项---依次点击更改替代。
5、然后你会发现这里默认的是使用列表推荐,我们点击选择中文简体保存。
6、回到语音识别控制面板,再次打开就会发现已经可以进入设置向导了。
在 Windows 10 中使用语音识别:
设置麦克风
在设置“语音识别”之前,请确保已设置麦克风。
选择“开始”按钮 ,然后依次选择“设置” >“时间和语言”>“语音”。
在“麦克风”下,选择“入门”按钮。
win10语音识别功能打不开如何解决
帮助电脑识别你的声音
你可以教 Windows 10 识别你的声音。设置方式如下:
选择任务栏上的“开始”按钮 ,输入“Windows 语音识别”,从结果中选择它。
按照说明设置语音识别。
win10系统如何关闭语音识别?
1、在开始菜单单击鼠标右键,选择“控制面板”;
2、将控制面板查看方式修改为“大图标”,在下面点击“语音识别”;
3、点击左侧的“高级语音选项”;
4、将下面“启动时运行语音识别”前面的勾去掉,点击确定即可。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)