如何实现离线语音控制

如何实现离线语音控制,第1张

推荐九芯电子的Nrk2201:
NRK2202-A01 模块是专用于物联网交互及控制领域的智能 MCU 模块。该智能模块基于目前最先进的深度神经网络(DNN-HMM)语音识别技术,实现了高识别率、高实时性、本地和云端结合、高度一体化的语音识别及处理功能;可以实现语义识别等特定智能语音交互效果。同时该模块具备常规 MCU 的控制及计算处理能力,可以实现各类需要通信及控制的应用。模组支持远场拾音、 噪声抑制、离线语音唤醒、回声消除、本地命令词自学习、声纹识别、WIFI 网 络控制及支持 OTA 升级等功能。
NRK2202可以让用户家中的空调、风扇、照明灯等设备秒变智能的离线语音识别交互+红外方案。这款离线语音识别方案无需联网、无需下载APP,即可进行语音控制家电设备。可完全适用在大小智能家电设备,如风扇、空调、抽烟机、台灯、晾衣架和开关面板等方面。NRK2202模块具有低功耗,有效识别率大于95%,识别距离大于5米,词条大于80条的诸多优点。

(一)DDN简介
数字数据网(DDN)是利用数字信道传输数据信号的数据传输网,它的传输媒介有光缆、数字微波、卫星信道以及用户端可用的普通电缆和双绞线。DDN以光纤为中继干线网络,组成DDN的基本单位是节点,节点间通过光纤连接,构成网状的拓扑结构,用户的终端设备通过数据终端单元(DTU)与就近的节点机相连。可提供点对点、点对多点透明传输的数据专线出租电路,为用户传输数据、图像和声音等信息。DDN向用户提供的是半永久性的数字连接,沿途不进行复杂的软件处理,因此延时较短。DDN采用交叉连接装置,可根据用户需要,在约定的时间内接通所需带宽的线路,信道容量的分配和接续在计算机控制下进行,具有极大的灵活性,使用户可以开通种类繁多的信息业务,传输任何合适的信息。DDN的业务特点如下:
l 提供点到点的通信,通信保密性强,特别适合
金融、保险客户的需要。
l 传输速率高,网络时延小。
l 信道固定分配,保证通信的可靠性,不会受其他客户使用情况的影响。
l DDN覆盖面广,可联结国内外各主要城市。
l DDN为全透明网,对客户通信协议没有要求,客户可自由选择网络设备及协议。
l 技术成熟,运行管理简便,极少出现重大阻断。
l DDN是同步传输网,且没有交换功能,缺乏灵活性。
(二)DDN的主要优点
传输速率高,网络时延小。由于DDN采用了同步传输模式的数字时分复用技术,用户数据信息可根据事先约定的协议,在固定的时隙以预先设定的通道带宽和速率顺序传输,这样只需按时隙识别通道就可以准确地将数据信息送到目的终端。由于信息是顺序到达目的终端,免去了目的终端对信息的重组,因此减小了时延。目前DDN可达到的最高传输速率为155Mbps,平均时延小于450μs。另外,DDN可支持网
西京亮 18:00:43
络层以及其上的任何协议,从而可满足数据、图像和声音等多种业务的需要。

人工智能行业主要上市公司:目前国内人工智能行业的上市公司主要有百度百度(BAIDU)、腾讯(TCTZF)、阿里巴巴(BABA)、科大讯飞(002230)等。

本文核心数据:人工智能技术层重点分类,计算机视觉发展历程,计算机视觉市场规模,语音识别发展历程,语音识别市场规模

1、 机器视觉和语音识别是主要市场

技术层是基于基础理论和数据之上,面向细分应用开发的技术。中游技术类企业具有技术生态圈、资金和人才三重壁垒,是人工智能产业的核心。相比较绝大多数上游和下游企业聚焦某一细分领域、技术层向产业链上下游扩展较为容易。

该层面包括算法理论(机器学习)、平台框架和应用技术(计算机视觉、语音识别、自然语言处理)。众多国际科技巨头和独角兽均在该层级开展广泛布局。近年来,我国技术层围统垂直领城重点研发,在计算机视觉、语音识别等领城技术成熟,国内头部企业脱颖而出,竞争优势明显。

2、计算机视觉发展历经三大理念,规模突破400亿元

1982年马尔(David Marr)《视觉》(Marr,1982)一书的问世,标志着计算机视觉成为了一门独立学科。计算机视觉的研究内容,大体可以分为物体视觉(object vision)和空间视觉(spatial vision)二大部分。物体视觉在于对物体进行精细分类和鉴别,而空间视觉在于确定物体的位置和形状,为“动作(action)”服务。正像著名的认知心理学家JJGibson所言,视觉的主要功能在于“适应外界环境,控制自身运动”。适应外界环境和控制自身运动,是生物生存的需求,这些功能的实现需要靠物体视觉和空间视觉协调完成。

计算机视觉近40年的发展中,尽管人们提出了大量的理论和方法,但总体上说,计算机视觉经历了三个主要历程。即:马尔计算视觉、多视几何与分层三维重建和基于学习的视觉。

国际市场研究机构Research And Markets发布的最新报告显示,2019年全球计算机视觉市场规模为46433亿美元,预计到2027年将达到950805亿美元,从2020年到2027年,预计年复合增长率为469%。

3、语音识别发展科追溯到1956年

语音识别的研究工作可以追溯到20世纪50年代。在1952年,AT&T贝尔研究所的Davis,Biddulph和Balashek研究成功了世界上第一个语音识别系统Audry系统,可以识别10个英文数字发音。这个系统识别的是一个人说出的孤立数字,并且很大程度上依赖于每个数字中的元音的共振峰的测量。1956年,在RCA实验室,Olson和Belar研制了可以识别一个说话人的10个单音节的系统,它同样依赖于元音带的谱的测量。到21世纪之后,深度学习技术极大的促进了语音识别技术的进步,识别精度大大提高,应用得到广泛发展。

目前,语音识别技术已逐渐被应用于工业、通信、商务、家电、医疗、汽车电子以及家庭服务等各个领域。例如,现今流行的手机语音助手,就是将语音识别技术应用到智能手机中,能够实现人与手机的智能对话功能。其中包括美国苹果公司的Siri语音助手,智能360语音助手,百度语音助手等。

随着语音技术和自然语言理解技术的快速进步,AI语音语义技术已在智能翻译、智能医疗、智能汽车、智能客服、互联网语音审核等多个领域实现场景应用。

疫情之后不仅是工业领域,政务服务领域的语音机器人、传统行业企业的语音机器人也将有较高的市场增长空间。另外,NLP、AI数字员工、RPA的发展,一定程度上也将重塑AI应用场景。

2018年,全球智能语音市场仍呈现快速增长趋势,市场规模为1421亿美元,根据预测到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。

4、美国AI高层次学者数量大幅领先

AI高层次学者是指入选AI 2000榜单的2000位人才,由于存在同一学者入选不同领域的现象,经过去重处理后,AI高层次学者共计1833位。从国家角度看AI高层次学者分布,美国A1高层次学者的数量最多,有1244人次,占比622%,超过总人数的一半以上,且是第二位国家数量的6倍以上。中国排在美国之后,位列第二,有196人次,占比98%。德国位列第三,是欧洲学者数量最多的国家;其余国家的学者数量均在100人次以下。

以上数据参考前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/12872204.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-28
下一篇 2023-05-28

发表评论

登录后才能评论

评论列表(0条)

保存