台湾现在产业也面临少子化的冲击,除了制造业以外,服务业也受到人力匮乏的引响,许多企业与公司亦开始着手将内部作业流程进行科技化与数位转型,借此做为因应劳动人口不足的手段;而做为电信龙头的中华电信亦相当早就意识到问题,毕竟电信业务相当依赖第一线客户服务为其客户解惑与排除问题,然而由于电信业务总类繁多,客服人员人力有限又经常面对重复问题,故透过科技手段降低人力负担即是中华电信的一大课题。
而中华电信旗下的中华电信研究院当中,不仅在新一代通讯技术、物联网、云端运算以外进行研究,包括人工智慧与深度学习等领域亦为其专注的领域,十个研究单位当中的巨量资料研究所汇集百余位大数据领域专家,在严谨的资料安全保护下进行大数据的极大化应用,并且开发多元的应用,而与中华电信本身最息息相关的包括聊天机器人与104查号台语音辨识服务。
据中华电信研究院副院长陈荣贵博士表示,现在聊天机器人Chatbot早已广泛被企业导入,不过多数的企业仅是导入由外部软体公司或是服务平台提供的解决方案,而中华电信研究院则一手包办自前端开发到应用层面,并以中华电信的巨量数据资料与技术做为后盾,提供合乎电信服务的解决方案。
为了降低客服人员负担,中华电信先以基于Chatbot的智慧文字客服解决客户的常见问题,透过语意分析方式解决客户的常见问题,减少客服电话人力并降低客户等待时间与服务品质。然而光是只有文字客服仍不足以解决电信业所需提供的服务需求,故中华电信也意图导入基于人工智慧的语音客服,但语音系统所牵涉的远比文字更为复杂,加上语音转文字后的复杂度更牵涉到口音差异、语意分析,故此时需要仰赖更大的运算量解决语音客服系统所需的深度学习与神经网路。
中华电信在AI语音客服系统开发的同时,在2010年之际已着手研究影像分析与人脸辨识系统,不过当时深度神经网路由于GPU加速还未成熟,以当时的技术,中华电信并未突破80%的准确度,但也由于中华电信持续研发影像分析与人脸辨识系统,后续也发现NVIDIAGPU对于影像辨识的优势,并将其导入系统架构,中华电信导入TeslaK80加速与神经网路架构后,在短短一年内达到911%的精确度,并且进行2万人共100万张的人像资料库训练亦仅需要72小时,中华电信虽认为超过9成已经是相当大的突破,但仍未因此满足,此时也决定加码导入NVIDIA的GPU。
中华电信于2017年导入基于Pascal架构的TeslaP100GPU,在进行相同的训练库数量培训后,仅需24小时就达到原本需72小时的模型训练,同时在同年底更导入DGX-1超级电脑,以新一代的NVIDIATeslaV100GPU再度把训练时间缩减至1/3,同时精确度进一步达到996%的高水准,而中华电信也同步将NVIDIAGPU加速应用在AI语音客服。
中华电信起初使用传统基于CPU的AI模型训练试图建构语音客服的人工智慧模型,但成果与性能还无法合乎中华电信的要求;中华电信除了导入kaldin3语音辨识工具进行TDNN训练外,透过NVIDIATeslaV100GPU进行培训,不仅将训练语料由48小时大幅提高到1,000小时,能够进行更复杂的语意分析,还把语言与语意的辨识精确度由4753%提升到828%。
同时,中华电信也看到拥抱开放的创新力量,为使更多企业、教育机构与创客能享用到AI资源,中华电信还将云端AI(Paas+Iaas)平台开放,让有志于AI深度学习服务的开发者,能够利用中华电信所提供的平台作为开发影像辨识、语音合成、语音辨识等技术与服务,以拥抱开放携手开发者进行AI技术创新与应用开发。
核心技术主要包括
1、射频识别技术
2、传感技术
3、网络与通信技术
4、数据的挖掘与融合技术
物联网应用中三项最关键技术描述:
1、传感器技术,这也是计算机应用中的关键技术。大家都知道,到为止绝大部分计算机处理的都是数字信号。自从有计算机以来就需要传感器把模拟信号转换成数字信号计算机才能处理。
2、RFID标签也是一种传感器技术,RFID技术是融合了无线射频技术和嵌入式技术为一体的综合技术,RFID在自动识别、物品物流管理有着广阔的应用前景。
3、嵌入式系统技术是综合了计算机软硬件、传感器技术、集成电路技术、电子应用技术为一体的复杂技术。经过几十年的演变,以嵌入式系统为特征的智能终端产品随处可见;小到人们身边的MP3,大到航天航空的卫星系统。
嵌入式系统正在改变着人们的生活,推动着工业生产以及国防工业的发展。如果把物联网用人体做一个简单比喻,传感器相当于人的眼睛、鼻子、皮肤等感官,网络就是神经系统用来传递信息,嵌入式系统则是人的大脑,在接收到信息后要进行分类处理。
1、市场规模:中国人工智能行业呈现高速增长态势
人工智能产业是智能产业发展的核心,是其他智能科技产品发展的基础,近年来,中国人工智能产业在政策与技术双重驱动下呈现高速增长态势。根据中国信通院数研中心测算,2020年中国人工智能产业规模为3031亿元人民币,同比增长151%。中国人工智能产业规模增速超过全球。
注:中国信通院的市场规模根据IDC数据测算,统计口径与IDC一致,即包括软件、硬件与服务市场。
2、竞争格局:中国人工智能企业主要分布在应用层 占比超过80%
——中国人工智能企业全产业链布局完善
我国作为全球人工智能领域发展较好的地区,无论是人工智能领域的基础层、技术层、应用层,还是人工智能的硬件产品、软件产品及服务,我国企业都有涉及。在国内,除去讯飞等垂直类企业,真正在人工智能有所长进的巨头依然是百度、阿里、腾讯这三家。
——中国人工智能企业主要分布在应用层,占比超过80%
据中国新一代人工智能发展战略研究院2021年5月发布的《中国新一代人工智能科技产业发展报告(2021)》数据,截至2020年底,中国人工智能企业布局侧重在应用层和技术层。其中,应用层人工智能企业数占比最高,达到8405%;其次是技术层企业数,占比为1365%;基础层企业数占比最低,为230%。应用层企业占比高说明中国的人工智能科技产业发展主要以应用需求为牵引。
3、技术分布:中国人工智能企业核心布局的技术主要为大数据和云计算
从人工智能企业核心技术分布看,大数据和云计算占比最高,达到4113%;其次是硬件、机器学习和推荐、服务机器人,占比分别为764%、681%、564%;紧随其后,物联网、工业机器人、语音识别和自然语言处理、图形图像识别技术的占比依次为555%、547%、476%、472%。
4、细分领域:深度神经网络领域为中国AI研究热门
根据清华大学人工智能研究院、与中国工程院知识智能联合研究中心联合发布的《人工智能发展报告2011-2020》,2011-2020年十大AI研究热点分别为深度神经网络、特征抽取、图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、协同过滤和机器翻译。
—— 更多行业相关数据请参考前瞻产业研究院《中国人工智能行业市场前瞻与投资战略规划分析报告》
近期,Oculus为三星Gear VR虚拟现实头盔增加了两项分别名为“Parties”和“Rooms”功能,旨在提高用户在使用VR设备时进行更多的互动交流。2016年FaceBook创始人扎克伯格在VR计划会上也讲到,“VR将成为下一个计算平台,将带领人们完全颠覆现有的网络社交模式。”VR社交概念被炒得如火如荼,但VR路途却并不那么美好,首先,现今面临的问题就是语音交互的问题。今天,小编就来为大家讲讲VR语音交互的这个问题。一、科大讯飞语音引擎系统
InterReco语音识别系统
科大讯飞推出全球领先的InterReco语音识别系统,InterReco驱动自助语音服务和语音搜索业务,是语音商务(V-Commerce)的核心动力引擎。目前,InterReco语音识别系统已经能够利用先进的自助语音服务解决方案来处理日益增长的信息咨询、电子交易和客户的服务需求。基于InterReco的解决方案帮助用户在任何时候、任何地点通过随处可得的电话轻松自然的获得信息与服务,享受高效、稳定、便捷的应用体验。
InterReco语音识别系统采用分布式架构,继承了科大讯飞久经考验的电信级语音平台高稳定的特点,可以满足电信级应用的高可靠性、高可用性要求。针对传统语音识别产品集成开发困难,业务设计繁琐的问题,InterReco产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。

InterReco产品的主要功能组成模块及结构
InterReco语音识别系统主要包括应用接口、识别引擎和 *** 作系统适配三个层次,这三个逻辑层共同构成完整的InterReco系统架构。
应用接口是InterReco系统提供的开发接口,集成开发人员应关注这些接口的定义、功能和使用方法。识别引擎提供核心的语音识别功能,并作为应用接口的功能实现者;同时
为了便于开发和使用,系统在这一层提供了一系列高效、易用的工具。 *** 作系统适配层屏蔽了多 *** 作系统的复杂性,为识别引擎提供 *** 作系统相关的底层支持。
InterReco语音识别系统按照逻辑组成可以分为识别语法(Grammar)、识别引擎核心(Recognizer Core)、语音端点检测(Voice Activation Detector)、音频输入(Audio Source)四个子系统,系统的主要设计和开发将按照这些子系统进行。
嵌入式语音Aisound系列产品
同样,科大讯飞还提供了电信级及嵌入式语音合成技术,嵌入式语音Aisound系列是公司一款全球领先的语音合成技术,其尺寸小,资源占用低,效率高,主要应用于嵌入式领域的语音合成软件模块。适用于不同行业的语音播报和应用需求。
科大讯飞嵌入式语音方案主要提供:XFS3031CNP中文语音合成芯片、XFS4243CE中英文语音合成模块、XFS5152CE中英文语音合成芯片、XF-S4240中文语音合成模块等四套语音合成方案,目前已成功应用于车载调度仪、信息机、气象预警机、考勤机、排队机、手持智能仪表、税控机等各类信息终端产品上。另外,语音引擎还提供轻量级语音合成软件Aisound,支持的嵌入式平台和支持功能应用均非常广泛。

XFS3031CNP中文语音芯片系统构成图

科大讯飞语音合成系统框架图
二、云知声“远场语音识别技术”方案
在语音云平台方面,云知声主要在语音识别、语义理解以及语音合成等三方面具备自身的技术优势。语音交互作为VR领域的一个交互入口,云知声更是强调适应各种不同日常场景的交互技术,目前,云知声主要针对语音云平台、智能车载、智能家居、教育等四个垂直领域的语音识别技术提供解决方案。
云知声研发的最新语音技术——“基于双麦克风阵列的远场语音识别方案”。 这款方案采用了世界领先的SSP技术可以有效抑制用户语音之外的噪声和混响效应,做到在95%以上的场景中可以有效地进行远场拾音,配合云知声的远场语音识别引擎,保证了5米距离内,达到精准的识别效果。同时,由于该方案只需要2只麦克风,安装位置灵活,也无需考虑设备朝向。
云知声“云端芯”生态
云知声提供语音识别、语义理解、语音合成、声纹识别等多项语音核心技术,云知声开放平台支持一站式语音应用开发,可自主创建语音应用、并可添加相应的匹配需求方案,通过平台类型设置完成SDK集成包开发,并完成语音产品上线发布。
三、声网Agoraio实时语音系统
声网Agoraio语音SDK采用全球独有的32khz超宽频音质,是普通电话音质的4倍,并提供多声道音效系统,实现VR体验中的“听声辩位”,堪比3D音效。更重要的是,实时语音还可以完美的与游戏背景音乐融合,大大增加了用户的临场感。
除了音频处理上的优化,声网Agoraio依托全球部署的虚拟通信网络,确保为游戏应用提供不卡、不掉线、超低延迟的体验,特别针对网络状况不好情况下的独特优化,可极大提高游戏应用和游戏直播的互动性。这一“重量级武器”,开发者只需要30分钟集成即可轻松完成。
针对无法实现基本的听音辨位问题,声网Agoraio推出了多声道音效系统解决方案。通过集成语音通话SDK,可获得拥有实时高清音质、32khz超带频的语音编解码器NOVA,实现VR画面中声音的立体化环绕,让用户感受到来自四面八方环绕的声音,同时通过智能化回声消除和降噪功能,让用户可以通过声音精准定位空间位置,实现良好的画面沉浸感受。
打开APP阅读更多精彩内容

语音识别
语音合成
vr
声纹识别
互联网已经耳熟能详,那么物联网到底是啥呢
2021-03-25
1122
大数据和人工智能你了解多少
2019-12-10
892
什么是Windows Embedded Compact 7技术?
2019-10-22
0
语音接口技术了解
2019-07-19
0
VR红色文化内容展示
2018-10-18
0
华为都带火了哪些技术
2018-10-10
3162
VR一体机技术的生态内容
2018-09-25
0
这些主流的VR设备芯片方案,您都了解吗?
2017-02-09
6628
你耳熟能详的“物联网”其实是“联网物”?
2016-05-25
824
NORDIC 大家耳熟能详的915M芯片 NRF905
2016-04-07
0
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)