语音和图像识别是物联网时代超级入口？_物联网

深圳是一座因创新而生的城市，每年一届的高交会也凸显深圳创新活力，同时高交会也是深圳“城市名片”之一，也成为众多人们心目中的“创客之都”、“创新之城”，诞生了一批拥有国际话语权的高科技企业，如华为、腾讯名满天下。

聚焦高交会机器人走近百姓家庭

在走进高交会展馆，规模之大，充斥着高科技气息，先进制造、信息技术、智慧城市、各种机器人吸引着观众，笔者在某服务型机器人展台中发现有趣一幕，由于碰巧工作人员在做机器人唤醒准备工作，与机器人对话，让机器人做出各种动作（唱歌跳舞等），不仅有趣，昭示着机器人正在从科幻、科研逐步走入人们的生活中，进入平常百姓家庭。

来自机器人市场全球预测与评估的研究报告中指出，2017年全球服务器机器人市场规模将达461亿美元，可以说服务型机器人将是最具有潜力的增长市场，相信在未来，服务型机器人应用场景会比智能手机应用场景更加多元化，为提高人们生活质量将发挥重要的作用，且受热捧，成为新的热点。

人机交互入口：语音和图像识别

在多年前，笔者曾提到，在即将进入的物联网时代中，语音和图像交互被视作为人机交互的主要入口，机器人、智能家居、可穿戴等智能设备透过语音技术、图像识别等人机交互方式，使得机器不仅能读懂你，也可以让机器读懂我们的世界，之后执行更加精准命令为人类提供各种服务。可以说物联网，包括物联网领域的各种智能硬件必然离不开人工智能以及全新的人机交互方式。

在今年乌镇举办的第三届世界互联网大会上，创新和人工智能成为大会最火热的关键字，然而在今年高交会，创新和人工智能依然成为其主要关键字，百度李彦宏今年也多次公开表示，互联网的下一幕是人工智能。在传感物联网创建人杨剑勇看来，由于近年来人工智能和机器学习的迅猛发展，科技界掀起来一股前所未有的热潮，尤其当物联网应用场景覆盖越来越广之时，或许这个世界将会被人工智能所所包围，无处不在，在这个万物感知的新时代中，谁能赢的人工智能，意味着就赢得未来。

语音和图像识别成为物联网时代超级入口

在高交会展各号馆中，其中基于人工智能细分领域的图像识别和智能语音交互两家公司吸引了我特别注意，即旷视科技和思必驰。一家专注机器视觉和人工智能的技术公司，另一家则是专注于智能语音交互技术公司，让人机交互更有用和有趣。

早前，我在梳理中国最值得关注的十大人工智能公司中，就包含旷视科技和思必驰，随着移动互联网的终结，下一个时代属于物联网，那么作为支撑物联网应用的后端服务的人工智能技术，是物联网时代最核心的一环。

很多人在谈入口，已经到泛滥阶段，但对于物联网领域，我也跟风一把，谈下当前最热门物联网领域的超级入口，有没有可能语音和图像识别（包含生物识别、视频等图像类识别）会成为物联网领域超级入口？物联网各种设备的人机交互方式，语音和图像识别是比较好的路径，万物互联时代下的人机交互模式上，一定得依托于图像与语音，其图像识别和语音识别核心是人工智能作为支撑。那么作为视觉处理的旷视科技和智能语音交互的思必驰有特别之处在哪？

旷视科技：让机器看懂世界

致力于先让机器看懂世界，再让机器真正思考的旷视科技，搭建了全球最具规模的人脸识别云平台Face++，使得由中国人所创造的人脸识别技术走向世界，成立于2011年，从初创公司成长到如今成为国内人工智能领军企业之一，其人脸识别技术也是行业翘楚，正是凭借”刷脸”技术，其CEO上榜福布斯30岁以下青年领袖榜单。

机器视觉是人工智能正在快速发展的一个分支，不仅让机器具有像人类眼睛一样，还需要具备核心的视觉神经中枢，经大数据训练和具备云计算能力的深度学习图像分析系统。旷视科技多年来专注机器视觉技术的研发与应用，目前已经与国内多家Top级机器人厂商开展深度合作，力图赋予机器人一双眼睛看懂世界。

智能语音：引领物联网开启人机交互新模式

面向智能车载、智能家居、智能机器人三个垂直领域提供自然语言交互方案，也率先开发出面向自然语音交互的对话 *** 作系统AIOS，据了解，在车载后镜市场领域成为行业第一，在智能家居和机器人领域应用排名第二，倍受市场的追捧

思必驰作为国内唯一一家专注智能硬件领域的语音企业，已经与阿里YunOS、小米、联想、海尔、美的、庆科、浙江大华等企业建立了深度战略合作关系。思必驰深谙合作之道，不断地通过技术革新深化合作，拓展市场。

另外还了解到，思必驰是国内为数不多的产学研一体化企业之一，成立之初便与上海交大成立联合研究实验室“Speech Lab”，由思必驰首席科学家/上海交通大学俞凯教授全面负责，主要进行前沿智能语音技术的研究及应用，取得了较多成果，如在深度学习领域，其推出的VDCNN算法在降噪处理上的优势不可取代；新型解码框架使得帧同步解码转换为音素同步解码搜索空间减少80%以上等技术成果。产学研一体化模式，使思必驰解决方案越来越受到市场的关注及认可。

人工智能成为未来10年内，甚至成为更长时间内的科技趋势，杨剑勇进一步指出，不论科技巨头，亦是知名学府，或是各主要国家，均将人工智能技术作为未来发展的重点，如今人工智能也迎来最好时代，无需质疑，人工智能是当前科技界最热门的领域，同时也被视作为新的科技革命。

由于人工智能倍受资本及国家相关政策的支持，以及众多科技巨头、创新创业公司投身于人工智能这一领域，这将有助于人工智能技术的发展。

文／杨剑勇

作者系传感物联网创建人杨剑勇（科技名人、物联网权威人士），百度问咖认证大咖，长期关注物联网、智能家居、可穿戴智能设备、机器人和人工智能等前沿科技产业。

感知层：底层数据采集职能，包括芯片、连接芯片和应用设备的模组、传感器、各类识别技术等

1、芯片：低功耗、高可靠性的半导体芯片应用广泛，MCU/SoC逐渐渗透物联网领域。MCU芯片复杂度较低，适用于智能设备的短距离信息运输，主要应用于智能家居、消费电子、医疗保健和工业电子等领域；SoC芯片系统复杂度较高，集成功能更丰富，支持运行多任务复杂系统，可应用于功能较复杂的嵌入式电子设备，应用于无人机、自动驾驶和工业互联网等领域

2、无线模组：为物联网提供网联能力的基础硬件，将芯片、存储器和功放器件等集成在一块线路板上，并提供标准接口，在物联网产业中处于承上启下的中间环节，向上连接芯片行业，向下连接各类终端设备，终端设备借助无线模组实现通信或定位的功能。

3、传感器：作为物体的“五官”，传感器承担采集数据、感知世界的重任，不断向智能化、高精度、微型化的方向发展，市场空间广阔。传感器与MEMS结合是当下技术的新趋势，MEMS传感器集成通信、CPU、电池等组件及多种传感器，具有体积小、功耗低、成本低、集成度高、智能化特点，广泛应用于消费电子、医疗和车联网等领域。

涉及企业：

芯片

翱捷科技：具备全球稀缺的全制式蜂窝基带芯片研发能力的平台型芯片设计企业。2015年成立以来一直专注于无线通信芯片的研发和技术创新。公司各类芯片产品可应用于手机、智能穿戴设备为代表的消费电子市场和以智慧安防、智能家居、自动驾驶为代表的智能物联市场。

先科电子：领先的高质量模拟和混合信号半导体产品供应商。成立于1960年，主要为客户提供电源管理、保护、高级通信。人机界面、测试与测量以及无线和感应产品方的专有解决方案。

广芯微电子：成立于2017年，一家为客户提供创新解决方案的集成电路设计企业，公司开发包括面向工业物联网（IIoT）并支持边缘计算的专用处理器芯片、面向LPWA的IoT连接专用芯片、IoT基带处理器芯片、以及应用于传感器信号调理的专用芯片。

华为海思：全球领先的Fabless半导体与器件设计公司，前身为华为集成电路设计中心，2004年注册成立实体公司，提供海思芯片的对外销售及服务。

联发科：全球第四大无晶圆半导体公司，联发科技的核心业务包括移动通信、智能家居与车用电子，着重研发适用于跨平台的芯片组核心技术，联发科的芯片经过优化，能在极低散热量且极度节能的模式下运行，以延长电池续航力，时时刻刻达到高效能、高电源效率与连网能力的完美平衡。

紫光展锐：我国集成电路设计产业的龙头企业。公司于2013年成立，致力于移动通信和物联网领域核心芯片的研发及设计，产品包括移动通信中央处理器、基带芯片、AI芯片、射频前端芯片、射频芯片等各类通信、计算及控制芯片，其物联网解决方案支持众多智能电子产品，包括智能手机、平板电脑、Wi-Fi调制解调器、家用设备、可穿戴设备、互联汽车产品等。

移芯通信：为中国自主研发的超低功耗NB-IoT和Cat-M物联网芯片供应商。公司于2017 年成立，2020年12月完成B轮融资。主要业务为蜂窝物联网芯片的研发和销售，致力于设计全球极致性价比的蜂窝物联网基带芯片。

高通：是全球领先的无线科技创新者，也是5G研发、商用与实现规模化的推动力量。成立于1985年，1991年在纳斯达克上市。Qualcomm主要研发无线芯片平台和其它产品解决方案，凭借行业领先的技术解决方案以及在标准组织中的积极贡献，Qualcomm成为赋能无线生态系统不可或缺的一部分。

诺领科技成立于2018年9月，是探索满足IoT需求的全集成、低功耗无线SoC解决方案的先行者。诺领科技作为一家广域无线物联网芯片设计公司，拥有射频模拟、基带通信系统、GNSS、SoC系统和软件方面的顶尖人才，致力于发布最佳SoC解决方案。公司目前推出的产品包括物联网系统级芯片NB-IoT和Cat-M SoCs，服务于广泛的市场，其中包括智慧城市、可穿戴设备、资产追踪等等。

芯翼信息是5G物联网端侧SoC创新领导者。成立于2017年3月，公司专注于物联网通讯芯片（NB-IoT）的研发和销售。其产品XY1100是全球首颗single die集成CMOS PA的量产NB-IoT SoC，具有超低功耗、超小体积模块设计和开发灵活等优势，可应用于智慧气表、智慧水表、烟感、电动车、物流跟踪、智慧穿戴等应用场景。

智联安科技是一家专业从事芯片设计的国家高新技术企业。成立于2013年9月，公司总部位于中国北京，在硅谷、武汉、合肥等多地设有子公司和技术研发中心。公司致力于无线通信芯片的技术研发，目前已于2019年8月成功完成NB-IoT终端通信芯片MK8010量产流片，并在多个行业中实现落地应用。

中兴微电子为中国领先的通信IC设计公司。成立于2003年，中兴微电子专注于通信网络、智能家庭和行业应用等通信芯片开发，自主研发并成功商用的芯片达到100多种，覆盖通信网络“承载、接入、终端”领域，服务全球160多个国家和地区，连续多年被评为“中国十大集成电路设计企业”。

Nordic Semiconductor北欧半导体是专注研究物联网无线技术无晶圆厂半导体公司。公司专注于低功耗无线技术产品，包括短距离蓝牙，2020年从Imagination Technologies收购的Wi-Fi技术和LTE-M / NB-IoT蜂窝物联网解决方案。

Marvell美满是高性能数据基础架构产品的全球半导体解决方案提供商。成立于1995年，Marvell专注模拟，混合信号，计算，数字信号处理，网络，安全性和存储领域，提供产品和解决方案来满足汽车，运营商，数据中心和企业数据基础架构市场日益增长的计算，网络，安全性和存储需求。公司当前的产品主要包括两大类：网络和存储。

Broadcom博通是全球领先的有线和无线通信半导体公司。拥有50年来的创新，协作和卓越工程经验，公司设计提供高性能并提供关键任务功能的产品和软件，包括半导体解决方案和基础设施软件解决方案，半导体解决方案主要包括明星级的有线基础设施业务（以太网交换芯片/数据包处理器/ASCI等）和无线芯片业务（Wi-Fi 芯片/蓝牙/GPS 芯片等）。基础设施软件部门主要包括主机、企业软件解决方案和光纤通道存储区域网络业务。

NXP恩智浦半导体公司是嵌入式应用安全连接解决方案的全球领导者。公司于2006年在荷兰成立，前身为荷兰飞利浦公司于1953年成立的半导体事业部，致力于为客户提供广泛的半导体产品组合，包括微控制器，应用处理器，通信处理器，连接芯片组，模拟和接口设备，RF功率放大器，安全控制器和传感器等

乐鑫科技是一家专业的物联网整体解决方案供应商。公司在2008年4月成立于上海，是一家主要从事智能物联网Wi-Fi MCU通信芯片与模组研发设计与销售的公司。公司采用Fabless的经营模式，将晶圆制造、封装和测试环节委托于专业代工厂商。近年来，公司牢牢把握智能物联网行业的机遇，主要产品Wi-Fi MCU通信芯片目前主要运用于智能家居、智能照明、智能支付终端、智能可穿戴设备、传感设备及工业控制等物联网领域

晶晨股份是全球布局、国内领先的集成电路设计商。成立于2003年，公司专注于为多媒体智能终端SoC芯片的研发、设计与销售，芯片产品主要应用于智能机顶盒、智能电视和AI音视频系统终端等科技前沿领域。公司属于典型的Fabless模式IC设计公司，将晶圆制造、芯片封装和芯片测试环节分别委托给专业的晶圆制造企业和封装测试企业代工完成，自身则长期专注于多媒体智能终端SoC芯片的研发、设计与销售，已成为智能机顶盒芯片的领导者、智能电视芯片的引领者和AI音视频系统终端芯片的开拓者。

蜂窝模组企业

移远通信：全球领先的物联网模组龙头。公司成立于2010年，从事物联网领域无线通信模组及其解决方案的设计、生产、研发与销售服务，可提供包括无线通信模组、物联网应用解决方案及云平台管理在内的一站式服务。

广和通：作为首家上市的无线通讯模组企业，近十年为公司业务的快速发展期。成立于1999年，并于2017年在深圳证券交易所创业板上市，成为中国无线通讯模组产业中第一家上市企业。公司主要从事无线通信模块及其应用行业的通信解决方案的设计、研发与销售服务。

美格智能：全球领先的无线通信模组及解决方案提供商。成立于2007年，美格智能专注于为全球客户提供以MeiGLink品牌为核心的标准M2M/智能安卓无线通信模组、物联网解决方案、技术开发服务及云平台系统化解决方案。

日海智能：通信行业连接设备龙头，成立于2003年，2017年相继收购了龙尚科技与芯讯通，入股美国艾拉，在国内率先实现了“云+端”的物联网战略布局，卡位物联网发展关键环节；在2018年重新确立了AIoT人工智能物联网发展战略，

高新兴：全球领先的智慧城市物联网产品与服务提供商。成立于1997年，公司长期致力于研发基于物联网架构的感知、连接、平台层相关产品和技术，从下游物联网行业应用出发，以通用无线通信技术和超高频RFID技术为基础，融合大数据和人工智能等技术，实现物联网“终端+应用”纵向一体化战略布局，构筑物联网大数据应用产业集群，并成为物联网大数据应用多个细分行业领先者，服务于全球逾千家客户。目前公司正处于战略和资源进一步聚焦阶段，重点聚焦车联网和执法规范化两大垂直应用领域。

有方科技：物联网接入通信产品和服务提供商。成立于2006年，公司致力于为物联网行业提供稳定可靠的接入通信产品和服务。公司的主营业务为物联网无线通信模块、物联网无线通信终端和物联网无线通信解决方案的研发、生产（外协加工方式实现）及销售。

合宙通信：一家专业提供物联网无线通信解决方案技术产品和服务的高科技企业。成立于2014年，公司致力于提供基于通信模块的智能硬件、软件平台、云平台等综合解决方案

鼎桥通信：行业无线解决方案的领导者。成立于2005年，公司专注于无线通信技术与产品的创新，布局三大业务板块：行业无线、物联网&5G、行业定制终端。

锐明技术：全球商用车载监控龙头。成立于2002年，公司聚焦商用车视频监控和车联网18年，细分行业龙头公司，产品覆盖商用车全系车型。公司外销“商用车通用监控产品”，内销“商用车行业信息化产品”，全球累计超过120万辆商用车安装有公司的产品

传感器

奥比中光：一家全球领先的AI 3D 感知技术方案提供商。公司成立于2013年，在2020年12月进行上市辅导备案。公司拥有从芯片、算法，到系统、框架、上层应用支持的全栈技术能力，主要产品包括3D视觉传感器、消费级应用设备和工业级应用设备技术产品，其AI 3D 感知技术广泛应用于移动终端、智慧零售、智能服务、智能制造、智能安防、数字家庭等领域。

歌尔股份：一家电子元器件制造商，成立于2001年，属于消费电子行业，主营业务可分为精密零组件业务、智能声学整机业务和智能硬件业务。

汉威科技：气体传感器龙头企业，成立于1998年，并于2009年10月作为创业板首批上市公司在深交所创业板上市。公司致力于气体传感器和仪表的制造、并提供物联网解决方案

联创电子：成立于1998年，公司主营业务为研发、生产和销售触控显示类产品和光学元件产品。公司现已形成光学镜头和触控显示两大业务板块，主要产品包括高清广角镜头、平面保护镜片、手机触摸屏、中大尺寸触摸屏、显示模组、触控显示一体化模组等

瑞声科技：全球领先的智能设备解决方案提供商，在声学、光学、电磁传动、精密结构件、射频天线等领域提供专有技术解决方案。公司成立于1993年，公司是电磁器件、射频天线、精密结构件等多个细分领域的行业冠军，也是5G天线产品的重要供应商

睿创微纳公司是一家专业从事专用集成电路、红外热像芯片及MEMS传感器设计与制造，成立于2009年。公司具有完全自主的知识产权，为全球客户提供性能卓越的红外成像MEMS芯片、红外探测器、ASIC 处理器芯片、红外热成像与测温机芯、红外热像仪、激光产品光电系统。

远望谷：我国物联网产业的代表企业，成立于1999年，公司主营业务集中在物联网感知层和应用层，为多个行业提供基于RFID技术的系统解决方案、产品和服务。

金溢科技：一家智慧交通与物联网核心设备及解决方案提供商。公司创立于2004年，公司产品主要包括高速公路ETC产品、停车场ETC产品、多车道自由流ETC产品和基于射频技术的路径识别产品。

杭州士兰微电子：一家专业从事集成电路芯片设计以及半导体微电子相关产品生产的企业。公司成立于1997年，并于2003年3月在上交所主板上市。公司主要产品是集成电路以及相关的应用系统和方案，主要产品包括集成电路、半导体分立器件、LED（发光二极管）产品等三大类。

水晶光电：专业从事光学光电子行业的设计、研发与制造,专注于为行业领先客户提供全方位光学光电子相关产品及服务的公司。公司创建于2002年8月

敏芯股份：成立于2007年，是一家专业从事微电子机械系统传感器研发设计和销售的的高新技术企业，也是国内唯一掌握多品类MEMS芯片设计和制造工艺能力的半导体芯片上市公司，主营产品包括MEMS麦克风、MEMS压力传感器和MEMS惯性传感器

必创科技：成立于2005年，无线传感器网络系统解决方案及MEMS传感器芯片提供商

固锝电子：成立于1990年，2006年在深交所主板上市，是国内半导体分立器件二极管行业完善、齐全的设计、制造、封装、销售的厂商。

感知交互企业

出门问问：以语音交互和软硬结合为核心的AI公司。公司成立于2012年，作为入选“新基建产业独角兽TOP100”的人工智能企业，出门问问拥有完整的“端到端”语音交互相关技术栈，包括声音信号处理、热词唤醒、语音识别、自然语言识别、自然语言理解、语音合成等尖端技术。

汉王科技：国内人工智能产业的先行者，成立于1998年，在人工智能领域深耕二十多年，是一家模式识别领域的软件开发商与供应商，主营业务包括“人脸及生物特征识别”、“大数据与服务”、“智能终端”、“笔触控与轨迹”等

科大讯飞：亚太地区知名的智能语音和人工智能上市企业，公司成立于1999年，公司主营业务包括语音及语言、自然语言理解、机器学习推理及自主学习等人工智能核心技术研究、人工智能产品研发和行业应用落地。科大讯飞作为中国人工智能产业的先行者,在人工智能领域深耕二十年，公司致力让机器“能听会说，能理解会思考”，用人工智能建设美好世界,在发展过程中形成了显著的竞争优势。

声智科技：融合声学和人工智能技术的平台服务商，也是全球人工智能 *** 作系统领域的开拓者。公司成立于2016年4月，拥有声学与振动、语音与语义、图像与视频等远场声光融合算法，以及开源开放的壹元人工智能交互系统(SoundAI Azero)，具有声光融合感知、人机智能交互、内容服务聚合、数据智能分析、IoT控制和即时通讯等能力。

云知声：致力于AI产业的高新技术企业，成立于2012年6月，总部位于北京。公司以AI语音技术起家，经过多年经验和技术的积累，逐渐构筑起一个涵盖机器学习平台、AI芯片、语音语言、图像及知识图谱等技术的技术城池，成为了具有世界顶尖智能语音技术的独角兽

生物识别企业

商汤科技：全球领先的人工智能平台公司，也是中国科技部指定的首个“智能视觉”国家新一代人工智能开放创新平台。公司自主研发并建立了全球顶级的深度学习平台和超算中心，推出了一系列领先的人工智能技术，包括：人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶和遥感等。商汤科技已成为亚洲领先的AI算法提供商。

神州泰岳：致力于将人工智能/大数据技术、物联网通讯技术、ICT技术进行融合，大力提升行业/企业组织信息化、智能化的质量与效率的高新技术企业。公司成立于2001年

端侧BIoT

比特大陆：是一家全球领先的科技公司，成立于2013年。公司立足中国，以全球视野整合前沿研发资源，专注于高速、低功耗定制芯片设计研发，其产品包括算力芯片、算力服务器、算力云，主要应用于区块链和人工智能领域。

1、首先你得在百度AI开发者平台控制台创建你的应用服务，拿到对应的密钥。如图：
2、开始调用，我就找了几个接口测试了一下

①、语音识别（将一段语音文件转成文字）：
②、语音合成（将文字转音频文件），经测试，合成的语音还挺好听：
③、通用文字识别（对不住了，开哥）：
④、人体属性识别（女神涛，了解一哈）：
3、总结，C#接口目前支持到net core 20,framework 到45，基本上我都时copy的官方api文档的例子。

API文档地址：>

语音合成技术给我们带来了很多惊喜，你知道自己每天都在与它们打交道吗？而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章，但可以肯定的是，语音合成技术已经走出实验室，开始商用，其潜在的巨大市场已露出曙光。

我们的身边总是人声鼎沸。

婴儿牙牙学语，男女互诉爱意。在肺部、气管和声带的共同作用下，声音出现，喉内肌肉协调作用下，我们说出能够代表自己想法的字符，再赋予其愤怒或喜悦或悲伤的情感，人类的语音就此形成。

18世纪末，一个因土耳其行棋傀儡的骗局将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦，花费了人生最后20年的时间，试图模拟人类的语音。他做了一个布满孔洞的空箱，空箱连接着一个奇异形状的鼓风机，鼓风机被压动后将使得内置的簧片振动，这一过程模拟了人类的发声，也确实发出了声音，而这也成就了人类最早的语音合成机械之一。

让机器更像人类，是无数科学家的梦想。这样的梦想被多方位的推进，从机器的外形上、内核的思考运算上，以及对外表达的说话上。

如今，电子设备取代了空盒子，算法则比簧片更能够协调发声。在技术发展下，声音的波动被计算机捕捉、计算、指引，最终发出声音。这一项带着前人梦想的技术，不再单单出现在和小说里，也承载起了巨大的市场走进千家万户，这就是语音合成。

从Siri开始的热潮，语音合成潜力无限

同时，Siri的热潮也拉开了语音合成技术运用的大门。

2014年微软推出了"小娜"与"小冰"，这是将Siri所拥有的语音识别技术及语音合成技术分开来，小娜负责理解复杂的口语指令并进行执行，而小冰主要能够和人类友好地聊天。

随后，这样的运用逐步增多：2014 年底，亚马逊发布了 Echo 智能音箱，语音助理 Alexa也随之亮相；一年半后，Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。

国内的巨头也不遑多让，京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱，也纷纷进入了国人的家居生活。

Siri的热潮同步开启的，不仅仅是语音合成技术在硬件上的应用，也包括一系列更具想象力的交互场景，带来了巨大的商机。

2015年春节，本就搭载了语音导航的高德地图与郭德纲合作，推出了高德地图欢笑版。用户打开高德地图，不仅能够听到导航播报，还能听到郭德纲的极具特色的段子。这一次尝试，让高德地图一度跃至苹果App Store榜单第2名。

在今年新冠肺炎疫情期间，"宅经济"大行其道，"听书"市场也快速爆发，有声阅读成为新的阅读潮流。

除此以外，短视频中的AI配音，让视频内容者省去大量配音时间；对已故知名艺人的声音采集，实现过去与现在的交互，圆了一代粉丝的梦想……

我们可以看到，语音合成技术的未来拥有巨大的想象空间，根据赛迪智库数据，预计到2021年智能语音市场规模将达195亿元。在这其中，智能语音就由语音识别技术（ASR）和语音合成技术（TTS）共同组成。

而这两项技术也正在被头部企业迅速推进，市场之下，语音合成已经不仅仅代表人类过去的梦想，更是代表着更"大一统"的科技格局，毕竟，这一技术改变着人类与机器的交互方式，也将改变未来人类的机器使用习惯，代表着全新的机会与入口。

从过去到现在，语音合成技术一览

1773年，俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦（Christian Kratzenstein）制造了一个特别的设备，通过共鸣管和风琴管的连接，几乎可以完美的发出 a、e、i、o、u 这五个元音。

十多年后，前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后，多位发明家基于这一机器进行改进，都是试图通过物理机模拟人说话发音。

这样的尝试已经令人难以想象，不过，即使这样的物理机发展得登峰造极，也无法模拟出我们说出的每一个音节、无法拥有人说话的音质，也无法停顿、无法带有情绪。

因此，另一种方式出现——拼接系统，让说话人录制语音存入系统，在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声，虽然拼接处的瑕疵难以消除，但是随着如今大数据时代的来临，大语料库的出现，让拼接出的语音逐步真人化，直至如今依然有商业系统在使用。

基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时，对语音的识别不再是识别一个简单的词和短词组，而是基于统计的方法，运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知，最终给到用户最高可能性的连接。在这其中，典型的模型是隐含马尔可夫模型（HMM），用来描述如何在可变长的时序特征序列上打词标签。

2017年3月，行业的引领者Google 提出了一种新的端到端的语音合成系统：Tacotron。端到端语音合成是在参数合成技术上演进而来的，把两段式预测统一成了一个模型预测，即拼音流到语音特征流的直接转换，省去了主观的中间特征标注，克服了误差积累，也大幅度提高了语音合成的质量。

然而，为了实现真正像人一样的发音，语音合成系统必须学会语调、重音、节奏等表达因素，这一问题，Tacotron也并未解决。

谷歌曾共享了两篇新论文试图解决这一问题，第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"（prosody embedding）的概念。论文中为 Tacotron 增加了一个韵律学编码器，该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。

第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开，并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下，学习的不再是时间对齐的精确的韵律学元素，而是较高层的说话风格模式，并且可以迁移于任意不同的短语之中。

如果论文提到的模型实现，那么我们便可以迫使 Tacotron 使用特定的说话风格，不需要参考语音片段，并能创造出语音长度多样化的不同语句，并带有情绪。

在不远的将来，或许我们就将听到，来自机器的人类声音。

国内：积极商用，进展瞩目

在语音合成的重要研究中，因为国内起步较晚，所以我们很少看到突破性的技术发展。但是，即便停留在艰难的探索初期，巨头们之于语音合成仍旧趋之若鹜。

我们也惊喜地看到，不少企业在近期通过语音合成的商用落地，展现出了自己的技术实力。

① 京东数科：AI主播"小妮"上岗

京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀，在2018年就开始组建机器人的团队，研究覆盖生命科学、传感器材料乃至运动力学与人机交互。

在全面的机器人开发体系下，今年5月，京东数科推出了令人瞩目的AI主播"小妮"，这是京东数科自主研发的AI虚拟数字人产品首次亮相。

小妮的真实是全方位的，在听感、表情、头部动作乃至口型上，小妮都极像真人。从文字到语音，小妮通过自研的轻量级对抗语音合成技术进行转化；而小妮特色鲜明的声音及极具真实性的呼吸和停顿，则是来源于在多人数据上结合深度神经网络进行个性化建模……

更为重要的是，小妮的出现打通了语音、图像、视频，在语音生成视频的阶段，她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情，通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。

而除了主播领域以外，AI虚拟数字人还可以用智能客服及招聘领域。在未来，我们可以预见到，AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展，或许也将出现超乎我们想象的AI运用。

② 科大讯飞：为多家企业提供底层技术支持

早在之前，科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年，来自科大讯飞地一款彩色墨水屏阅读器正式面世，一方面，阅读器可以进行常见的新闻播报、语音读书，满足用户的基础要求；另一方面，阅读器结内置了神秘AI主播，可以对话用户、助力用户解决问题。同时，科大讯飞也为多家企业提供底层技术支撑，覆盖智能手机、智能汽车等多个领域。

③ 腾讯云：语音累计音色种类达24种

而对于拥有国内最大流量池——微信、QQ的腾讯而言，这家企业则选择为内容创业者提供服务。

今年9月，腾讯云语音合成团队正式开放面向全量用户的合成音频平台，该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用，用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时，腾讯云还发布了全新地11种音色，其中甚至包括粤语这样的方言在内，目前累计音色种类达24种。

④ 百度：百度大脑开放全栈语音引擎能力

作为将AI作为战略进行投入的百度，在语音合成上的推进也不容小觑。

去年，已经开放三年的百度发布了语音引擎。这是一套非常全面的系统，覆盖内容非常广泛，包括硬件模组、开发板以及语音交互场景解决方案等。在这其中，百度也专门围绕语音合成的成功进行了发布，推出了6个在线语音合成精品音库和5个离线语音合成精品音库。

未来语音合成将更接近人类的语言

立足现在，我们不禁畅想，未来的语音合成将是什么样，又将出现在哪些地方？

在技术上，毫无疑问，未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成：文本分析、韵律生成和合成语音，而在这三方面，行业的发展都还有待提高。

在这其中，韵律生成是行业面临的共同问题，如何可以让语音合成更像人类？更具表达力？作为声学模型，还有大量个性化、情感化的变化因素需要学习。而值得一提的是，语音合成技术的复杂度也需要降低，从而实现更广度地运用。我们也相信，随着大量语料的有效使用，这一切问题也都将解决，未来，语音合成必将更加"传神"。

而随之而来的，我们的生活也将被改变。

一方面，在科技带来革新的同时，传统也将受到冲击。在上文中，小妮被运用与客服以及招聘的部分环节，那么很明显，在不远的未来，具有重复性的语音性质的工作将受到巨大影响。

而另一方面，更为智能的未来也将到来，在将来，人与机器的交互方式或许将被彻底改变，到那时，全新的商业机会也将藏于其中。

为了迎接这一时代，巨头趋之若鹜，而普通人也同样该砥砺前行。

#智能语音##语音合成#

2016年，科技圈最火的三件事：AI、VR和基因检测。其中，有着最悠久发展历史的是AI——人工智能。一般来说，一个事物最火的时候，也就是它进入泡沫期的时候。人工智能爆发背后的技术推动力：GPU、云计算、大数据、机器学习就以人工智能为例，据北京捷通华声股份有限公司董事长张连毅介绍，2010年前，中国从事人工智能技术及服务的企业不到20家。但是2010年以后，人工智能企业便如雨后春笋般，前仆后继了。据某细分领域研究机构出具的统计报告显示：2016年，中国的人工智能企业有709家，美国有2095家，英国有366家。这些数据或许不尽准确，但是起码说明时至2016年，几乎随处都能”偶遇”人工智能企业，不管是做技术服务的，还是做软件应用的，还是做实体机器人的。总之，就是随时随地都能感受到人工智能“爆发”。尤其是2016年的机器人大会在天津成功举办后，因为各界的莅临与关注，又把人工智能推向了新高。提及这背后的原因，借用在人工智能领域有二十五六年从业经验的张连毅的话：“应该说是最近几年，几个变量同时发生了。一是GPU服务器的出现及商用;二是云计算的成熟，三是大数据的商用。”“打个比方说，就是GPU服务器和云计算让我们有了一个好的灶台和做菜工具，大数据为我们提供了很好的材料，这让我们炒一大锅菜成为了可能;与此同时，机器学习也趋向成熟了。这让我们不仅有了灶台和材料，还有了易学简用的方法。在这样工具、材料和方案都具备的条件下，人工智能技术获得了史无前例的突破，而其更大的意义在于，只要掌握了工具、材料、方法这三个要素，人工智能从此不再因神秘而高不可攀，就变成了一个人人都有可能掌握的能力。”换句话说，就是人工智能的“支撑技术们”取得了发展和突破，降低了人工智能的进入门槛。人工智能爆发的产业化意义：物联网产业发展的有力推手但是，这种“泛滥式”的爆发，放到整个信息技术历史长河中来看，并非坏事。因为，从另一个方面来讲，它代表了一种技术的成熟。而这种技术的成熟，是一个产业发展的必备条件。首先，我们看一下人工智能的定义。某百科上对它的释义是：它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的，能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。这段很抽象很晦涩，但是实际参与人工智能技术及服务的公司们，已经把人工智能“肢解”的非常具体化了。比如捷通华声这家定位于人工智能技术服务的公司，开发出了9项人工智能技术：语音合成、手写识别、语音识别、图像识别(OCR)、语义理解、机器翻译、声纹识别、人脸识别、指纹识别。目的就是让机器拥有“能说会听、能写会识，能思考会判断”的能力。这种能力正是物联网的终端所必须的。比如，我们希望物联网时代能够实现设备与设备的交互，设备与人的交互。比如冰箱会告诉我们现在还有几只雪糕;空调会告诉我们房间里现在温度如何等等。如果要实现这些，设备就必须具备“能听能看，能说会动、能思考会判断”。当然，会动要按设备的应用场景而分。不过不排除未来有一天我们的桌子、椅子、冰箱、洗衣机都是能走会动的，只要有需求，比如洗衣机洗完衣服，可以自己凉;桌子坏了，自己修等(未来是一个让人变得更懒的世界)。同时，从物联网技术路线图的层面上来看，其感知层、传输层和数据处理层分别涉及到传感技术、通信技术和计算机技术。物联网能够从设想变成现实离不开这三大技术的进步。比如，传感器在小型化、低功耗和智能化方面的突破;通信技术在低功耗广域网方面取得的突破;计算机技术在云计算、大数据和人工智能方面取得的突破等。正是在这些技术进步的基础之上，物联网才有了产业化的可能。也就是说，在物联网时代，这些要素缺一不可。所以，两三年前我们曾经探讨过，未来的物联网 *** 作系统是否会以人工智能为基础。今天看来，这已是不争的事实。

是真的。在AI人工智能领域，智能语音是发展得最为成熟的赛道。作为人工智能语音行业早期的入局者，云知声确实被称为“AI语音第一股”。通过在人工智能领域的不断深耕，如今云知声已经发展成为一家顶尖的物联网人工智能服务提供商，它以全栈AI技术为核心，立足云芯一体化平台，提供面向智慧物联、智慧医疗等场景的物联网智能化产品服务，深得众多合作伙伴的信赖与好评。

一个完整的语音识别系统通常包括信号处理和特征提取、声学模型、语音模型和解码搜索这四个模块。

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

功能特点

1、多为中、小词汇量的语音识别系统，即只能够识别10~100词条。只有近一两年来，才有连续数码或连续字母语音识别专用芯片实现。

2、一般仅限于特定人语音识别的实现，即需要让使用者对所识别的词条先进行学习或训练这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别，即预先将所要识别的语句码本训练好而装入芯片，用户使用时不需要再进行学习而直接应用。

3、由此芯片组成一个完整的语音识别系统。因此，除了语音识别功能以外，为了有一个好的人机界面和识别正确与否的验证，该系统还必须具备语音提示（语音合成）及语音回放（语音编解码记录）功能。

4、多为实时系统，即当用户说完待识别的词条后，系统立即完成识别功能并有所回应，这就对电路的运算速度有较高的要求。

5、除了要求有尽可能好的识别性能外，还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。

以上内容参考百度百科-语音识别技术

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/10448914.html

语音和图像识别是物联网时代超级入口？

发表评论

评论列表（0条）