智能语音合成技术将推向普通用户群体

智能语音合成技术将推向普通用户群体,第1张

(文章来源:AiChinaTech)

百度地图推出了定制化语音导航功能,简单说就是用户根据提示采集原声,十几分钟后你将获得属于自己定制化的语音导航音频包。所以说用户除了郭德纲、林志玲、罗振宇……这一票人之外还有更多选择。其实我们在使用明星导航音频包时会发现,除了很多“左转”“红绿灯路口”这类常规交通词汇外,很多涉及地名的、地标的词是可以听的出是合成的。而现在“语音合成”技术推向普通用户,就有了这些AI定制化合成服务。

单从使用AI合成的相关App来看,不禁联想到那个“一夜而红”的ZAO,还有国外的Deepfake,AI脱衣软件DeepNude等等。而国内专注于人工智能领域的企业越来越多,例如:商汤科技、旷视科技这两艘“AI巨轮”的业务主要是对政府及企业的;而科大讯飞、大疆华为、小米、优必选科技的部分硬件类业务是to C类的;极链科技是专注于视频领域的人工智能企业,业务面向品牌主及流量方,也就是to B类的。

对于广大 C端 用户来说,AI合成技术正在通过各种智能设备实现并应用。比如地图AR增强,定制化音频服务、定制化视频服务、专属智能客服等。

其实刚才提到过的曾经爆火的这些App应用,“ZAO”、“Deepfake”、“DeepNude”技术上有些共同之处,但是娱乐的点不同。“DeepNude”涉及色情内容,并上升到人身攻击最终被禁止。网友用“Deepfake”在网上大量恶搞政府首脑,比如特朗普的恶搞视频众多。

工具类软件更能被大家接受认可,微信中音频转文字功能用起来很方便,并且通过计算机的学习,准确度也在不断提高。而科大讯飞推出的「讯飞听见」是目前将音频转文字业务做的较为成熟的平台。业务细分为机器快转和中文人工精转两种服务,可直接收费变现。和百度地图的定制版语音导航类似,属于上传后的AI处理,非在线转化。

地图app,作为一个相对高频使用的工具类应用,除了在满足常规通行服务外,正在发现更多的To C服务场景。比如google地图推出的AR导航功能,已经开始测试应用,用于帮助用户以在线实景增强的方式判断方向及路线。华为也正在布局地图服务,在Cyberverse数据平台上发了Map Kit,而相关AR技术的应用是在景区、博物馆之类的场景做实景增强标注和讲解服务。在2017年高德地图就推出了景区语音导游服务,发展至今已经比较成熟。

AI+音乐,在线音频也一直被关注。今年7月抖音对外宣布了收购英国AI初创公司Jukedeck,这家公司正在研发一种技术,将用人工智能创作音乐,对歌词自动配乐等方面。通过AI对音乐的深度学习,满足用户自由选择音乐类型、曲风、时长等要求,让每一个用户都能体验到音乐创作的乐趣。

可以发现,相比5年前,AI合成技术已经不再那么神秘。而那些曾经“红”极一时的深度伪造类App,通常在道德、隐私、风险等方面游走规则的边缘,似乎满足人们原始“窥视”、“色情”、“臆想”需求的功能成了火热表相之下的底色,或许这并不是开发者的初心,但是从环节上把控内容的方向,依旧很有必要。

另外隐私问题开始被用户所注重,但是随着智能手机的普及应用,智能化的服务的增多,包括面部解锁、刷脸交易、刷脸登陆等。过去很长一段时间用户对App应用上的用户数据留痕,可能无暇顾及,但是当下面部信息已经成为了个人服务的入口,并且直接关联用户隐私、数据信息以及财产的安全性。

总体来看,AI合成技术的工具类应用是比较被用户认可的,无论是功能性还是体验度,相对传统服务有了较大提升。专业技术对普通用户的门槛正在降低,服务、效率、准确率、费用等因素会成为工具类应用的竞争点。
       (责任编辑:fqj)

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/2529385.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-08-05
下一篇 2022-08-05

发表评论

登录后才能评论

评论列表(0条)

保存