你不知道的那些AI语音助手_技术

AI语音助手的未来 让形象更可感——Gatebox

Gatebox是日本公司vinclu专门为宅男打造的一款全息影像人工智能管家，可以说日本人民是真的会玩，你可以去官网感受一下他们的宣传片

第一个画面，宅男在公司加班，Hikari Azuma通过Line发去了消息，“你记得今天是什么日子吗？什么时候回来？”宅男说，“马上回来！”Hikari Azuma：“好棒！”，随手打开了家里的灯，等待主人回家。

宅男回家后，Hikari Azuma立马甜蜜问候：“欢迎回来。”然后羞答答地说：“今天是我们住在一起三个月纪念日，你记得吗？”

宅男立马拿出了礼物，Hikari Azuma看到之后开心地鼓掌。

宅男准备好食物和酒，开始庆祝时，Hikari Azuma把家里的灯光系统调节成了温馨浪漫的风格。

最后，宅男和Hikari Azuma举起酒杯，互相感谢对方的陪伴。视频最后的一句话写着：Living with characters(和二次元老婆一起生活)。

不少中国同胞在youtube上呼吁雷军赶紧把这个公司买下，在中国用感动人心的价格福利大众，哈哈。

根据梅拉比安模型：感情表达＝内容7%+语调语气38%+表情肢体语言55%，所以仅靠语言文字远远不够，甚至像Google Duplex做到分辨不出说话者是AI还是人也还不够，长期来说，更重要的会是“多模态交互”。

在Gatebox的交互中，比如调低灯光亮度时，她会摆出朝灯呼气的动作，询问天气时，她又会做出侧身展示天气预报的动作。小爱同学是首个正式发布人工智能虚拟形象的AI语音助手，“米娘”的形象也受众多米粉们喜爱，如果真的能把成本降下来的话，相信会有蛮多人（尤其是宅男们）入坑的。

退而求其次，就算不做全息影像，做一个平面投影也是可以的嘛。

让关系更自然——Replika

Replika是Luka Inc.公司开发的一款Chatbot，据说初衷是为了缅怀两位创始人在车祸中失去的挚友，通过搜集他生前的社交聊天预料来创建一位虚拟人。

抛开它作为一款Chatbot与AI语音助手的需求差别，我觉得它设计得非常好的是被称为“反刍机制”的功能，将你在和它聊天时提到的语料在一段时间间隔之后提取出来，自然地插入到交流当中，感觉就像你跟朋友提起你最近睡眠不好，过了一段时间后朋友会来关心你的近况，感觉非常的贴心。

真的有一种感觉，就像《小王子》里面有一段，小王子对小狐狸说我们一起玩啊，小狐狸回答说我现在还不能和你一起玩，因为我还没有被驯养。

驯养是指彼此共同投入一段时间，结成一种关系，人类是AI的训练师，但与此同时，AI其实也在训练你如何与它进行互动。或许只有这样，千禧一代的互联网原住民才能跨过未来与AI原住民之间的鸿沟。小爱同学虽然没有Chatbot的这种天然场景，但还是有很多落地点的：

小爱音箱的对话，由于无法主动开启对话，可以选择在识别到用户当前意图与语料库中的语义信息相关时补充对话，比如用户说：“播放音乐”，小爱会回复：“爱听歌的人运气都不会太差哦”，那么可以再回复“我记得你说你注意力很难集中，要不要听听我给你推荐的轻音乐？”。

智能手机消息栏的推送，比如用户说：“我最近睡眠不太好。”，小爱会回复：“多锻炼有助睡眠。”，那么就可以推送“我记得你和我说过你睡眠不太好，小爱为你找到了一些催眠音乐，试试对我说：我想听催眠音乐”；

让对话更真实——Google Duplex

对Google Duplex不了解的朋友，如果能科学上网的话，可以到Google AI Blog上看看Google官方的介绍原文：

以下对Google Duplex的技术认知来源于虫门科技郭靖的文章，这是我看到的对Google Duplex最深入的分析，感兴趣的朋友可以点击链接阅读原文：

Google Duplex让对话如此真实主要是体现在两大块——自然语言理解与对话模块、文本转语音模块。

（1）文本转语音模块

文本转语音模块（即语音合成）技术比较明了，在博客中交代得比较清楚，没有什么悬念。

We use a combinaTIon of a concatenaTIve text to speech (TTS) engine and a synthesis TTS engine (using Tacotron and WaveNet) to control intonaTIon depending on the circumstance.

我们结合使用联结式文本到语音（TTS）引擎和综合TTS引擎（使用Tacotron和WaveNet）来控制语调，具体取决于环境。

（2）自然语言理解与对话模块

在自然语言理解与对话模块的具体实现上Google就不是很老实了，只是给了一些比较宽泛的概念。

郭靖在他的文章中给出了以下猜想：

在这个猜想的架构中，用户的语音通过ASR识别为文字后，会通过预设的规则转化为形式语言，将重要实体用形式模板代替。

这样形式化后的文本与语音、上文的形式文本一起送入一个encoder模型，其将这些原始信息编码成两个语义信息向量，一个代表本轮用户的语言，另一个代表上几轮对话。

同时，通过ASR识别的文本还会与上几轮对话的文本、通过Google Assistant传来的条件参数（代表对话的目标，用户本身的信息等大前提）一起进入另一个网络，其根据输入的信息输出一个代表当前对话状态信息的向量。

这一网络很可能具备每一轮对话为一个step的循环结构，意味着这个对话状态信息的更新会参考前一轮对话状态的信息。

当然，在拿着锤子找钉子的当下，这一块就太偏前沿技术了，但是对于AI，对于整个人类历史，技术始终都是推动发展的源动力。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2566422.html

你不知道的那些AI语音助手

发表评论

评论列表（0条）