现在很多做AI语音的厂商都在说NLP,NLP和传统关键词的区别究竟是什么?

现在很多做AI语音的厂商都在说NLP,NLP和传统关键词的区别究竟是什么?,第1张

从外呼系统诞生的那一刻起,基于人工规则关键词匹配的语义理解方法,和以NLP算法驱动的语义理解方法,一直是对话系统工业界领域的争论焦点。基于关键词匹配的语义理解方法,对于快速搭建新对话场景有着其独特优势。在AI训练师的指导下,机器人通过已配置好的关键词进行匹配,能很‌快根据用户的表达做出机械的理解反应,所设置的关键词模板越复杂,机器人能应对的对话内容也越丰富。然而,简单粗暴的配置方式相应地也带来了一定的负面作用。随着对话内容的增多,关键词穷举所带来的难度呈指数级上升,形成的语义冲突更是不可忽视的难题。而以NLP算法驱动的语义理解方法则恰恰相反,算法的有效工作,往往是“娇生惯养”型的,需要前沿的算法和大量的垂直数据作为基础支持。然而,一旦满足前沿算法+大数据两大条件,以NLP驱动的方法在复杂对话场景的语义泛化性和精准识别上就能够大显神威。
只有当行业区分后,垂直行业下的语料积累和NLP算法模型准确度才有提升的可能。我‌们曾在已有的10NLP系统中做过测试,分场景的意图判断准确度相比泛行业可以提升5%-7%。利用算法能力进行最终意向输出,替代过往的规则匹配,可以让意向判断更贴近真实的转化效‌果‌。与此同时,通过垂直领域下语料库、意图库的积累和调用,以及话术智能推‌荐‌,可以大大提升AIT话术交付的响应速度,更好应对618、双十一等大促节点下的客户爆发性需求。
有了NLP20系统的加持,原先一些高难度的对话场景有了实现的可能。曾经,对于调查问卷、用户满意度调研之类的外呼需求,在关键信息提取、时间地址组织名等实体信息抽取上的要求非常高,靠简单关键词穷举是根本无法满足要求的。而有了NLP的实体识别功能和关键信息提取功能,复杂对话场景的数据分析变得可行;有了情绪识别和情景感知功能的加成,同样的用户回复⌄,机器人有了更多的语言表达选择,真正做到了千人千面;而有了知识图谱算法的支持,极大地减少了复杂重复问题的实施投入,也让机器人在客户各式各样问题面前变得更加从容。
此次发布的NLP20系统,最核心的亮点,一知智能在杭州人工智能计算中心与升腾生态软硬件进行调优,结合浙大·一知人工智能联合研究中心,共同提出了在泛消费领域的专用大规模预训练语言模型“EAZI”。在基于数百G级别涵盖消费领域信息的互联网网‌页、论坛、微博、新闻等形式的高质‌量‌语料训练,结合数亿条一知智能自身积累的消费场景对话数据进行专项任务训练,可以同时支持多种语义理解算法,包含意图识别、问答识别、实体识别、情感识别、知识图谱以及对话内容生成等多项NLP常见任务。“EAZI”模型在Transformer架构基础上,自研基于语言学知识、领域数据增强技‌术‌,从模型架构表征层和交互层,再到预训练策略进行了全方位改进。具体而言:
1、细粒度词法表征,并基于词义信息引入注意力机制,对句法进行约束,提升模型对于语言学知识的建模能力。
2、结合消费场景积累的大量实体信息和引入Discourse的Mask机制,强化模型对场景专项识别的表征能力。有了垂直领域数据的增强,识别算法对于领域内常见的表达方式语言成分和语篇关系表征更为敏感。
3、为满足工业界高并发、低时延、低资源消耗需求,EAZI使用了大模型蒸馏和初始化小模型策略,最终实现参数仅为十亿级别的轻量化预训练模型。相比于动辄千亿参数的大模型而言,在消费领域专有的识别场景中,实现效‌果‌与识别速度的双向提升,突破传统“巨无霸”大模型的效率限制。
4、在实际训练过程中,一知智能与华为杭州计算中心共同协作,在升腾生态下,算力达到40 PFLOPS FP16,相当于2万台高性能PC的计算能力,显著提升算力的快速响应。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/10959558.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-12
下一篇 2023-05-12

发表评论

登录后才能评论

评论列表(0条)

保存