人像动漫化/趣味处理
将自拍图像1:1生成动漫二次元人像效果,可用于开展趣味H5活动或者集成到相册,美图应用等,用户只需要上传人脸,即可立刻获得千人千面的动漫人像。
情绪识别
实时识别多个对象的面部表情,可分析检测到的人脸的情绪,并返回置信度分数,目前可识别愤怒、厌恶、恐惧、高兴、伤心、惊讶、嘟嘴、鬼脸、无情绪等9种情绪
人脸检测分析
基于人脸检测和属性分析,精准识别中人脸150个关键点信息,实现多种线上互动娱乐营销模式,如脸缘测试、名人换脸、颜值比拼等,提升用户体验趣味性,有助于娱乐产品的市场推广
准确识别多种人脸属性信息,包括年龄、性别、颜值、表情、情绪、脸型、头部姿态、是否闭眼、是否配戴眼镜、人脸质量信息及类型等
人脸相似度对比
人脸对比更多用于远程开户以及身份监管等使用途径比较多,如用于互动上,可偏向于一些亲人,爱人之间相似度对比,从而达到趣味性。
颜值评分
计算检测到的人脸的颜值分数,分别返回男性和女性视角下该人脸的颜值分数。也可多个视角测试,多半用于各类医美行业或者线上互动场景。这个形式比较受众于女性群体,很多上线下的互动场景都有使用。
人脸搜索
给定一张照片,对比人脸库中N张人脸,进行1:N检索,找出最相似的一张或多张人脸,并返回相似度分数。支持百万级人脸库管理,可满足身份核验、人脸考勤、刷脸通行等应用场景,在更多的互动场景中可作为寻找与自己相似的人,来引起用户好奇心。
手势识别/手势关键识别
手势是识别基于指尖点检测和指骨关键点检测,可实现手部特效,指定手势识别创意玩法,丰富交互体验。如自定义手势:根据手部骨关节坐标信息,可灵活定义业务场景中需要用到的手势,例如面向智能家电,可穿戴硬件设备等 *** 控手势,面向互动类的形式,可根据指定内容审核场景的特殊手势。
识别24种常见手势,支持单手手势和双手手势,包括拳头、OK、比心、作揖、作别、祈祷、我爱你、点赞、Diss、Rock、竖中指、数字等。
适用场景:指定场景识别,H5应用,AR特效、人机交互等场景
参考案例:七喜
人体关键点/人体属性识别
检测图像中的所有人体,标记出每个人体的坐标位置;不限人体数量,适应人体轻度遮挡、截断的情况精准定位人体的21个主要关键点,包含头顶、五官、颈部、四肢主要关节部位;支持人体背面、侧面、中低空斜拍、大动作等复杂场景,适用于视频直播平台、线下互动屏幕等场景,多人互动等,可基于人体检测和关键点分析,增加身体道具、体感游戏等互动形式,创意娱乐体验。
图像识别
根据用户拍摄照片,识别中物体名称及百科信息,提高用户交互体验,广泛应用于智能手机厂商、拍照识图及科普类app中,支持识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,大类及细分类的名称结果。如做成互动形式,适用于拍照闯关或设计线上营销活动,根据用户拍摄,自动识别中物体是否符合活动要求,提升用户交互体验,减少人工审核成本。
适用场景:教育行业,饮食企业,科普类平台,营销互动等
物体识别/AR动效场景
物体识别为可为H5/小程序设计的混合现实应用轻量级AI模型,前端识别支持物体追踪和实物产品,逼真的渲染效果,自然的人机互动。
可改变传统包装的单一展示属性,赋予产品更多的娱乐和情感附加值,打造展示、互动、分享于一体的创新营销路径,提升用户参与度与分享意愿,强化用户与品牌之间的关联度。
适用场景:H5/小程序应用,品牌产品营销互动,品牌内容输出
案例参考:百事AR
语音识别
语音识别更多用于将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景,对于互动场景一般为语音输入类型,比如语音留言,
语音识别类游戏,京东18年的语音读新年话/祝福类,语音口令红包等
参考案例:语音口令红包
对于多样性的互动形式,主要重点是整体的策划结合相关活动主题类和运营环节,只有持续给用户带来惊喜才能实现活动目标和有效的宣导。对于做活动来说,“有趣”可以是一种调性,但不要刻意追求,要根据你的用户群体和活动目标而定。以上普及AI的互形式动仅供各位作为参考灵感,我司主要提供创意互动技术供应,大家随时可以找小物唠嗑唠嗑~~
首先,了解微表情。比如摸鼻子,瘪嘴巴,眉毛上挑、下垂代表的含义。当然微表情也涵盖了身体语言,包括脸部器官、呼吸、语音语调、手势、姿势等。更重要的是要把身体语言的表达结合到生活当中。比如我去办公室看见大Boss出来,他看我一眼后立马移开视线,这是他强势的表现。如果前台看我一眼就移开视线,说明我不是她的“菜”。
其次,还要了解人的心理状态,如愤怒、蔑视、高兴、郁闷、恐惧等,人的情绪通过面部表情、身体语言及语音语调、字迹、行为方式等表现出来,而我们首先要明白对方的情绪感受是什么,你能否用准确的词语描述出来?找一张纸写出来,看看你能写出多少种情绪名词。这是观察微表情的基础。
最后,也是最重要的是观察能力。认真细致地去观察你周围的世界,只要坚持,就一定会有收获。当我们无心去观察这个充满神奇的世界时,就少了很多幸福和快乐的体验!
识别他人情绪,观察和总结能力非常重要。
现状
人与之间通过声音来直接沟通交流,人与机器之间的交流也渐渐脱离了传统的沟通模式,进入了语音交流时代。语音交流更是拉近了人和机器之间情感,现在的语音技术就是为了使机器更好的识别人声、并合成接近人类的声音以达到更好的交流。
目前国内研究语音相关的团队主要包括科研院所、语音技术公司以及互联网公司三部分:
科研院所主要包括高校和科学院,比如科学院里有声学所、自动化所,高校里面研究比较多的清华、北大、西工大、科大、上海交大等,这些都是在语音圈里占有较高位置的老牌队伍。
语音技术公司包括我们比较熟悉的科大讯飞、云知声、思必驰、极限元等。
互联网公司包括BAT、搜狗等拥有强大的语音技术团队来支撑着其本身的很多业务。
测试方案
接触语音识别、语音合成项目的测试将近一年,认识还非常浅薄,大家有更好的想法或者技术方案可以多多沟通交流。下面分别从语音识别、语音合成谈谈一些我在项目中用的测试方案。
语音识别
语音识别的整体流程如上,站在测试角度思考,测试最简单的切入点就是最终生成文本内容的校验上。
目前的测试方案是事先标注一批语音的文本内容,与识别出的文本内容做对比,获取识别的准确率。但是这种准确率统计脱离了实际使用场景,比如车载模式下的噪音、与麦克风的距离都会影响识别准确率。
另外,从上图流程可以看出,识别准确率还会受声学模型、解码器的影响。语音信号经过特征提取得到声学特征,再通过声学特征训练得到声学模型,声学模型结合语言模型以及发音辞典构建声码器以后进行解码来输出文本,所以声学模型的训练结果一定是正确的吗?这也是测试的一个切入点。
语音合成
测试考虑从以下两方面入手:
服务端的文本分析
合成效果的评测
文本分析
语音合成的测试前期工作主要放在前端文本分析上,用python中的Snownlp及pypinyin将文本进行分分词及注音后输出注音及音调,服务端的前端模块输出注音及音调,将脚本输出的结果和服务端输出的结果做对比。这种方式可以对比出音调、多音字的差异。
frompypinyin import pinyin#pinyin将汉字转为拼音。可以用于汉字注音、排序、检索fromsnownlp importnormal#snownlp 转换成拼音,繁体转简体,提取文本关键词fromsnownlp import seg#分词text_normal =normalzh2hans(text_path)sent_normal =normalget_sentences(text_normal)words= segseg(sent_normaldecode('utf-8'))#匹配多音字word= SnowNLP(words_list)word=wordsim(sim_worddecode('utf-8'))#注音txt_zhuyin = pinyin(word, style=pypinyinTONE3)
合成效果评测
成功效果评测的方式也有两种:一种方式众包评测,这种方式是靠人的主管感受去评测合成的语音是否流畅、自然、发音正确等,这种方式的结果更有说服力,但是人力成本较大。
另一种方式是对比语音的波形图,python中的wave模块支持将语音转为波形图,python中还有其他模块如eyeD3,PyAudio,Audacity等等可以处理语音暂且不介绍这些模块。先介绍wave中的一些方法:
getparams()
获取wav文件的参数(以tuple形式输出),依次为(声道数,采样精度,采样率,帧数等)
readframes()
得到每一帧的声音数据,返回的值是二进制数据,在python中用字符串表示二进制数据。
步骤如下:
通过wav库获得nightwav的头文件中的信息,如采样率/声道数等等
提取出DATA区域的信息,用numpy将string格式数据转化为数组
通过判定声道数将DATA区域数据进行处理(对数组矩阵进行转换)
得到每个绘制点的时间(x坐标)
用matplotlib库提供的方法绘制出波形图
对波形的信息进行对比分析,可以从中得到很多有效信息,但是这些信息是否能有效过滤掉不同的口音、情绪、呼吸等的差异,去提取自己想要的信息如音调差异、错别字的差异还在探索中。
原文链接
以上就是关于盘点一些好玩的AI互动形式全部的内容,包括:盘点一些好玩的AI互动形式、识别别人情绪状态可以通过那些途径、浅谈语音测试方案(一)等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)