当苹果Siri开始“说人话”，声纹识别终到来_软件运维

今天凌晨，一年一度的苹果WWDC 2019全球开发者大会在美国圣何塞举办，苹果更新了自家系统平台macOS、iOS、watchOS、tvOS以及今年刚刚加入的iPad OS。

在常规的软件升级之外，智能菌将带大家细数本届WWDC苹果在AI方面的升级，我们也和大家聊聊苹果关于隐私保护方面的思考。

终于开始“说人话”的智能助手

早在2010年，苹果率先推出了这款搭载于iPhone4S的智能语音控制功能，用户利用Siri可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。

从2017年开始，Siri逐渐迎来更丰富的更新，加入了实时翻译功能，支持英语、法语、德语等语言，与此同时，Siri的智能化还进一步得到提升，还支持上下文的预测功能。

但一直以来，由于苹果的封闭性，Siri的可用性还是饱受诟病，在AI技术方面更是被吐槽为“人工智障”，从今年的WWDC来看，苹果希望摆脱智障的帽子，起码让Siri交流起来更像真人了。

具体来讲，随着深度学习技术的不断成熟，基于深度神经网络的语音合成逐渐成为语音合成领域的主流方法，这次苹果采用的就是Neural TTS（神经网络语音合成）技术（如上图），这样的技术应用在国内已经很多，AI合成语音已经可以以假乱真。

声纹识别来了

HomePod是苹果在2017年WWDC推出的智能音箱产品，该音响7英寸高，拥有7个高频扬声器和一个很大的低频扬声器，配备精准的音效喇叭和风向控制。

这是苹果的第一款智能音箱硬件，一经推出便口碑两重天，很多人赞扬它的音质和曼妙的腰线，摆放在哪里都不违和的设计，但更多人的指责它封闭的应用生态和隐私性。

这里提到的隐私性就是指这款产品标榜的Siri唤醒和发布指令，在此之前，任何在它旁边的人都可以唤醒它，只要说出“朗读短信”，用户的秘密就大告天下了。

在今年的WWDC现场，苹果终于为HomePod加入了声纹识别功能，它可以智能区别与它对话的是哪位 ，声纹识别（Voiceprint Recognize）是一项提取说话人声音特征和说话内容信息，自动核验说话人身份的技术，目前已经广泛应用在了考勤系统、远程认证、门禁系统等场景之中。

在中国厂商发布的智能音箱产品中更是早有应用，这回苹果算是玩大家剩下的，就看它的实际体验能否逆袭领跑了，拭目以待。

保护隐私用户的云端数据苹果也不看

美国消费者保护组织Consumer Watchdog曾出具过一份报告，指责来自亚马逊和谷歌的专利申请曝光了其智能音箱是如何“偷听”用户的。该组织的研究称，这些设备可能被用作收集大量信息和广告推广的监听设备。

事实上，这样的用户反馈确实不绝于耳，Alexa曾将夫妻之间私人谈话的内容偷偷记录下来，并发给了其中一名家庭成员的同事，他当即打电话说这对夫妇:“赶紧拔掉你的Alexa设备！”

针对种种担忧，欧盟更是推出了史上最严的隐私保护条例GDPR（General Data Protection Regulation），目的就在于遏制个人信息被滥用，保护个人隐私。

虽然没有证据表明苹果设备存在这样的隐患，但也足够引起大家的担忧。

而苹果的隐私保护做法在2019 WWDC有了进一步的补充和升级，在Watch OS方面，苹果推出了运动推荐和数据分析的功能，在智能家居应用中，苹果更新了视频分析和数据存储功能。

以上二者的共同点是，苹果将处置数据的权利交给用户，用户可以选择不上传（保存在本地的加密芯片），也可以选择上传到云端，但苹果称用户的数据他们也无能查看。

值得一提都是，苹果还在智能家居的数据保护中加入了路由器的防护，以此来保障用户不在任何的环节遭遇攻击。

在增强现实里畅游“我的世界”

ARKit是苹果在2017年WWDC推出的AR开发平台，开发人员可以使用这套工具iPhone和iPad创建增强现实应用程序。

在WWDC 2019苹果带来了AR应用的更新和全新的RealityKit平台，如上图，苹果在现场展示了《我的世界》游戏的AR版本，这是一款堆方块、不断冒险的游戏，融入增强现实之后趣味性十足，还可以多人互动游戏。

此外，苹果还带来了RealityKit开发工具，新增了AR模型还可以融合人物，支持动作捕捉，并且可以实现照片级渲染，环境和相机效果。

美国专利局曾批准了苹果的一项申请：头盔将配置摄像头，用于辨认和注释兴趣点和其他对象。大家一度认为苹果会在WWDC推出AR硬件。

库克有言，苹果认为AR增强现实会是未来10年非常重要的技术，我们会在这个领域投入更多。有分析认为，随着5G技术的应用，AR将迎来成熟期，目前AR相关专利申请正在持续攀升。

总结

依然是一场很苹果的开发者大会，在人工智能技术方面不冒进，坚持用产品和体验说话，他们强调自己是一家软件公司，在细枝末节上的打磨确实值得称赞。

但不可否认，苹果的封闭性依然制约着其AI功能大放异彩的机会，Siri本可以做得更多，话不多说，期待开放内测。

所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终相同。基于声纹的这两个特征，侦查人员就可将获取的犯罪分子的声纹和嫌疑人的声纹，通过声纹鉴定技术进行检验对比，迅速认定罪犯，为侦查破案提供可靠的证据。在实际生活中，每个人说话时的语声，都有自己的特点。很熟悉的人之间，可以只听声音而相互辨别出来，这就是语声人各不同的特性。人的发声具有特定性和稳定性。从理论上讲，它同指纹一样具有身份识别（认定个人）的作用。虽然由于技术和经验的问题，暂时不能说完全达到了指纹那样的精确程度，但它已经被越来越多的国家认可为法庭科学的一项新技术。一九八一年在美国密执安州成立了“国际声纹鉴定学会”，旨在进一步完善声纹鉴定技术，加强推动、培训和宣传，促使声纹鉴定成为世界公认的一种人身识别的科学方法。目前，许多国家都己把声纹鉴定作为辨认犯罪嫌疑人的重要手段，为侦查工作提供新的线索和证据。（1）在获得了犯罪人的语声录音资料时，如在电话中进行的恐吓、勒索，或在其他性质的犯罪中录到了罪犯说话的声音，那么可以通过收集嫌疑人语音样本进行声纹鉴定，为认定或否定犯罪人提供鉴定结论；（2）在案件的侦讯或审理中（包括民事案件），通过声纹鉴定可以审查录音证据材料的其伪；（3）通过声纹分析，判断说话人的性别、年龄、方言（生活地区）特征，为侦查工作提供方向和范围。

声纹鉴定的步骤和注意事项

　司法鉴定是指在诉讼活动中鉴定人运用科学技术或者专门知识对诉讼涉及的专门性问题进行鉴别和判断并提供鉴定意见的活动。或者说，司法鉴定是指在诉讼过程中，对案件中的专门性问题，由司法机关或当事人委托法定鉴定单位，运用专业知识和技术，依照法定程序作出鉴别和判断送一种活动。声纹识别已成功应用在司法鉴定领域。利用声纹识别技术确定犯罪证据，如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法，已在一些刑事案件的侦破中得到应用。在声纹鉴定中最常用的是宽带声纹图。它是用带宽为300HZ的带通滤波器分析出来的声纹。声纹图的横坐标为时间，纵坐标为频率，浓淡表示音强。每一字的声纹前部（乱纹）是清辅音的频谱，后部是元音频谱；元音频谱中由加强的纵线条构成的水平方向的黑带为共振峰。共振峰的数量、走向及其频率是声纹分析的重要特征。声纹鉴定依如下程序和要求进行：

1、采集检材语声（录音）

在采集犯罪人或证人的语声作检材时，录音宜采用高保真录音机。天聪采集语声的要求是： ①录音应当尽量在不被对方发觉的情况下进行，以减少假象的干扰，保证语声的真实； ②应尽量防止环境噪声和录音设备的干扰。麦克风与被录对象保持适当距离。尽量不用失真大的袖珍盒式录音机，电源最好用市电，保持电流稳定。电话录音时应使用传感器，不要将听筒直接对着“麦克”录音。磁带应选用优质新带。

2、采集样本语声（录音）

除了遵照采取检材时要求的器材和注意事项外，应尽量保持同采集检材时相同、相近的语声环境、距离、设备及速度；并建议在样本中有与检材相同的词句，以供特征比对。

3、审听和选择

鉴定人员要先对捡材和样本分别反复审听和记录，从中选择正常而清晰的语声段落，再进一步选取相同的字、词、句，作为供比较的部分。然后使用语图仪分别将选好的检材与样本中的字、词、句做出声纹图。

4、声纹特征的选择

在被比较的两种声纹图谱中，分别选取明显、稳定的特征作为比较特征。一般说，共振峰的频率值及其走向是最稳定的特征，而且具有很强的特定性，利用价值最高；而时长、音强、波形等特征稳定性较差，可做参考。在天聪鉴定过程中，还可以从同一个人的语声中选择多个相同字、词或句的语图，在分析比较中抓住其稳定而特殊的特征作为依据。

5、比较

比对检材与样本中相同字、词的声纹中的同类特征（如共振峰频率、走向及波形），进行比较分析，找出相同点和差异点。

6、综合评断

①如果被比较的全部特征完全吻合；或者稳定性强的特征完全吻合，而只是稳定性差的特征有些差异，均可做同一认定结论； ②如果被比较的稳定性强的特征差异较大，还可以补充样本再做语图比较，倘仍有差异，又无法解释，则可做否定结论。

7、声纹送检时的注意事项

说话人在不同的环境和不同的心态下，以及不同的语气、不同的健康状况都会引起语音的某些变异。录音环境（噪音、回声、距离）的干扰以及录音设备不良，也会使录制的语音产生假性变异。因此，送检时，要把录制检材和样本时的环境状况、录制距离、录制方式、使用机器、以及在什么情况下录制等情况加以详细记载，一并提交鉴定人，以便对差异点进行客观的分析评断。

声纹鉴定依如下程序和要求进行：采集检材、采集样本、审听和选择声纹、特征比较、综合评断、送检。

声纹鉴定又称语声鉴定。对有声言语进行个人识别的专门技术。把作案人和嫌疑人的说话录音分别通过语图仪（声纹仪）转换成条带状或曲线形语图（即声纹），根据语图所反映的音频、音强与时间等语音特性进行比较，就嫌疑人是否为作案时的言语人做出鉴别与判断。

扩展资料：

所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

目前，许多国家都己把声纹鉴定作为辨认犯罪嫌疑人的重要手段，为侦查工作提供新的线索和证据。

（1）在获得了犯罪人的语声录音资料时，如在电话中进行的恐吓、勒索，或在其他性质的犯罪中录到了罪犯说话的声音，那么可以通过收集嫌疑人语音样本进行声纹鉴定，为认定或否定犯罪人提供鉴定结论；

（2）在案件的侦讯或审理中（包括民事案件），通过声纹鉴定可以审查录音证据材料的其伪；

（3）通过声纹分析，判断说话人的性别、年龄、方言（生活地区）特征，为侦查工作提供方向和范围。

参考资料：声纹鉴定-百度百科

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12071871.html

当苹果Siri开始“说人话”，声纹识别终到来

发表评论

评论列表（0条）