如何解决人脸识别工具的“脸盲”？_技术

日前，亚马逊的一款人脸识别工具错误地将28位美国国会议员与罪犯相匹配，这一新闻引发关注。人脸识别工具为何出现这样的错误？其实，机器与人类一样，见到陌生的外国人也会有“脸盲”，只能识别“当地人”，对于来自其他国家/地区的“外地人”识别精度较低，这一问题如何解决呢？

其关键在于让人脸识别工具尽量多地认识全球各地居民的脸，而这一过程却并不容易实现。北京邮电大学教授邓伟洪提到，人脸识别工具研发过程中，使用的训练数据越多、越齐全，精度就会越高。但由于不同国家/地区对公民个人信息的保护，这些信息收集越来越难。没有训练数据就意味着人脸识别工具只认识“熟人”，而对于训练数据中缺失的人群的识别精度较低。

近日，邓伟洪研究团队的一项研究获得新进展，该团队揭示了当前人脸识别算法中普遍存在跨国家/地区识别偏差问题，构建了评价偏差程度的人脸数据集RFW，提出了减小识别偏差的信息最大化自适应神经网络，以改进对目标域的识别能力。

人脸识别工具的地域之困

卷积神经网络是人工智能的代表算法之一，具有很强的图像表征学习能力。2012年，深度卷积神经网络在计算机视觉领域兴起，其出现极大地推进了人脸识别的发展，并成为人脸识别领域的主流技术。

目前，全球的人脸识别工具大多根据深度卷积神经网络的技术开发，但该技术的人脸数据的源域基于西方人的面部特征，面对不同的目标域，即不同国家/地区居民的面部信息识别需求往往“力不从心”。

邓伟洪表示，由于缺乏基准测试库，这一领域的研究长期进展缓慢。一款人脸识别工具即使在当地的识别率很高，也难以精准到全球人类。这就造成了人脸识别工具较强的地域性。

为了推动该研究，邓伟洪研究团队构建了一个新的测试库——RFW，以科学客观地评测人脸识别中的偏差。在RFW数据库的基础上，研究人员验证了微软、亚马逊、百度、旷视的商业API和学术界最先进的4个算法。

“这种识别的偏差确实存在，一些地区的错误率甚至高于西方国家的两倍。”邓伟洪说。

该论文的评审专家表示，RFW与现有数据库相比，该数据库中的数据分布更均匀，这将成为跨国家/地区识别的一个较好的基准评价数据。

为了探究这种偏差是否是由训练数据的分布不平衡引起的，研究人员收集了一个涵盖全球各地区人类信息的训练数据库，最终发现偏差的发生受到数据和算法两方面影响。

该论文第一作者、北京邮电大学博士生王玫解释，数据库训练数据平衡、算法相同，但某些国家/地区人类的面部信息识别难度较大，导致识别准确率较低。

如何在数据少、面部识别难的情况下提高识别率？研究人员并没有放弃，他们决定进一步的研究算法，借助算法让人脸识别工具举一反三。

学习靠“自觉”