随着面部识别的大规模应用，个人数据隐私面临泄露问题_技术

当面部识别成为越来越广泛应用的技术，随之而来的是关于个人数据隐私泄露的担忧。IBM 这次就撞在了q口上。近日，外媒报道曝光 IBM 未经许可，利用网络相册 Flickr 上近 100 万张个人照片，训练它们面部识别系统，同时与外部研究人员共享这些照片。

众所周知，机器学习的关键就是大量的数据训练，人脸识别算法亦然。为了提高算法的精确度，需要标注上百万的照片来训练 AI。

据了解，在 Flickr 上传照片的用户并不同意 IBM 将其照片用于开发面部识别系统，因为这些可能最终会被用来监视和识别他们。一位摄影师透露：“我拍摄的人中没有一个人知道他们的照片是以这种方式使用的。”

这些照片被 IBM 统称之为训练数据集，他们已经对照片上人物的肤色、性别、面部轮廓等做了详细的标注。

尽管 IBM 保证 Flickr 用户可以选择退出数据库，但报道该事件的媒体 NBC 新闻发现，删除照片几乎是不可能的。IBM 要求摄影师通过电子邮件发送他们想要删除的照片的链接，但该公司尚未公开分享数据集中包含的 Flickr 用户和照片列表，因此没有简单的方法可以找到包含哪些照片。

这几年随着面部识别的大规模应用，不少科技公司都和 IBM 一样，抓取网络上公开、非商业性质的图片、视频来训练 AI 程序。

此次被曝光的 IBM 数据训练集就是 YFCC100M 照片库的一部分，YFCC100M 是 Flickr 前东家雅虎为进行研究而收集的照片数据库。所有照片都是在 CreaTIveCommonsLicense 版权协议下共享的，这种版权协议表明照片可以自由使用，但存在一些限制。

面对质疑，IBM 表示数据集不会将人脸的照片与其姓名相关联，而且他们的目标是为了解决算法的偏差，以防可能出现的种族歧视。但是，公民自由倡导者和技术伦理研究人员仍然质疑 IBM 的动机，因为 IBM 也在销售人脸识别系统，这些工具因侵犯公民自由一直受到批评。

有业内人士指出，IBM 和 Facebook 等公司的研究机构和商业运营之间的区别是模糊的。即使算法由学术研究人员使用非商业数据集开发，它们通常也会被企业使用。
责任编辑：tzh

欢迎分享，转载请注明来源：内存溢出

随着面部识别的大规模应用，个人数据隐私面临泄露问题