大型数据库支持面部识别抓取，隐私何处安放？

人脸识别技术日渐强大，这要感谢科技，更要感谢你的“脸”。

在美国，很多公司和研究人员基于众多“人脸识别数据库”进行编译和分析，这些图片在全球被广泛流传，而这些操作都是在人们不知情的情况下进行的。

根据《纽约时报》报道，“人脸识别数据库”抓取从社交网站、图片网站、像 OkCupid 这样的约会网站，以及在餐厅和大学校园架设的摄像机得来的图片。虽然目前的数据尚不精确，隐私维权者还是指出，微软建立的数据库有超过一亿张图片，斯坦福大学有超过两亿张。

图 | MS Celeb 数据库中 2000 个人像信息可视化图（来源：Megapixels）

这样大规模的面部收集是为了能快人一步创造出领先的人脸识别技术。这项技术需要尽可能多地运用“神经网络”分析数字图片，从而鉴别人类。而所谓的“神经网络”是一个复杂的算法系统，它建立在大批量的数据所建立的认知模型上。

收集面部图像的过程已经进行了十多年，但建立面部识别技术需要包括数据库在内的更多条件，涉及到生物学、生理学、心理学、认知学、图像图形学、模式识别等领域，数据库只是其中一个层面。人们往往不知道他们的图片已经在数据集中。尽管照片上没有名字，但是每个人都可以被认出来，因为每张脸都是独一无二的。

根据研究报告显示，像 Facebook 和 Google 这样的科技巨头聚集了大量的人脸识别数据，这些数据是不会被散播的。但根据一些学者、相关人士和公开论文显示，一些公司和大学与澳大利亚、中国、印度、新加坡和瑞士的研究人员、政府和私人企业广泛分享了他们的图像数据。

数据集所带来的问题正在凸显，因为目前所启用的技术正在以潜在的入侵方式被使用。近日公布的文件显示，美国移民和海关执法局用这一技术扫描司机照片以识别非法移民。根据美国政府问责局上个月的一份报告，美国联邦调查局在过去十年里使用这一技术将驾照和签证照片与犯罪嫌疑人的脸进行对比。7 月 10 日，美国国会听证会就该技术的使用问题进行了讨论。

由于缺少对数据集的监管，人们的肖像可能被用在有道德问题的科技上，甚至这些照片会被滥用，维权者对这其中的可能性表示愤怒。

过去几周，出于隐私考虑，微软和斯坦福大学这类的公司和大学已经从互联网上抹掉了它们的人脸识别数据。但研究人员和维权者认为，鉴于这些图像早已被广泛散播出去，它们仍将在美国和其他地方被使用。

图 | “洗脑”数据已从斯坦福大学文献库删除（来源：斯坦福大学文献库）

斯坦福大学在 2014 年建立的人脸识别数据库被称为“洗脑”（Brainwash），在三天时间里，研究人员用相机拍摄超过 10000 张图像并存入数据库，这些数据被用来与其他人分享。但当时咖啡厅的顾客并不知道自己被拍照且照片被用来做技术研究。

杜克大学的研究人员也在 2014 年用八台摄像机建立了一个人脸识别数据库，这些摄像机架设在校园里，这些摄像头上标有号码和电子邮件，不想被拍摄的人可以跟他联系。根据报道，杜克大学的研究人员最终收集到了 200 多万帧视频，其中包含 2700 多人的图像。但这些图像可能因为角度和采光原因不能被采用。

微软声称他们建立了最大的面部数据集之一。这个名为 MS Celeb 的数据集包括超过 10 万人的 1000 万张照片。MS Celeb 表面上是一个名人数据库，因为数据都来自公众人物，这些图片也被认为是公平的。但这仍然招来维权人士的不满。这一数据库曾在国际间传播，但在今年春天被维权者发现之后便被撤下。

对此，民间成立了一个名为“监视技术监督项目”的民权和隐私组织，该组织建立了一个工具，可以让人们检查他们的肖像是否被收集在公开分享的人脸数据库中。