近日,23 岁的北京小伙单思雄,联合几位同学开发出一款 AI 对抗学习系统——Fawkes。这位即将在芝加哥大学攻读直博的 95 后告诉 DeepTech,Fawkes 开源一月以来,已在 GitHub 上获得十多万下载量、以及 2600 多颗 Star。
目前,单思雄以第一作者身份撰写的 Fawkes 的研究论文《福克斯:保护隐私免受未经授权的深度学习模型的侵害》:“Fawkes: Protecting Privacy against Unauthorized Deep Learning Models”,已经被安全顶会 Usenix Security 2020 录取。
他表示, Fawkes 诞生于此时,有着很大的时间窗口意义。
2020 年初,一家名为 Clearview AI 的公司,非法抓取 Google、Twitter、Facebook 和 YouTube 上的人脸照片,创建超 30 亿张照片的面部识别数据库,并通过出售算法牟利。丑闻曝光后,舆论哗然,该公司也成为众矢之的。
事实上,不管在国内还是国外,你的照片都有可能被扒下来当作“小白鼠”,去训练机器学习模型。
为解决上述痛点,在芝加哥大学 SAND 实验室两位华人导师赵燕斌和郑海涛的指导下,单思雄和其他三位同学,一起开发出 Fawkes。该命名也是对黑客团体“匿名者”(Anonymous)广受欢迎的盖伊 · 福克斯(Guy Fawkes)面具的致敬。
图 | 《纽约时报》报道称 Fawkes 可以避免 Clearview AI 滥用用户照片做人脸识别
以单思雄的照片为例,Fawkes 的价值在于可以让用户修改照片,这种修改并不是美图软件的 “换头式” 修改,而是肉眼看起来和原图一模一样,但人脸识别系统却能识别这种细微差别。
图 | 使用 Fawkes 修改前后对比图
再以英国女王的照片为例,左图为原图,右图为 Fawkes 修改后的照片,肉眼几乎看不出区别,但这种区别却可以被机器识别。
图 | Fawkes 修改后的英国女王前后对比图
那么,以后你再往朋友圈发照片,就可以用 Fawkes 修改过的照片,不仅看起来和真人毫无区别,而且还更安全。因为被 Fawkes 修改过的照片,即便被人扒走去做模型,实际上也并非真正意义上的你的照片。对于机器来说,那只是一张和你长得很相似、但其实并不存在的人。
该论文表示,在旷识 Face ++、微软 Azure Face、亚马逊 Rekognition 等面部识别服务上,Fawkes 取得了“100% 的成功”。
图 | 与人脸识别 API(微软 Azure Face、亚马逊 Rekognition 、旷识 Face ++)相比,伪装非常有效
单思雄对 DeepTech 表示,机器学习早已变得炙手可热,大家只要有台电脑,会一点 GPU,会一点代码,就可以建一个机器学习模型。
越来越方便的同时,也会给用户安全带来巨大威胁。而 Fawkes 的意义在于,它是反着来,即让机器学习模型变得不准确,这样就不能识别出用户的脸。
改几个像素,即可让照片“判若两人”
Fawkes 使用到的主要技术是对抗学习,即在图片上加一些很小的噪音,这里的加噪音指的是修改像素。
在实验上,单思雄主要是在电脑上跑代码,编程主要使用 Python 语言,以及深度学习框架 TensorFlow;数据集主要是图片,此外还有 GPU 等硬件。
在分工上,单思雄和四位作者每人做一块实验,比如他去跑亚马逊的 API,其他人去跑微软或者旷世的 API。
跑完代码,单思雄又对亚马逊、微软和旷识的人脸识别系统做测试。测试显示,上述系统均无法识别出用 Fawkes 修改后的照片到底是谁,这意味着 Fawkes 成功诞生。
这里举例解释一下 API,如果一家公司想给大门装上人脸识别系统,并且找到亚马逊来做这件事,那么该公司就会把员工照片给亚马逊,后者会帮该公司建一个模型,建好后模型就能在公司大门口做人脸识别。
而单思雄团队也用了一个和人脸识别大门相似的系统去存放各种图片,假如你的照片是被 Fawkes 保护的,并且没有被人脸识别系统识别出来,就等于保护成功。
对抗 AI 的过分灵敏
Fawkes 开源之后,部分网友表示难以相信。怎么可能只改几个像素,就完全让一个人脸识别系统无法识别?其实这里面涉及到的正是对抗学习,之前业界已经有很多研究。
大家都知道 AI 可以变得更智慧,但智慧的事物没有遇上好心肠的人,反而会伤害用户。而 Fawkes 所做的事情,正是要对抗这种可能存在的伤害,即跟 AI 系统的过分灵敏做对抗。
具体来说,Fawkes 只是把左图变成右图的一个工具。你有一个 A 图,Fawkes 就可以算出 B 图,尽管 A 图和 B 图的差别非常细微,但是当前厂商的人脸识别系统,会认为 A 图和 B 图不是同一个人,这样就可以保护用户隐私。
本次研究的优点在于,之前的对抗学习研究,只对一个特定人脸识别有用,而 Fawkes 对几乎所有的人脸识别系统都管用。
图 | 本次论文的四位作者和两位导师,左上为单思雄
如何理解加噪音后,动物从 A 变成 B?
如下图所示,尽管 Fawkes 修改像素后,可以让人脸识别系统,把熊猫识别为长臂猿。但是相比人眼感知仍有一定举例,也就是在人眼看来,下面的前后对比图似乎没有改变,这是因为 Fawkes 的噪音,对人眼视觉的影响很小,但是对机器模型的影响很大。
图 | 修改像素后的熊猫会被识别为长臂猿
Fawkes 增加噪音的方法,是稍微修改图片像素,比如把照片上眼睛部位的像素调低一些,具体调整多少,是根据算法算出来的。最终实现的效果是,仅仅修改一小部分像素,就能给模型带来影响。
该团队还使用演员帕特里克 · 登普西(Patrick Dempsey)的脸部照片作为对象,细微改变了女演员格温妮丝 · 帕特洛的图像,这阻止了人脸识别来识别隐身图像中的格温妮丝 · 帕特洛的可能。
图 | Fawkes 用登普西先生的脸遮盖了帕特洛女士的照片,以便使用这些图像的系统开始将她与登普西脸部的某些特征相关联
Clearview AI 首席执行官已回应 Fawkes
Fawkes 的使用并不复杂,当你想在微信朋友圈发照片时,把原图在 Fawkes 上跑一下,让其修改几个像素后再发到网上,这样别人就不能用你的图片去训练模型。
在应用方面,Fawkes 团队也坦诚,要使该软件真正发挥作用,就必须更广泛地发布。出于安全考虑,他们并不打算为 Fawkes 开发网站或 App,但他们希望像 Facebook 这样的公司,可以将类似技术集成自家平台,从而更好保护用户的使用安全。目前,Fawkes 团队已经收到个别公司的合作意向。
该项目立项之时,正好是 2020 年初,当时 Clearview AI 的丑事被媒体曝光。用户也开始担忧在网上发照片的危害,而 Fawkes 恰在此时立项,并在半年后做成,正好可以满足用户的刚需。
不过,Fawkes 也并非绝对完美,它无法对使用未更改图像构建的模型进行任何处理,例如,Clearview AI 等公司和执法机构已经拥有的图像。
Clearview AI 的首席执行官 Hoan Ton-That 了解该技术后表示:“互联网上有数十亿张未经修改的照片,它们都使用不同的域名。” “实际上,完善 Fawkes 之类的技术并大规模部署它几乎为时已晚。”
但单思雄的导师赵燕斌回应称:“虽然该公司掌握了大量数据,但是分到每个人的头上,只有几张。大家现在慢慢开始用 Fawkes 之后,保护的照片会远远大于该公司原有的照片,从而导致 Clearview 的识别失灵。”
因此,人们可以从现在开始,使用 Fawkes 来保护那些想要上传的个人照片。
23 岁小伙的“AI 之路”
生于 1997 年的单思雄,今年 23 岁。高中时,他在北京十一中学读书,高三参加美国高考,考入芝加哥大学学习 AI 安全和 AI 隐私。
他的主要指导老师正是前文的赵燕斌教授和郑海涛教授,两者均为《麻省理工科技评论》 “35 岁以下科技创新 35 人” 榜单(TR35)的上榜者。
单思雄和两位导师的结识,开始于大二期间。当时,赵燕斌从加州大学圣塔芭芭拉分校,来到芝加哥大学履新。由于之前就听说过赵燕斌,所以他就主动跟后者联系。
在接触中,他发现赵燕斌在教学上很热心,研究过程中遇到问题,可以立马拉上他开会,开完会就立马解决,效率之高令人咂舌。赵燕斌讲解问题也很细致,而且善于启发学生,让学生主动去琢磨。
未来,单思雄攻读直博期间的导师之一,仍是赵燕斌。截止目前,他在本科期间,累计发表六篇论文。2020 年 11 月,他的另一篇对抗学习的论文,已经被 CCS 2020 录用。摆在这位中国小伙面前的,是未知且更有意义的 AI 研究之路。