我们先来看一组对比图:
上图左侧,打了马赛克的图片有没有很熟悉的感觉?
没错,他就是美国前总统巴拉克 · 奥巴马(Barack Obama)。不是故意打码,而是有人把原图的分辨率降低了许多,所以看起来和打了码一样。
至于右侧的人像,是人工智能技术生成的。它从打了码的奥巴马图像里寻找像素规律,然后重新创造了不存在的人脸。
不知道你有没有意识到,这张 AI 生成的人脸,具有非常明显的白人男性特征,而原图中的奥巴马是个黑人。
这一问题不仅发生在奥巴马身上。用相同的算法,把输入图片替换成亚裔女演员 Lucy Liu 或者西裔女议员 AOC(亚历山德里娅 · 奥卡西奥 - 科尔特斯),依旧生成了白人女性的人脸特征。
这些对比照近日在推特上引发了舆论热议,就连 AI 大神 Yann LeCun 都卷入其中,被其他 AI 学者指责“过于片面地理解 AI 公平性”,不得不连发 17 条推文阐述逻辑,仍然未能完全服众。
人们的普遍担忧是:这些图片充分说明了人工智能技术带有偏见的危险性。
“是 StyleGAN 的训练数据有问题”
生成这些图像的程序使用了一种名为 PULSE 的算法,论文入选了 CVPR 2020 大会,背后的研究团队来自美国杜克大学。
该算法利用所谓的 “放大(upscaling)” 技术来处理视觉数据,也就是图片中的像素。其工作原理类似于将低分辨率电影高清化——放大画面然后增强细节——不同的是,充斥着马赛克的图片缺少了很多像素细节。因此 PULSE 算法必须借助机器学习技术来填补像素不足的地方。
这就轮到另外一种算法出马了:英伟达的 StyleGAN。对于很多人来说,StyleGAN 算法并不陌生。
一年前,一个名为 ThisPersonDoesNotExist 的网站突然走红,每次刷新都可以让 AI 创造一幅人脸图片,很多图片看起来与真人照十分相近。有些照片过于逼真,甚至被用来创建假的社交网站照片。
但实际上它们都是神经网络随机生成的,里面的人都是不存在的(至少我们认为是这样,保不齐 60 亿人里面有长得很像的)。
这个网站使用的最核心技术,就是 StyleGAN 算法。
这次的 PULSE 算法,进一步利用了 StyleGAN 的想象力。与其尝试放大和复原低分辨率的原图,它选择生成一个符合其像素分布规律的全新人脸,而且每次生成的都不一样。
必须强调的是,PULSE 算法不是复原原图,而是在识别像素规律的基础上重新构建一张全新的图片。
理论上,如果我们将新生成的人脸图片降低分辨率,重新打上马赛克,就会得到跟输入图差不多的样子,但不代表会与原图一模一样。
图 | 论文也展示了 “低分辨率 -> 高分辨率 -> 低分辨率”的过程
在计算机视觉领域,类似的研究还有很多。就像大多数人是通过 ThisPersonDoesNotExist 网站才知晓 SytleGAN 一样,这种研究只会在具备广泛传播载体的时候才会为更多人所知。PULSE 恰好就是这个载体。
“看起来 PULSE 生成白人面孔的频率确实比其他有色人种高很多,这种偏见很可能是从 StyleGAN 训练时使用的数据集继承而来的,也可能存在我们不知道的其他因素,”算法的创建者在 GitHub 页面上写道。
换句话说,PULSE 算法的发明者认为,在脑补马赛克图片时,PULSE 依赖的是 StyleGAN 的想象力,而后者使用的训练数据集可能存在偏见,所以在给定一些像素框架后,它会默认想象出白人的脸部特征。
这种说法有一定的道理,其反映出的种族偏见问题也在其他机器学习应用中广泛出现,比如一些面部识别算法在非白人和女性脸上表现较差,或者倾向于把黑人识别为潜在高风险目标;一些语音识别系统更不容易听懂非白人口音发出的指令。
不过也有质疑的声音存在。AI 艺术家 Mario Klingemann 认为,这个问题应该归结于 PULSE 算法本身,在选择像素的逻辑上出现了偏见,而不全是训练数据的问题。Mario 强调自己可以利用 StyleGAN,从相同的低分辨率奥巴马图像中生成非白人特征的图片。
图 | 同样打了码的奥巴马,在只调整了特定参数的情况下,就生成了更多元化的人脸
“对于一张低分辨率图片来说,可能有数百万种高分辨率虚构人脸,都能缩略到相同的像素组合模式,”Mario 解释称。
这就好比一道数学题可能有很多种解法,在每一种都能得出正确答案的情况下,选择哪种解法取决于做题的人。如果 PULSE 更好地改善选择逻辑,就能避免或降低 StyleGAN 偏见的影响。
无论如何,PULSE 算法的输出图看起来是带有偏见的,而它的发明者——来自杜克大学的研究团队——似乎在引发争议之前并未注意到这一点。
这表明,在社会层面上,普遍存在另一种不同的偏见:将不正常的事情习以为常。这种与肤色挂钩的偏见存在之广泛,甚至让一些研究团队和学者都忽视了它,使其隐藏于 AI 的理论、框架和应用研究之中。
大神 LeCun 亲自下场对线
以 StyleGAN 和 PULSE 为例,究竟是 StyleGAN 训练数据集存在偏见(AI 框架)?还是 PULSE 的选择逻辑出现了问题(AI 应用)?
最大的可能是两者都有。有关这个话题的讨论,在舆论场引发了更大争议。
知名 AI 大牛,Facebook 首席 AI 科学家 Yann LeCun 在看到这些图片后回应:“数据有偏见,机器学习系统就会有偏见。这个算法使每个人看起来都是白人,因为该网络在 FlickFaceHQ 上进行了预训练,里面大多是白人照片。在塞内加尔的数据集上训练‘完全’相同的系统,每个人看起来都会像非洲人。”
他又进一步补充称,“(解决这个问题的)重点是,机器学习工程师需要参与其中,而非机器学习研究者。相比学术论文而言,更严重的问题是偏见存在于已经推出的产品中。”
LeCun 举的例子说得通,但人们认为他的内在逻辑是:AI 研究者使用 “公平的” 数据集,就会避免机器学习系统有偏见(LeCun 后来澄清了自己没有这个意思)。
质疑他的学者认为,AI 的偏见不仅取决于损失和优化函数的配置,还受到更广泛的社会不公正因素的影响,比如西方社会对有色人种的长期忽视,仅使用 “正确的” 或者 “公平的” 数据不能从根本上解决问题。更何况,绝对公平的数据集也是很难实现的。
AI 责任制度研究人员 Deborah Raji 表示自己对 LeCun 的言论感到很惊讶,认为这反映出即使是行业中水平最高的人,也有意识上的落后。
“LeCun 领导了一个工业实验室,致力于解决 AI 应用研究问题,并将其产品化,”Raji 强调,“我实在无法理解,他怎么能认为学术研究在建立 AI 规范时没有价值呢?”
LeCun 对此回应称,自己一直致力于推动 AI 公平性和安全性的进步,而且“绝对没有,也永远不会说学术研究没有在建立规范化流程中发挥作用”,甚至连暗示都不曾有过。他也同时承认,AI 的偏见有很多种,需要采用不同的解决手段。
图 | LeCun 用了连续 17 条回复来阐述自己的逻辑,但仍然不能完全消除质疑
斯坦福 AI 实验室成员、Google AI 研究科学家 Timnit Gebru,对 LeCun 表示失望,认为自己不值得花时间跟 LeCun 辩论。
最终,或许是迫于压力,LeCun 发推向 Timnit Gebru 致歉,“我十分钦佩你在 AI 道德伦理和公平方面的工作。我非常关心如何确保 AI 不会放大偏见,很抱歉我的讨论引发了这一话题事件。”
一个不容忽视的事实是,许多 AI 系统都是直接根据开源算法、框架和论文打造的,别说针对种族或性别因素进行调整,甚至连核心代码都不会修改几行。这意味着,在研究阶段没能解决的偏见问题,会一直隐藏在很多 AI 系统的代码中。
从这个意义上讲,PULSE 算法暴露出的缺陷其实在其他 AI 系统中广泛存在。
这一问题的解决方法,绝对不是修改代码或者使用公平数据集这么简单,而是需要 AI 全产业链从根本上改变思考模式,包括设计,开发,实现和部署。
这其中的每一个环节,涉及到的每一个人和机构,甚至是最终端的普通消费者和用户,都需要重新思考:这个社会中普遍存在的现象,是不是习以为常的偏见。
不能因为大象已经在屋子里,就对它视而不见。