近日,一个来自比利时鲁汶大学(KU Leuven)的科研团队发现,使用特殊设计的图案遮挡部分身体,就可以让基于 YOLOv2 模型的监控系统丧失对人物的识别能力,从而实现在摄像头下顺利”隐身”的效果。他们把这样的图案叫做”对抗图案”(Adversarial Patch)。
监控探头在如今的大小城市中随处可见。据报道,北京市在 2015 年就已建成了由 3 万余个监控探头组成的立体防控网络,覆盖了城市街道的所有重点部位。这些探头在交通管理、治安联防、环境保护等各个方面,都发挥着越来越重要的作用。
近年来,卷积神经网络(CNN)模型在学术界早已风生水起。其中许多技术的应用,特别是用于监控探头的对象识别,也已经进入了我们的日常生活。
图 | 基于卷积神经网络 (CNN) 的街面对象识别(来源:Dayan Mendez/Ebenezer Technologies)
然而,CNN模型的缺点却也十分明显。
首先,我们目前无法彻底地解释它实现图像识别的机制。CNN 模型的结构通常十分复杂。在训练中,模型不断地识别不同类型的图片,自主调整上百万个参数的数值,最终就可以达到极高的识别准确率。
这就像是一个”黑箱子”,我们只知道放入一个图片,就能得到它的类别名称,但是我们看不到也弄不清箱子里的过程。更重要的是,由于训练数据中并不存在为了迷惑识别器而特意设计的图片(比如给衣服印上特制图案),识别器对不常见的变化就几乎完全不能宽容。
Ian Goodfellow 带领的团队曾经做过这样的实验,对图片中个别的像素点数值做一些人眼无法察觉的细微修改之后,CNN模型就彻底丧失了识别的准确率。正所谓即使数据只是”失之毫厘”,CNN 识别器的功效也会”谬以千里”。
由鲁汶大学副教授 Toon Goedemé带领的团队,便是利用了 CNN 模型的这些”弱点”。发明了一套严谨的方法,用来生成可以迷惑 CNN 的”对抗图案”。用图案挡住人体的某个部分,监控探头就无法检测到这个人的存在。
图 | 使用”对抗图案”让识别器无法识别(来源:Simen Thys/KU Leuven)
实验中,被 Toon Goedemé 和他的团队”迷惑”的摄像头,使用著名的 YOLOv2 卷积神经网络。YOLOv2 属于实时对象识别模型,它的结构是由 9 个不同尺寸的卷积层连接而成。当一张图片从输入层进入 YOLOv2 后,在输出层会得到一系列的向量。向量里记录的是以原始图片上各个位置为中心,5 种不同尺寸的检测框中存在探测目标的概率,他们把这些概率中的最大值计作 L_obj。
图 | YOLOv2 工作流程示意图。中间上图表示不同尺寸和位置的检测框,中间下图表示按照概率划分出可能存在目标的区域。(来源:Simen Thys/KU Leuven)
要想生成可以迷惑 YOLOv2 的”对抗图案”,首先需要有一个可以准确识别人物的 YOLOv2 模型,并且随机生成一张初始的”对抗图案”。然后,使用 YOLOv2 模型将每张训练图片中的人体都框选出来。再用现有的”对抗图案”覆盖住已识别的一部分人体。最后把覆盖后的训练图片送回到模型中再次识别,并计算相应的优化目标值 L。然后使用反向传播法 (backpropagation) 和 Adam 算法,相应调整”对抗图案”上的像素数值。不断重复覆盖识别和调整像素值的过程,持续降低目标值 L,直至得到最优的”对抗图案”。
整个过程中,YOLOv2 模型的参数值没有任何的改变,它仅仅被用来改进”对抗图案”。
图 | ”对抗图案”的生成工艺(来源:Simen Thys/KU Leuven)
为了生成效果最佳的”对抗图案”,研究人员对比了优化目标 L 的不同计算方法。其中最小化识别率(Minimising Objectness Score, OBJ)方法取得了最满意的效果。在 OBJ 方法下,L 被定义为 L_obj,L_nps 和 L_tv 的加权平均值。其中,L_obj 是检测框中存在探测目标的最大概率,L_nps 表示”对抗图案”的打印难度,L_tv 衡量的是它像素点间的变化程度(为了使图片看起来柔和)。
图 | 优化目标 L 的不同计算方法比较,可见 OBJ 方法生成的”对抗图案”使模型查全率(Recall)和查准率 (Precision) 都下降最快。(来源:Simen Thys/KU Leuven)
在得到最佳的”对抗图案”之后,研究团队把它打印了出来。然后特意制作了一段演示视频,展示其在现实中”迷惑”YOLOv2 模型的能力。
图 | ”对抗图案”演示视频截图(来源:Simen Thys/KU Leuven)
不可否认,卷积神经网络(CNN)作为近几年人工智能(AI)技术发展的主流和前沿,许多应用已经开始融入普通人的生活。然而,它所存在的局限性也一定不能被否认和忽视。恰恰因为这些”漏洞”的存在,人们将更加努力地探索和发展这项新技术。未来,越来越多的 CNN 模型将会被创造或者改造,并终将为人类带来更多的便利和价值。