32 岁,带 7 位博士生,还是最年轻的中国女性得主!
美国东部时间 6 月 17 日,《麻省理工科技评论》公布 2020 年度全球 “35 岁以下科技创新 35 人” 榜单(TR 35),祖籍广东的李博入选。
她到底有多不简单?27 岁,李博博士毕业后,一个月飞行几十趟,走遍全美 50 多个城市,最终斩获 20 多个 offer,且均由世界知名大学发来,如伊利诺伊大学香槟分校、马里兰大学、佛罗里达大学等高校。面试一家中一家,妥妥的超级“面霸”。
图 | 李博(来源:受访者)
而李博本次上榜 TR 35 榜单的原因在于,她在对抗机器学习(Adversarial Machine Learning)方面,有着出色的研究。同时,她也是全球首批研究对抗机器学习的学者。
如今,她是美国 “公立常春藤” 伊利诺伊大学香槟分校计算机科学系的助理教授,还曾获得全球只有三位入选的赛门铁克奖金,此奖金由美国赛门铁克颁布,用来奖励对计算机安全做出创新贡献的学者。
英国老牌博物馆展出成果
2019 年 6 月,有着一百五十多年历史的英国科技博物馆,展示了李博的研究成果。这是在该博物馆展出的、为数不多计算机领域成果。
作为维多利亚女王曾亲自参与建设的博物馆,缘何展出这样一位年轻教授的成果?原因在于这项研究的目的很重磅,过程有突破,结果有应用。
该研究的目的,在于发现 AI 技术的薄弱点,以及提出提高 AI 鲁棒性(计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,就是该软件的鲁棒性)的潜在方法、以及它们的重要性。
图 | 英国科技博物馆展出李博及其团队生成的“对抗性路标”
自动驾驶汽车中的 AI 系统安全度不足,一直是行业痛点,其对于路况的识别,决定着乘客的安全。
如何发现 AI 系统的薄弱点、以及在不同物理场景下 AI 系统被恶意攻击的原因,最终通过提高 AI 鲁棒性来提高 AI 安全性,是业界面临的重大难题。
为应对该问题,李博及其团队开启了一项研究。研究中,他们在停车牌上,贴上了黑色和白色的小贴纸,人眼看上去是随机的,并且不会遮挡标牌上的 “STOP” 等字样。然而,这种安排是经过精心设计的。
图 | STOP 交通牌上贴的标签
如果自动驾驶汽车驶近,汽车神经网络就会误读停车标志。
之前也有研究人员尝试过“对抗性攻击”,用对人无害的输入数据的处理、来愚弄神经网络,但多囿于数字化案例。比如,更改图像中的几个像素,并且让肉眼无法看到。总结来说,此前的对抗机器学习研究,主要存在于非物理世界中。
而李博是最早证明 AI 对抗性、可以存在于物理世界中的专家之一。但是,证明过程并不顺利,因为她发现用来 “愚弄” 数字图像的方法,并不适用于路牌这样的物理对象。
后来她把物理对象的特征如形状和纹理等,作了细微的改变。改完之后,她用神经网络来识别和利用另一个系统中的漏洞,从而让 AI 系统互相攻击。
在应对目标网络的训练上,李博利用博弈论、来为攻击者与防御者建模。同时,她使用数据和机器学习算法上的空间、以及时序的连续性,来判断数据是否经过修改,并通过模型是否输出不一致,去查看是否存在潜在攻击。通过上述过程,她实现了让 AI 更强大、更鲁棒的目标。
“车牌”研究之后,李博打算吃透基于路标的物理攻击。相比生成图形对抗样本,生成物理界中的对抗样本,主要面临以下技术难点:
物理对抗样本不能像图形对抗样本那样,使用小量级的恶意修改,否则无法被真实世界中的相机等仪器捕获;
物理对抗样本需要同时满足大量级、且不引起人类注意;
物理对抗样本的恶意篡改,不能像图形对抗样本那样分布于整个图片,前者只能集中于某个具体物体表面;
物理对抗样本需要在光照、距离和角度不同的条件下,都能成功地攻击机器学习模型;
物理界对抗样本的生成,可能会受到打印机等硬件制成效果的限制而造成偏差。
为解决上述难题,李博和团队提出了 “空间可控的物理对抗样本” 生成模型。他们从不同实际条件中采集样本分布,来保证生成的对抗样本、可以在较大的样本分布中达成有效攻击,从而确保生成物理对抗样本的鲁棒性。
如今,李博的研究已经在商业应用中开花结实。IBM 受该研究启发,以同样的方式保护其 AI 系统 Watson AI,该 AI 系统堪称“AI 界的老大哥”,在 AlphaGo 面世之前,Watson AI 一直是人工智能的代名词。
亚马逊则使用李博的研究成果,来保护智能音箱 Alexa。一些自动驾驶汽车公司,也在使用其研究、来提高机器学习模型的稳定性。
身在海外,不忘华夏
李博执教的伊利诺伊大学,和中国有着深厚的渊源。
1906 年,该校时任校长爱德蒙 · 詹姆斯(Edmund J. James)致信美国总统罗斯福,建议将庚子赔款用于发展中国的教育事业。后在罗斯福的推动下,美国国会通过法案,同意将部分庚子赔款用于中国学生留美项目,1909 年庚子赔款奖学金开始运作。
钱学森、竺可桢和杨振宁等,均凭借该奖学金留学海外。其中,竺可桢还曾在伊利诺伊大学农学院读过书。
1911-1920 九年间,伊利诺伊大学收留和培养了多达 1/3 的留美中国学生,是对中国学生最友好的大学之一。到了当代,据教育观察媒体 Inside Higher Ed 统计,早在 2015 年,中国留学生就已成为该校的最大国际学生群体。
而李博当初在 20 多份 offer 中选择该校,则因这里非常注重 AI 发展、且有很多不错的合作者。李博带的很多博士生都来自中国。同样留过学的她,格外能体会中国留学生的困难如签证等问题。
图 | 李博带的中国留学生
与业界的交流上,她也很重视和中国互联网巨头的合作。由于腾讯公司的微信事业部,面对着巨大的社交网络数据,靠谱的用户信用分析系统,成为微信团队处理数据的刚需。
基于此,李博展开了和微信的合作。该合作着眼于研究用户是否有机会通过修改自己的数据如通讯录等,来 “愚弄” 当前的机器学习系统,从而达到修改信用分数等目的。
面对微信的期望,李博给出了肯定的答案:恶意用户极有可能通过修改小部分数据,达到一些具体目的。
后续,李博和微信团队一起提出了“恶意网络连接检测和防御算法”(Malicious Edge Detection And Defense Algorithms),来判断某些数据比如好友信息是否可信,同时利用对抗训练,来提供更多的符合恶意攻击数据分布的数据去训练图神经网络(Graph Neural Networks,GNN),使生成的图神经网络有更强的鲁棒性。
名字带 “博” 的博士
从本科到博士,李博累计发表论文几十篇, 引用高达 4700 多 H-index 28(科研影响力的指标)。尽管她的名字略显男孩子气,上中学之前从未留过长发,但电话中的李博却声音轻柔,甚至主动替 DeepTech 记者考虑采访时差问题。
由于名字里带有一个“博”,从小家人就希望她可以考上博士。三四岁时,她就戴着借来的博士帽子照相。爸爸有时也会带她去和认识的博士学者们吃饭,对知识的憧憬早在童年就已埋下。
作为一名学霸,她第一次认识到学习的重要性,是因为一次转学。李博爸爸是广东湛江人,妈妈是山西阳泉人。由于父母工作原因,小学四年级时,李博从广东转学到山西。刚到新学校时,同学们质疑她是因为成绩差、或者表现差才转学的。结果第一次考试,她就是前几名,同学们对她的偏见也得以改观。
中学时,李博非常喜欢物理,还会阅读《时间简史》等高难度书籍。不过她比较文理兼备,曾很喜欢余秋雨的书,学生时代经常滑旱冰、弹钢琴。
高中时,李博就已成为党员。大学期间去台湾作了一年交换生,从大二开始就跟着导师以及学长学姐们写论文。
谈及出国读书和在美国工作,她表示希望可以通过在世界一流的计算机科研环境中,研究出更多成果,帮助更多来自祖国的学生,来反哺自己曾经生活过的地方。
在计算机研究以男性居多的时代背景下,李博的研究必将激励更多女性投身科研。女性得天独厚的细心,也会让科研更有温度。她的经历也告诉我们,科研女性并不是古板板,她们照样留长发、弹钢琴、读文艺书籍,照样声音柔和,但却热爱科学!