图灵奖得主杨立昆:我如何走上人工智能之路丨展卷

2018年图灵奖得主、法国人工智能科学家杨立昆(Yann Le Cun)被认为是深度学习的发明者之一,也被誉为“卷积神经网络”之父。最近他出版了自传《科学之路:人、机器与未来》,这也是一本介绍人工智能相关领域的科普著作。作为当今火热的深度学习的构建者,杨立昆对人工智能的低谷与辉煌有着切身实际感受以及冷静务实的思考。那么他是如何踏上自己的科学之路的?

本文经授权节选自《科学之路:人、机器与未来》(中信出版社)第二章,内容有删减,标题为编辑所加。前往“返朴”,点击文末“阅读原文”可购买此书。点击“在看”并发表您的感想至留言区,截至2021年9月12日中午12点,我们会选出1条留言,赠书1本。

撰文丨杨立昆(Yann Le Cun)

翻译丨李皓、马跃

信息的自由流动就是进步的动力。

——杨立昆

遭遇寒冬

1969 年,西摩尔·帕普特(Seymour Papert)和马文·明斯基(后者在 20 世纪 50 年代曾热衷于人工神经网络的研究,后来放弃了)联合出版《感知器:计算几何学概论》一书[1]。他们在书中指出了学习机的局限性,其中有些局限性对于技术发展会造成严重阻碍。因此对他们来说,神经网络的研究之旅已经走入了死胡同。这两位都是麻省理工学院极负盛名的权威教授,他们的作品在领域内引起了轰动:资助机构纷纷退出,不再支持该领域的研究工作。与 GOFAI(good old-fashioned artificial intelligence,好的老式人工智能。基于逻辑、规则和搜索算法的传统人工智能方法。)一样,神经网络的研究也遭遇了它的第一个“冬天”。

大多数科学家不再谈论制造具有学习能力的智能机器之事,转而把目光转向了更容易落地的项目。比如,运用一些原本用来研究神经网络的方法创建了“自适应滤波”,这是许多现代通信技术的起源。在此之前,当我们通过电话线在两台计算机之间交换数据时,电话线可能会发生以下情形:我们输入一个二进制信号,电压从0伏升到48伏,而信号在距离目的地还剩几公里时就已经损坏了。但现在,自适应滤波器能将其复原,这个过程是通过以其发明者鲍勃·拉迪(Bob Lucky)的名字命名的 Lucky 算法实现的。20 世纪 80 年代后期, 鲍勃·拉迪曾在贝尔实验室担任部门经理,领导着约300人工作,我也是其中一员。

如果没有自适应滤波,就不会出现带扬声器的电话。扬声器可以让我们对着麦克风讲话,而它不需要同时记录对话者说的话(有时我们能听到自己在说话)。回声消除器使用的算法与感知器使用的算法非常相似。

狂热的疯子

在 20 世纪七八十年代的“寒冬”里,仍有一些人执着于神经网络研究,科学界把他们视为狂热的疯子。比如,芬兰人戴沃·科霍宁(Teuvo Kohonen),他研究的是一个与神经网络比较接近的课题—联想记忆。再比如,还有一群日本人,与西方不同,日本的工程科学生态系统比较孤立,其中包括数学家甘利俊一(Shun-Ichi Amari)和一位名为福岛邦彦(Kunihiko Fukushima)的业内人士,后者发布了一个被他称为“认知机”(Congitron)的机器,这一命名来自术语“感知器”(preceptron)。福岛邦彦前后一共发布了这个机器的两个版本,分别是 20 世纪 70 年代的认知机和 80 年代的神经认知机(Neocognitron)。与同时代的弗兰克·罗森布拉特一样,福岛邦彦也受到了神经科学新发现的启发,特别是美国人大卫·休伯尔(David H. Hubel)和瑞典人托斯坦·威泽尔(Torsten N. Wiesel)的发现给予了他很多灵感。

休伯尔和威泽尔是两位神经生物学家,他们因在猫的视觉系统方面的研究成果获得了1981 年的诺贝尔生理学或医学奖。他们发现视觉是视觉信号通过几层神经元传递后呈现的结果,包括从视网膜到初级视觉皮层,再到视觉皮层的其他区域,最后到颞下皮层。在这些层级中,神经元发挥着非常特殊的作用。在初级视觉皮层中,每个神经元仅连接到视野的一小部分区域,即接收区域。这些神经元被称为简单细胞。在下一层,即视觉皮层中,其他单元集成了上一层激活的信息,使得视觉对象即使在视野中稍微移动,视觉系统也能保持图像的呈现。这些单元被称为复杂细胞。

福岛邦彦便是受到这个研究成果的启发,延伸出了一个想法:先利用一层简单细胞检测各个小接收区域所接收的图像的简洁信息,再利用下一层复杂细胞处理收集到的信息。他研发的神经认知机共有5层:简单细胞、复杂细胞、简单细胞、复杂细胞,最后是类似感知器的分类层。福岛在前四层使用了某种“不受监督”的学习算法,也就是说,它们接受的是不考虑完成任务的、“盲目”的训练。仅有最后一层像感知器一样,接受了“受监督”的训练。但从总体来看,福岛邦彦缺乏一种可以调整所有层级参数的算法,所以他的网络只能识别诸如数字一类极其简单的事物。

在 20 世纪 80 年代初期,福岛邦彦并非独自一人在此领域进行探索,北美的一些团队也在进行着积极的探索,例如心理学家杰伊·麦克莱兰德(Jay McClelland)和戴夫·鲁梅尔哈特(David Rumelhart),还有生物物理学家约翰·霍普菲尔德(John Hopfield)和特伦斯·谢诺夫斯基(Terry Sejnowski),以及计算机科学家杰弗里·辛顿(Geoffrey Hinton)。辛顿与我共享了2018年度图灵奖。

被兴趣激发的人

从20世纪70年代起,我开始对这些研究产生了浓厚的兴趣,我的好奇也许来自对父亲的观察。他是一名航空工程师,同时也是一位动手天才,他总是喜欢在业余时间做电子产品。他制作过遥控飞机的简化模型。记得那是在 1968 年 5 月大罢工期间(译者注:这里的大罢工指“五月风暴”,是 1968 年 5 月法国爆发的一场学生罢课、工人罢工的群众运动。),父亲在家里制作了他人生中第一个遥控汽车和一艘船的遥控器。我并不是家里唯一被激发兴趣的人,我弟弟也是。他比我小6岁,同样受到父亲的影响,后来也成为计算机科学家。他大学毕业后成为谷歌的研究员。

在很早的时候,我就对技术、征服太空以及计算机的诞生充满了探索的热情。我曾梦想成为一名古生物学家,因为人类智能的出现及演化深深地吸引了我。即使在今天,我也依旧认为大脑的运行机制是生命世界中最神秘的事物。我8岁的时候,在巴黎跟我的父母、一位叔叔和一位沉迷于科幻的阿姨一起看过一部电影——《2001太空漫游》。影片里出现了我所热爱的一切:太空旅行、人类的未来以及超级计算机哈尔的起义。哈尔为了确保自己的生存和完成最后的任务而要展开屠杀,这件事情真的很不可思议,而在这之前,如何将人工智能复制到机器中这个问题就已经让我深深着迷了。

鉴于此,高中毕业后我自然而然地打算投身这个领域进行具体研究。1978年,我进入了巴黎高等电子与电工技术工程师学院,就读该学院无须参加预科课程,可以在高中毕业后直接申请。我的实践经历证明,读预科并不是在科学之路上取得成功的唯一途径。而且,我在巴黎高等电子与电工技术工程师学院学习时拥有很多自主权,所以我肯定会好好珍惜利用!

卓有成效的阅读

在第一批让我感到欣喜的读物中,有一份是我在1980年读过的报告。这实际上是一份辩论总结,辩论是在瑟里西(Cerisy)会议上展开的,主题是人类语言机制到底是先天的还是后天的。[2]语言学家诺姆·乔姆斯基的观点是,大脑中生来就已经存在能够让人们学习说话的结构。而发展心理学家让·皮亚杰(Jean Piaget)则认为,一切都是通过后天学习获得的,包括大脑中学习说话的结构,语言学习是随着智能的逐步建构而分阶段完成的。因此,智力的获得是人与外界交流学习的结果。这个想法深深地吸引了我,我开始思考如何才能将其应用于机器学习中。也有其他一些顶尖的科学家参加了这场辩论,比如西摩尔·帕普特,他极力颂扬了感知器,认为它是能够学习复杂任务的简单机器。

我因此知道了感知器的存在,并迅速沉迷于这个课题。我利用每周三下午不上课的时间,在罗康库尔的 Inria(法国国家信息与自动化研究所)的图书馆寻找专业图书来读。在法兰西岛大区,Inria掌握着最为丰厚的计算机研究经费。我在阅读过程中很快发现,西方科学界尚无人研究神经网络。同时我还惊奇地发现,有关感知器的研究就截止在西摩尔·帕普特所称颂的感知器上,此外没有进一步的发展。

系统理论(在20世纪50年代被称为控制论)是我的另一个研究爱好,它主要研究人工系统和天然生物系统。比如人类体温的调节系统:人体温度之所以能够维持在37℃左右,主要得益于一种恒温器,它可以调节人体温度与外界温度之间的差异。

我对“自组织”也有浓厚的兴趣。分子或相对简单的物体是如何本能地相互作用组成复杂结构的?智能是如何从大量相互作用的简单元素(神经元)中发展而来的?

我研究了柯尔莫哥洛夫、所罗门诺夫和柴廷(Chaitin)的算法复杂性理论中的数学部分。此外,我在前文中提到的理查德·杜达和彼得·哈特的书[3]就摆放在我的床头,同时我还订阅了《生物控制论》,这是一本涉及大脑运作原理和生命系统的计算机数学模型的期刊。

因此,所有因为“寒冬”而被忽视的人工智能问题都呈现在我面前。在思考这些问题时,我慢慢形成了自己的理念:以逻辑的方式无法建构真正的智能机器,我们必须赋予机器学习的能力,让它们能以经验为基础进行自我建构。

在阅读期间,我发现科学界不只我有这种想法,因此我也注意到了福岛邦彦的研究成果,并开始思考提高新认知中心神经网络效率的方法。对正式开展研究来说比较幸运的是,巴黎高等电子与电工技术工程师学院为学生提供了当时功能非常强大的计算机。我与学校里的朋友菲利普·梅曲(Philippe Metsu)一起开始编写程序。他同样热爱人工智能,尤其对儿童的学习心理感兴趣。学校里的数学老师也愿意指导我们,我们一起尝试模拟神经网络。但实验十分费力:计算机进步缓慢,编写程序也着实令人头疼。

在学校的第四年,我由于更加沉迷于这项研究,开始设想一种用于训练多层神经网络的学习规则,可惜并没有真正得到数学层面的验证。我构想出一种可以在网络中实现从后向前传递信号的算法,用来实现端到端的训练,我将它命名为 HLM 算法(取自分层学习机的英文名称 hierarchical learning machine,参见第五章相关内容)。命名这个算法的时候,我还玩了一个有趣的文字游戏(译者注:在法语中,HLM是低租金住房[habitation à loyer modéré]的缩写。)……在 HLM 的基础上发展而来的“梯度反向传播”算法如今已被广泛应用于训练深度学习系统。HLM 与如今的反向传播梯度网络的不同之处在于,HLM 传递的是每个神经元的期望状态。因此在当时计算机运算乘法的速度比较慢的情况下,可以使用二进制神经元。HLM 算法是训练多层网络的第一步。

我的偶像

1983年夏,我从工程专业毕业时,从一本书上了解到一个对自组织系统和自动机网络感兴趣的小组:网络动力学实验室(LDR)。他们的办公地点位于巴黎圣纳维耶沃综合理工学院的旧址,小组成员都是法国人,他们来自各大高校。因为该小组不挂靠任何机构,所以几乎没有经费和预算,只有一台回收的计算机。从另一个角度说,法国在机器学习方面的研究当时正处于近乎停滞的状态。我拜访了他们。和我不一样,这些研究人员没有接触过有关神经网络的早期出版物,但他们熟悉其他作品。

我向他们表示,我对他们的研究课题感兴趣,而且我所在学院的设备有助于他们做进一步的研究。后来,我在皮埃尔和玛丽·居里大学继续研究生学习时,也加入了他们的小组。1984 年,我准备攻读博士学位。虽然当时我有巴黎高等电子与电工技术工程师学院的研究奖学金,但还没有找到合适的论文指导老师。弗朗索瓦丝·福热尔曼-苏利耶(Fran?oise Fogelman-Soulié,后来更名为 Soulié-Fogelman)与我共事了很长时间,她当时是巴黎第五大学的计算机科学副教授。从能力上来讲,她完全可以指导我,可惜,她还没有完成国家博士论文

(此资格是欧洲教育体系的特色),所以她没有取得指导博士论文的资格。

因此,我只能求助于实验室中唯一一位能够指导计算机博士论文的教授莫里斯·米尔格朗(Maurice Mil-gram),他是贡比涅技术大学计算机和工程科学的教授。他同意成为我的导师,但同时表示他对神经网络一无所知,所以可能帮不上什么忙。我永远都不会忘记他对我的关照。那段时间,我将所有精力都用在了巴黎高等电子与电工技术工程师学院(和它强大的计算机)和 LDR(和它的知识环境)中。

我身处一个完全未知的领域,这实在令人兴奋。在国外,也有一些课题跟我们接近的研究小组正在慢慢起步。1984 年夏,我陪同弗朗索瓦丝·福热尔曼去了加利福尼亚,在带有传奇色彩的施乐帕克研究中心的实验室实习了一个月。

当时,我十分渴望见到两位大人物:一位是来自巴尔的摩约翰斯·霍普金斯大学的生物物理学家和神经生物学家特伦斯·谢诺夫斯基(《深度学习》作者),另一位是来自卡内基·梅隆大学的杰弗里·辛顿,后者与约书亚·本吉奥和我共同分享了2018 年度的图灵奖。

辛顿和谢诺夫斯基于 1983 年发表了一篇有关玻尔兹曼机(Boltzmann Machines)的文章,并在其中描述了一个带有“隐藏单元”的神经网络的学习过程,这个隐藏单元是位于输入和输出之间的中间层的神经元。我之所以对这篇文章感兴趣,主要是因为他们提到了多层神经网络的训练,这可是我研究课题中的核心问题,他们是真正对我的研究有价值的人!

“你认识一个叫杨立昆的人吗?”

我职业生涯真正意义上的转折点出现在 1985 年2月,在阿尔卑斯山莱苏什举行的研讨会上。在那次会议上,我遇到了当时世界上对神经网络感兴趣的顶级专家,他们有物理学家、工程师、数学家、神经生物学家、心理学家,尤其是遇到了在科学界宛如神话一般的贝尔实验室里一个新成立的研究神经网络的小组成员。得益于在莱苏什的相识,三年后,我被该小组聘用。

这次研讨会是由我所在的法国研究小组 LDR 的成员组织的,他们是弗朗索瓦丝和她当时的丈夫热拉尔·韦斯布赫(Gérard Weisbuch),后者时任巴黎高等师范学院的物理学教授,以及当时在法国国家科学研究中心(CNRS)任职的理论神经生物学家埃利·比嫩斯托克(?lie Bienenstock)。会议汇聚了许多对“自旋玻璃”感兴趣的物理学家,以及物理学和神经科学等领域的权威人士。约翰·霍普菲尔德那篇关于自旋玻璃和神经网络的开创性文章[4],引得许多物理学家开始关注并学习人工神经网络,但当时仍有许多工程师和计算机科学家不愿谈及这个话题。

在莱苏什,我是年龄最小的与会者之一,我当时刚开始着手写博士论文。令我无比紧张的是,我需要在众多享誉业界的大咖面前,用英语做一个关于多层网络和 HLM 算法(反向传播的前部研究)的英文报告。

尤其有两位听众给了我巨大的压力:一位是贝尔实验室的部门负责人拉里·杰克尔(Larry Jackel),后来我很荣幸地加入了他的部门;另一位是该部门的二号人物约翰·登克尔(John Denker),他是一位来自亚利桑那州的真正牛仔,身穿牛仔裤和牛仔靴,有着垂到脸颊的头发……这位刚刚完成博士论文的“非典型研究人员”拥有令人难以置信的强大气场!当某位研究者发言之后,他能够很快就议题展开讨论,表明自己的观点。他谈话时虽没有攻击性,却掷地有声,有理有据。当然他的自信也是有缘由的,弗朗索瓦丝·福热尔曼曾说:“贝尔实验室的研究人员有着巨大的优越感。当你要研究某个课题时就会发现,要么贝尔实验室早在 10 年前就已经研究过了,要么已经证明这条路行不通了。”简直太可怕了!

我做完了关于多层网络和HLM算法的报告,与会者中真正听懂的人寥寥无几(这已经让我够紧张了!),然后,约翰·登克尔举起了手,我简直紧张到窒息!但他在所有听众面前对我说:“讲得真的很好!谢谢您,让我知道了很多事情……”我确信我的名字已经留在他和拉里·杰克尔的脑海中。一年后,他们邀请我去他们的实验室做报告。两年之后,我接受了贝尔实验室的面试。三年后,我正式加入了他们的团队!

同样是在莱苏什,我碰到了特伦斯·谢诺夫斯基,也就是与杰弗里·辛顿共同发表关于玻尔兹曼机的文章的作者。他是在我完成报告后到场的。我在下午的茶点时间找到了他,向他阐述了我在多层神经网络方面的工作。在交流之前,我并不确定他是否会感兴趣。他只是耐心地听着,并没有告诉我他与杰弗里·辛顿也在进行反向传播研究,也没有告诉我,辛顿已经成功实现反向传播,只不过没有对外公布而已。

伟大的发明之间能够相互启发。辛顿的研究就使用到了加利福尼亚大学圣迭戈分校的戴夫·鲁梅尔哈特的思路,辛顿在之前的几年里曾跟随戴夫读博士后。1982 年,戴夫提出这个方法并编写了程序, 只可惜没能成功运行。他找到辛顿,辛顿说:“失败的原因出在了局部一些极为细微的问题上。”(参见第四章“多个谷底的困扰”)后来,戴夫放弃了。但是,在研究玻尔兹曼机的过程中,辛顿意识到问题并没有自己当初想象的那么严重。因此,他用 LISP 语言在 Symbolics 公司的 LISP 机器上用戴夫的方法重新编写了程序,这一次程序成功运行起来。

因此,在我们交流的过程中,特伦斯很快注意到我的 HLM 方法和反向传播非常相似。他没有告诉我,在反向传播成功后,他已经在研究此后几个月将会风行一时的实际应用了。特伦斯回到美国后向辛顿提到了我:“法国有个孩子在进行跟我们同样的研究!”

同年春天, 我写了第一篇关于自己研究成果的文章(我承认,这篇文章离科学文献的标准有点远),并在 1985 年 6 月举办的Cognitiva 大会上将其公开,那是法国第一次召开集合了人工智能、神经网络、认知科学和神经科学的综合性大会。杰弗里·辛顿是当时的主讲嘉宾,他在开幕辞上介绍了玻尔兹曼机。结束后,将近 50 个人聚集在他的周围,我也想上前交流,但并没有机会靠近他。随后,我注意到他转向其中一位会议组织者丹尼尔·安德勒(Daniel Andler),并问道:“你认识一个叫杨立昆的人吗?”丹尼尔开始四处观望,我立马大喊道:“我在这儿。”其实,辛顿已经在会议论文集上看到了我的文章,虽然他不精通法语,但依然看懂了文章的内容,他意识到我就是特伦斯提过的那个“孩子”。

我们在第二天碰了面,并一起在一家古斯古斯(来自北非马格里布地区的美食)餐厅吃了午饭。他向我解释了反向传播的原理,他知道我能听懂!辛顿说自己正在写一篇文章,其中引用了我的研究成果,我听后非常自豪。我俩很快意识到,我们的兴趣、方法以及思路都十分相似。辛顿邀请我参加 1986 年在卡内基·梅隆大学举办的关于联结主义模型的暑期培训班,我欣然接受。当时在认知科学界,研究者通常用“联结主义模型”这个术语来称呼神经网络这个未知领域。

梯度反向传播的运用

20 世纪 80 年代,梯度反向传播的普及使得训练多层神经网络成为可能。该网络由成千上万分层的神经元组成,其间的连接更是数不胜数。每层神经元都会合并、处理和转换前一层的信息,并将结果传递到下一层,直到在最后一层产生响应为止。这种层次体系结构赋予了多层网络能够存储惊人的潜能,我们会在接下来的深度学习部分进行进一步的讨论。不过,在1985年,多层网络的学习过程仍然很难实现。

这一切在1986 年发生了转变。特伦斯·谢诺夫斯基发表了一篇探讨NetTalk 多层网络的技术报告,NetTalk通过反向传播训练使机器学习阅读。该系统将英文文本转换成一组语音音素(基本语音)后传到语音合成器,从而实现“阅读”的功能。将文本语音转换成法语很简单,转换成英语却十分困难。在训练的初期,这个系统如同一个刚开始学习说话的婴儿,随着训练的不断积累,它的发音也越来越好。特伦斯·谢诺夫斯基到巴黎高等师范学院现场做了相关报告,震惊了现场听众和业界。随即,所有人都希望向我取经,因为多层网络突然变得十分流行,我也变成了这个领域的专家。

在这之前的一年,我发现可以用拉格朗日形式从数学的角度反向传播,这类形式化是传统机械、量子机械和“最优控制”理论的基础。我还注意到在 20 世纪 60 年代,有一位最优控制的理论家提出了一个类似反向传播的方法,这个方法被命名为“凯利-布赖森(Kelly-Bryson)算法”,也被称为“伴随状态法”。在1969年出版的由亚瑟·布赖森(Arthur Bryson)和何毓琦(Yu-Chi Ho)合著的《应用最优控制》(Applied Optimal Control)一书中对其进行了详细讲述。

这些科学家从没想过将这个方法应用到机器学习或者神经网络领域,他们更感兴趣的是系统的规划和控制。比如,如何控制火箭,使其到达一个精准的轨道并且和另外一个航空器对接,且同时要尽可能减少能源消耗。而从数学的角度来说,这个问题和调整多层神经网络节点的权重问题非常相似,这样最后一层的输出结果就会符合预期。

1986 年7月,应辛顿之邀,我在匹兹堡的卡内基·梅隆大学参加了为期两周的关于联结主义模型的暑期课程(如下图)。这次美国之行我其实是有顾虑的,因为当时我的妻子正在孕中,我们的第一个孩子将在我回法国4周后降生。

1986 年有关联结主义模型的暑期课程班学员

照片中标出的是斯坦尼斯拉斯·德阿纳(SD)、迈克尔·乔丹(MJ)、杰伊·麦克莱兰德(JMcC)、杰弗里·辛顿(GH)、特伦斯·谢诺夫斯基(TS)和我(YLC)。除此之外,照片上的许多参与者日后都成了机器学习、人工智能和认知科学领域的重要人物:安迪·巴尔托、戴夫·图尔茨基、格里·泰绍罗、乔丹·波拉克、吉姆·亨德勒、迈克尔·莫泽尔、理查德·德宾等组织者。

我对那个夏天最深的记忆就是我与辛顿,还有刚完成博士论文的迈克尔·乔丹(Michael Jordan)建立了一个研究神经网络的团队, 我们三个人之间也因此结下了深厚的友谊。为什么邀请迈克尔呢?因为他的法语比我的英语好。在暑期培训班的野餐会上,他弹着吉他演唱了乔治·布拉桑(Georges Brassens)的歌。

虽然我还只是个学生,但辛顿还是邀请我做了一场报告,并介绍说我发现了反向传播。在一次晚餐时,我们享用着我带来的一瓶很棒的波尔多红酒,辛顿跟我说,他将在一年后离开卡内基·梅隆大学, 加入多伦多大学。他问:“你愿意成为我的客座研究员吗?”我回答:“当然了!”这一年时间正好够我完成博士论文。

大变革的时代到来了。鲁梅尔哈特、辛顿、威廉联合发表的关于反向传播的论文在业界引发了爆炸式的反响。[5]NetTalk 成功的消息也迅速传播开来。神经网络领域的研究走上了快车道。我制作的名为HLM 的神经网络模拟和反向训练软件也吸引了法国工业界的一些买家,Thomson-CSF(现在名为 Thales,即法国泰雷兹集团)就是我的顾客之一。

1987 年6 月,我完成了博士论文,并在皮埃尔和玛丽·居里大学通过了答辩。因为我在 4 月尝试一种新的沙滩帆船推进方式时伤到了脚踝,所以我借助拐杖才完成了答辩。杰弗里·辛顿是我的答辩委员之一,此外答辩委员会还有莫里斯·米尔格朗、弗朗索瓦丝·福热尔曼,雅克·皮特拉(Jacques Pitrat,法国人工智能符号领域的科研领袖之一)和贝尔纳·安吉尼奥(Bernard Angéniol,Thomson-CSF 的一个研究团队负责人)。同年7月,我和我的妻子,还有我们一岁的宝宝一起来到多伦多,我成为辛顿的客座研究员。我们预计在多伦多的生活不会超过一年,我的妻子为了照顾孩子,不得不搁置了她的药剂师工作。我还指导着一个名叫莱昂·博图(Léon Bottou)的朋友。我与莱昂结识于 1987 年初,当时他正在巴黎综合理工学院完成最后一年的学业。他对神经网络很感兴趣,因此决定跟随我做毕业实习。请千万不要告诉他们的校长我还没有取得博士学位。当时,我正计划编写新的软件来创建并训练神经网络,它是由LISP解释器驱动的模拟器。

我把解释器的相关工作交给了莱昂,他仅用三周时间就完成了!此外,因为我们都拥有同款个人计算机——Commodore 公司的Amiga(一款高分辨率、快速的图形响应、可执行多媒体任务的计算机),所以我俩的合作既愉快又高效。与现在的苹果计算机和其他品牌的个人计算机不同,Amiga 计算机具有类似北美 IT(信息技术)部门中常见的 UNIX 工作站的属性:我们使用 C 语言编程, 使用GCC 编译器和 Emacs 文本编辑器。我那台 Amiga 计算机安装了专供信息工作者使用的文本处理程序 LaTex,我就是利用它完成了博士论文。莱昂和我通过连接 MiniTel(数字化电话信息的交互式媒体)远程交换程序代码段。

我们将程序命名为SN(simulator neuronal,神经模拟器),它也是我俩长久合作与友谊的见证。莱昂后来在纽约FAIR的办公室离我的办公室并不远。

在多伦多,我完成了 SN,之后对其做了调整,以便实现我设想的一个可以用于图像识别的神经网络——卷积网络。卷积网络是受福岛邦彦的神经认知机启发而产生的一个想法,但它使用的是更为传统的神经元,并且受到反向传播的驱动。同时,杰弗里·辛顿开发了一种更简单的用于语音识别的卷积网络,他将其称为 TDNN(时延神经网络)。

1987 年年底,我应邀前往麦吉尔大学的蒙特利尔计算机科学研究中心做报告。报告结束时,一位年轻的硕士研究生提出了一系列问题,从提问中可以看出他在多层神经网络方面有比较深入的研究。要知道在同时期,该领域的研究人员相当少。他想了解如何调整神经网络结构,并使其能够处理语音或文本等时间信号。我记住了他的名字:约书亚·本吉奥。

参考资料

[1] Marvin L. Minsky, Seymour A. Papert, Perceptrons : An Introduction to Computional Geometry, The MIT Press, 1969 .

[2]Théories du langage, théories de l’apprentissage : le débat entre Jean Piaget et Noam Chomsky, débat recueilli par Maximo Piatelli-Palmarini, Centre Royaumont pour une science de l’homme, Seuil,《Points》, 1979 .

[3]Richard O. Duda, Peter E. Hart, Pattern Classification and Scene Analysis, op. cit., p. 6.

[4]John J. Hopfield, Neural networks and physical systems with emergent collective computational abilities, Proceedings of the National Academy of Sciences, 1982 , 79 ( 8 ), pp. 2554 – 2558 , DOI : 10 . 1073 /pnas. 79 . 8 . 2554.

[5]D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning internal representations by error propagation, in D. E. Rumelhart, J. L. McClelland, PDP Researche Group, Parallel Distributed Processing : Explorations in the Microstructure of Cognition, MIT Press, 1986 , vol. 1 , pp. 318-362.

作者简介

杨立昆(Yann Le Cun):法国人,名字原文为Yann Le Cun,姓氏为Le Cun,因在美国常被误缩写为Y.L.Cun,于是把LeCun合写在一起。中文译名原为扬·勒丘恩,华人AI圈一直亲切地称他为“杨乐康”,他本人听闻后,干脆自己给自己取了中文名字——杨立昆。

他被誉为 “卷积神经网络之父”,2019年3月,因在人工智能深度学习方面的贡献获得2018年度图灵奖。此外,他还获得了2014年IEEE神经网络先锋奖(Neural Network Pioneer Award)、2015 年 IEEE PAMI 杰出研究奖和2016 年 Lovie 终身成就奖。

他为卷积神经网络(CNN,Convolutional Neural Networks)和图像识别领域做出了重要贡献,以手写字体识别、图像压缩和人工智能硬件等主题发表过190多份论文,研发了很多关于深度学习的项目,并且拥有14项相关的美国专利。研究领域包括人工智能、机器学习、机器感知、移动机器人学和计算神经学。