在地球生命的早期,生物有机体非常简单。它们是微小的单细胞生物,几乎没有协调能力。然而,数十亿年的进化通过竞争和自然选择,形成了我们今天的复杂的生命形式,以及复杂的人类智能。
由诸多硅谷大亨联合建立的人工智能非营利组织 OpenAI 正在验证一个假设:如果能在虚拟环境中模拟这种竞争,它是否也会像人一样产生更复杂的人工智能?
在近日发表的一篇论文里,OpenAI 公布了它的初步结果。通过几亿次简单的躲猫猫游戏,两支相互对立的 AI 智能体(agent)团队找到了复杂的游戏策略,其中甚至有工具的使用和团队协作。
测试结果表明,两支团队通过竞争模式进行自我改进的速度,远远超过任何单一智能体的进化速度。论文合著者称,我们可以在其他 AI 领域充分发挥这种力量来提高效率。
此外,这项研究也让我们更深入了解了 OpenAI 的主导研究策略:大幅扩展现有的 AI 技术会产生什么特性。这个躲猫猫环境集合了很多包括 OpenAI、DeepMind 及其姐妹公司 Google 的开源系统。包括 CoinRun、Neural MMO、Research Football Environment 和 OpenSpiel 等。
策略进阶的六个阶段
该实验基于人工智能领域现有的两种理念:多智能体学习(multi-agent learning)和强化学习(reinforcement learning)。前者是将多个算法置于竞争或协调中,以引发紧急行为;后者是通过不断的试错来达到目标的特定机器学习技术,AlphaGo 是其中一个典型例证。
研究人员设计的虚拟环境包括一个封闭的空间,里面有各种各样的物体,比如积木、坡道、移动障碍物和固定障碍物。这些智能体本身由强化学习算法控制。在每一场比赛中,这些智能体被分成两组:隐藏者(蓝色)和搜寻者(红色)。隐藏者成功躲避搜寻者即接受奖励,反之则进行惩罚;搜寻者找到隐藏者即为奖励,反之惩罚。和人类的捉迷藏游戏一样,隐藏者有几秒钟的时间藏起来。除此以外,研究人员没有给这些智能体任何其他指示。
在几亿回合的博弈过程中,智能体们“想出”了多种应对方法和破解策略。在第一阶段,隐藏者和搜寻者通过在空间中移动但不操纵任何物体,发展出非常简单的躲避和追逐策略。
但是在 2500 万场比赛之后,比赛开始变得复杂。躲藏者学会了移动和固定箱子以及环境中的障碍物,在自己周围建造堡垒,这样搜寻者就不会看到它们。不仅如此,它们还制定了协调策略,如互相传递物体,以加快堡垒的建设过程。
然而,在 7500 万场比赛之后,搜寻者发现了一个破解策略将搜索过程推进到第三阶段。它们学会了移动堡垒旁边的斜坡,并用它爬过墙。又过了 1000 万回合之后进入到第四阶段,隐藏者们已经学会了在建造堡垒之前把坡道固定好。
第三阶段,智能体学会利用斜坡翻墙(来源:OpenAI)
起初,OpenAI 的研究人员认为这时候应该要进入游戏的最后阶段了,但在 3.8 亿场游戏之后,又出现了两种策略。搜寻者们通过使用一个已经被固定的斜坡爬上被固定的盒子,然后“冲浪”到盒子顶部的堡垒上,从而进入隐藏者的堡垒。在最后阶段,隐藏者们再次学会了在建造堡垒之前把所有的坡道和箱子都固定好。
图 | 智能体会“冲浪”(来源:OpenAI)
规模在这场游戏中扮演了重要的角色。默认模式需要 1.323 亿阶段的超过 34 小时的训练才能达到“斜坡防御”阶段,批量越大,训练时间越短。例如,将参数数量(模型从历史训练数据中学习的部分)从 50 万个增加到 580 万个,样本效率将提升 2.2 倍。
鲁棒性检测
为了评估智能体的鲁棒性,研究人员设计了五个基准测试,分为两个方面:认知和记忆。所有测试都使用与捉迷藏环境相同的动作空间、观察空间和对象类型:
图 | 五个基准智力测试(来源:OpenAI)
物体计数测试用来衡量智能体是否具有物体存在性的感知(即是否知道物体在无法感知的情况下依然存在)
锁定和返回用来测试智能体在比赛进行的时候是否记得它们最初的位置
顺序固定。四个盒子被放在三个随机的无门但有斜坡的房间里,智能体必须按照它们以前没有观察过的特定顺序固定所有的箱子
蓝图构建。智能体必须在一个开放房间里的四个目标点的顶部放置八个箱子
搭建掩蔽体。智能体必须在一个圆柱体周围用箱子搭建一个“庇护所
在其中的三项任务中,在躲猫猫环境中接受过“预训练”的智能体学习能力更强,获得的奖励也更多。这些智能体在“锁定和返回”“顺序固定”和“根据草图构建堡垒”中表现较好,但在另外两个方面做得很差。
研究人员认为,通过躲猫猫训练的智能体在某些方面表现较好是因为反复使用了学习到的技能,而在剩余的测试任务中必须要学习新的技能,这是很难的。论文中写到:“这个评估指标强调了开发技术的重要性,以便有效地把在一个环境中训练的技能用到另一个环境中。”
未来应用
研究人员认为,这些初步结果表明,通过简单的游戏规则、多智能体竞争和标准的大规模强化学习算法,可以刺激智能体在没有监督的情况下学习复杂的策略和技能,这是进化为更复杂人工智能的一个很好的方式。
“我们没有告诉隐藏者或搜寻者要跑到盒子附近或利用盒子当做工具,”论文作者之一 Bowen Baker 说,“但通过竞争模式,它们为彼此创造了新的任务,使得另一个团队不得不适应。”
相比于 OpenAI 此前的 AI 研究方式,此次研究采取的方式有点不同。尽管该实验室也会开发一些相比于其他实验室更为新颖的技术,但它主要还是通过大幅扩展现有技术而出名的。例如,他们此前“臭名昭著”的语言模型 GPT-2 就大量借鉴了早期语言模型的算法设计,包括谷歌的 Bert 系统。OpenAI 的主要创新其实是融合了大规模的工程和计算资源,构建一个能够在通用系统中执行多项任务的人工通用智能(AGI)。
(来源:OpenAI)
在某种程度上,这项研究强调了大规模测试现有技术极限的价值。该组织还将继续执行这一战略。研究人员说,第一轮的实验并没有接近他们所能投入的计算资源的极限。“我们想让人们想象,如果你在一个复杂得多的环境中引发这种竞争,会发生什么,”Baker 说,“他们学习到的技能可能最终能够解决一些我们还无法解决的问题。”
当然,这项研究也不单单是为了游戏而设计。研究人员称,他们的工作是迈向可能产生“物理基础”和“人类相关”行为的技术的重要一步,将有可能支持诊断疾病、预测复杂蛋白质结构和分段 CT 扫描的系统。
DeepMind 联合创始人说,“我们的游戏 AI 是 AI 普及化的一块垫脚石,最终,(我们的算法)会向着解决现实世界中具有挑战性的问题转化,并帮助相应领域的专家。”