近日,两个由 OpenAI 的研究人员开发的一模一样的机械臂——爱丽丝和鲍勃,可以在模拟情景中通过对弈互相学习,而不需要人为输入文本。
其中一个虚拟机械臂已经学会解决各种不同的难题——堆积木、摆放桌子、排列国际象棋棋子,并且每项任务不需要进行再训练。这一切通过与另一个机械臂对弈得以实现。据了解,另一个机械臂经过训练后,会给原本的机械臂臂带来越来越难的挑战。
这些机器人采用的是强化学习算法,即在不同情况下,通过试错来训练人工智能,并采取不同行动来实现目标。游戏包括在虚拟桌面上移动物体。例如,通过以特定的方式排列物体,爱丽丝试图设置对鲍勃来说很难解决的谜题,而鲍勃会试图解决爱丽丝的谜题。随着它们的学习,爱丽丝会设置更复杂的谜题,而鲍勃也会越来越会解谜。
经过爱丽丝设置的积木谜题的训练后,鲍勃便可以通用于一系列任务,包括摆放桌子和排列象棋棋子。
通常在多重任务处理中,深度学习模型必须在任务间进行再训练。例如,AlphaZero (一款棋类 AI,可以通过自我博弈来学习)会使用单一算法教自己下国际象棋、将棋和围棋——但每次只能下一盘棋。例如,下国际象棋的时 AlphaZero 不能下围棋,下围棋时的 AlphaZero 不能下将棋。因此,造出真正能同时处理多任务的机器,是走向更通用的人工智能道路上的一大未解难题。
训练 AI 同时执行多重任务时会遇到一个问题,即需要大量的例子。OpenAI 则通过训练爱丽丝为鲍勃生成例子,用一个 AI 训练另一个 AI 来避免这个问题。经过训练,爱丽丝学会了设定目标,比如建造一座积木塔,然后把它捡起来并加以平衡。鲍勃学会了利用虚拟环境的属性,如通过摩擦力来抓取和旋转物体。
截至目前,虚拟现实的训练只在虚拟环境中进行,但 OpenAI 和其他机构的研究人员正在将虚拟环境中训练的模型转移到物理环境中,且越来越有起色。据悉,模拟环境可以让 AI 在短时间内处理大型数据集,然后研究人员会根据现实世界的环境再对其进行微调。
该团队的研究人员表示,他们的最终目标是训练这些机械臂去解决人类可能要求它做的任何任务。与 GPT-3 一样(GPT-3 是一个能以各种不同方式使用语言的语言模型),这些机器人手臂是 OpenAI 打造多任务人工智能整体目标的一部分,而使用一个 AI 来训练另一个 AI 也许是其中的关键所在。