官宣!DeepMind AI 开发的星际争霸 2 AI"AlphaStar"进化成了完全体"AlphaStar Final",三个种族(神族、人族和虫族)均达到欧服战网宗师组级别,最高达到 6275 分,在遵守所有游戏规则的情况下,超越了 99.8% 的欧服玩家!有关新版 AlphaStar 的论文也登上了Nature杂志。
与今年 1 月只会使用神族的状态相比,AlphaStar 不仅精通了三个种族,会玩四张地图,更重要的是,它的手速和视野被限制到了跟人类相似的水平,以职业选手 TLO 的有效 APM 为校准基准,最多在 5 秒内完成 22 个不重复指令,操作延迟限定在 110 毫秒左右,不会再出现 1500 峰值 APM 的变态操作,也不会看到当前镜头以外的单位信息,但是可以选中它们(人类也可以通过编队实现这一操作)。
根据 DeepMind 介绍,AlphaStar 于今年 7 月正式登陆星际 2 战网,开始以匿名的方式和欧服天梯玩家对战,以确保得到公平对战。得益于新算法的帮助,完全体版本 AlphaStar Final 的竞技水平突飞猛进。
在不到 4 个月的时间里,它使用每个种族进行了 30 场天梯比赛,三个种族的水平都达到了宗师级别:神族 6275 分(胜率 83%),人族 6048 分(胜率 60%),虫族 5835 分(胜率 60%)。
图 | AlphaStar 的天梯表现(A);AlphaStar 对战各种族的胜率和分数(B);AlphaStar 和职业选手 TLO 的有效 APM 对比(C)(来源:DeepMind)
星际 2 职业选手 DARIO“TLO”W?NSCH 表示,“我觉得 AlphaStar 的水平令人印象深刻,它非常擅长评估它所处的战略地位,十分清楚什么时候交战,什么时候撤退。尽管 AlphaStar 拥有精准的控制操作,但并不会给人一种非人类的感觉,完全不是人类理论上无法达到的水平。总之,跟它对战就像跟真人玩星际一样。”
开创性的“组队训练”
在战网上,AlphaStar 共有三个版本同时进行测试,后缀分别是 Supervised,Mid 和 Final,其中最弱的版本是 Supervised,最强的则是 Final。三者最大的不同点在于模型训练方式和训练时间。
Supervised 版本使用了监督学习和强化学习进行训练,从人类玩家的录像中学习游戏技巧,因此使用的战略也都受到了人类玩法的启发。最终它达到了钻石组水平,约为 3700 分。
为了进一步提升竞技水平,DeepMind 研究团队试图从根本上改变 AI 的训练方式。目前常用的 AI 训练策略主要围绕“自我对弈(self-play)”和“虚拟自我对弈(Fictitious self-play)”展开。
自我对弈是一个开放式的学习过程。在训练时,人类只需要设定好游戏规则和环境,让 AI 不断跟自己对打,就可以使其逐渐熟悉游戏规则,掌握获胜要领,从而不断提升游戏水平。
图 | 自我对弈和引入 Exploiter 的区别:后者可以帮助 AI 主体制定更全面的策略(来源:DeepMind)
但自我对弈也存在局限性,AI 可能会因为掌握了新的获胜技巧,而忘记之前学习的、与现有技巧矛盾的技巧。
为了解决这一问题,“虚拟自我对弈(Fictitious self-play)”策略诞生了。OpenAI 开发的 OpenAI Five 就是基于自我对弈等策略学会了如何打 Dota,在有条件限制的前提下战胜了人类 Dota 2 职业队伍和世界冠军。
DeepMind 研究团队一开始也是用这种方式训练 AlphaStar,但他们发现 AI 的竞技水平似乎达到了瓶颈,无法突破,于是他们发明了一种新的“联盟训练(League Training)”策略。
前面提到的 Mid 和 Final 版本都是联盟训练策略的产物,只不过 Mid 训练了 27 天,Final 训练了 44 天,两者天梯相差 1000 分左右。
这种策略借鉴了人类玩家提升水平时使用的办法:寻找训练伙伴,以组队的方式训练。有些队友存在的意义不在于替代玩家击败对手,而在于帮助玩家发现缺点或者训练特殊战术,从而提升竞技水平。
图 | 在 Exploiter 的帮助下,AI 主体学会了应对速推流(来源:DeepMind)
研究人员在“联盟”系统中设计了三种 AI 代理类型。
一类是 AI 主体,使用“优先虚拟自我对弈”机制,目的就是为了获得胜利。剩下两类都是训练伙伴,被称为 Exploiter(漏洞发现者),其中一类负责寻找 AI 主体存在的漏洞,比如对战过程中过分追求微操作而忽视了经济发展,鼓励 AI 主体改进这些弱点;另一类则负责寻找联盟系统的漏洞,矫正系统整体的发展方向。
简单来说,DeepMind 认为仅仅告诉 AI“你必须要赢”是不够的,因此给 AI 安排了两个专门挑刺的训练伙伴组成一个联盟,专门找出 AI 打游戏时哪里做的不好,再反馈给 AI,帮助它改进这些缺点。由此看来,这两个伙伴更像是扮演了教练的角色。
研究人员强调,为了保证训练伙伴的多样性和 AI 主体的学习速度,两个 Exploiter 会定期重新初始化。
模仿人类
DeepMind 还指出了 AI 打星际时的另一个难题:探索(Exploration)。
星际 2 有着复杂多变的环境,在一个时间点可以执行的动作空间高达 10^26 种,哪些行动可以带来胜利,哪些行动会导致失败,AI 不可能在短时间内穷尽,在零基础的前提下想要从中寻找获胜之道非常困难。
虽然 DeepMind 给三个种族训练了三个独立的神经网络,保证其战术的独特性和一致性,但同一种族的开局仍然存在很多不同的打法,是稳扎稳打攀科技,还是直接速推对手,很多时候都要根据局势改变已有策略,见招拆招。
图 | AI 主体找到了克服缺陷的办法(来源:DeepMind)
因此 AlphaStar 在训练前期就使用了模仿学习(Imitation Learning)来学习人类策略,模仿人类的打法,然后在自我对弈过程中不断摸索和开发新的策略,但也会在一定程度上更偏向模仿人类策略,不会只遵循一种开局方式。
除此之外,研究人员还用到了离线强化学习(off-policy),用过去游戏中总结的策略更新和完善现有策略。
“AI 可以自己制定不同于人类的策略,这很令人兴奋。现在对 APM 和视野的限制将 AI 和人类拉到了相似的起点,让游戏更具吸引力了。不过作为职业选手,我仍然可以发现它存在某些弱点,”星际 2 职业选手 Grzegorz "MANA" Komincz 表示,他曾是 AlphaStar 的手下败将。
归功于模仿学习、强化学习和联盟训练策略,DeepMind 训练出了“完全体”AlphaStar,尽管仍然存在漏洞,但从只会一个种族到全种族称霸,从因为 APM 饱受争议到限制 APM 晋级宗师,AlphaStar Final 的表现的确令人刮目相看,甚至有可能启发人类玩家开发新的战术。
不过成为星际 2 宗师并非 DeepMind 团队的最终目标,他们希望借助复杂多变的游戏世界测试 AI 系统的潜力,试图找出通向通用人工智能技术的核心要素,将类似的 AI 系统转化成具备实用价值的、为人类服务的工具。
DeepMind 还放出了 AlphaStar 的对战视频,链接如下:
https://deepmind.com/research/open-source/alphastar-resources