登上 Science ， AlphaZero完整论文首次发布

经过数月的反复修改，DeepMind 最强棋类游戏 AI AlphaZero 的完整版论文终于在 Science 发表。

17 年 12 月发表在 arxiv 上的 AlphaZero 预印版论文就曾引发广泛讨论，但当时并未经过同行评议，如今经过过同行评议的 AlphaZero 完整论文的发布，将其再次拉回大众视野。

图丨此次论文对应的封面（来源：Science）

自从 DeepMind 的 AlphaGo 在围棋赛场上一战成名之后，这家 Google 旗下的人工智能公司并没有停止前进的脚步，又推出了实力更强的 AlphaZero，AlphaZero 首先经过 8 个小时的对世界顶级围棋棋谱的学习，就成功击败了与李世石对战的 AlphaGo ；又经过了 4 个小时的训练，它又击败了世界顶级的国际象棋程序——Stockfish；紧接着，又是 2 个小时的训练之后，世界上最强的日本将棋程序 Elmo 又败在了它的手下。

在不到 24 小时，同一个电脑程式就可以教会自己玩三种复杂的棋盘游戏，而且是超越人类的水平，这无疑是 AI 世界的新创举。

图|AlphaZero完整版论文（图源：Science）

对于此次发表在 Science 的论文，20 年前曾输给 IBM 深蓝的国际象棋世界冠军 Kasparov 今天也在 Science 发表评论，他认为，AlphaZero 不是用其惊人的速度来处理人类的指令和知识，而是可以生成自己的指令，并且 AlphaZero 还会形成自己下棋的风格。

从一开始，AlphaZero 就不是针对某一种棋类被专门开发出来的，在不同的棋类游戏中，它只是被传授一些基本的规则，但更高级别类似战略策略等则完全没有被传授，只凭借 AlphaZero 自己反复的从训练和实战中获得经验。

对此，DeepMind 的首席执行官兼联合创始人 Demis Hassabis 示:“AlphaZero 从完全随机的游戏开始学习，逐渐开始学会分辨游戏的好坏，并形成了自己对游戏的评价。从这个意义上来讲，它并不会受到人类思考游戏方式的限制。”

DeepMind 的目标一直是打造通用的 AI 机器，Hassabis 就曾表示，他希望能够帮助解决科学问题，像是设计新药、发现新材料等。而不仅仅是研发打败人类的象棋程序。

包括前几天 DeepMind 推出 AlphaFold 人工智能系统，能够快速准确地预测并生成蛋白质的空间结构，并在 CASP 蛋白质折叠大赛击败其余选手，摘得桂冠。这些都是 DeepMind 目前在健康相关方面的尝试。

Hassabis 表示：“AlphaZero 是我们通往 AI 成功之路的基石，DeepMind 的目标是利用 AlphaZero 的研发经验，解决真正具有挑战性的问题。”