经过数月的反复修改,DeepMind 最强棋类游戏 AI AlphaZero 的完整版论文终于在 Science 发表。
17 年 12 月发表在 arxiv 上的 AlphaZero 预印版论文就曾引发广泛讨论,但当时并未经过同行评议,如今经过过同行评议的 AlphaZero 完整论文的发布,将其再次拉回大众视野。
图丨此次论文对应的封面(来源:Science)
自从 DeepMind 的 AlphaGo 在围棋赛场上一战成名之后,这家 Google 旗下的人工智能公司并没有停止前进的脚步,又推出了实力更强的 AlphaZero,AlphaZero 首先经过 8 个小时的对世界顶级围棋棋谱的学习,就成功击败了与李世石对战的 AlphaGo ;又经过了 4 个小时的训练,它又击败了世界顶级的国际象棋程序——Stockfish;紧接着,又是 2 个小时的训练之后,世界上最强的日本将棋程序 Elmo 又败在了它的手下。
在不到 24 小时,同一个电脑程式就可以教会自己玩三种复杂的棋盘游戏,而且是超越人类的水平,这无疑是 AI 世界的新创举。
图|AlphaZero完整版论文(图源:Science)
对于此次发表在 Science 的论文,20 年前曾输给 IBM 深蓝的国际象棋世界冠军 Kasparov 今天也在 Science 发表评论,他认为 ,AlphaZero 不是用其惊人的速度来处理人类的指令和知识,而是可以生成自己的指令,并且 AlphaZero 还会形成自己下棋的风格。
从一开始,AlphaZero 就不是针对某一种棋类被专门开发出来的,在不同的棋类游戏中,它只是被传授一些基本的规则,但更高级别类似战略策略等则完全没有被传授,只凭借 AlphaZero 自己反复的从训练和实战中获得经验。
对此,DeepMind 的首席执行官兼联合创始人 Demis Hassabis 示:“AlphaZero 从完全随机的游戏开始学习,逐渐开始学会分辨游戏的好坏,并形成了自己对游戏的评价。从这个意义上来讲,它并不会受到人类思考游戏方式的限制。”
DeepMind 的目标一直是打造通用的 AI 机器,Hassabis 就曾表示,他希望能够帮助解决科学问题,像是设计新药、发现新材料等。而不仅仅是研发打败人类的象棋程序。
包括前几天 DeepMind 推出 AlphaFold 人工智能系统,能够快速准确地预测并生成蛋白质的空间结构,并在 CASP 蛋白质折叠大赛击败其余选手,摘得桂冠。这些都是 DeepMind 目前在健康相关方面的尝试。
Hassabis 表示:“AlphaZero 是我们通往 AI 成功之路的基石,DeepMind 的目标是利用 AlphaZero 的研发经验,解决真正具有挑战性的问题。”