近日,2019 年 ACM 计算奖颁出,由于在计算机游戏领域取得突破性进展,“AlphaGo 之父”、DeepMind 首席科学家、伦敦大学学院教授 David Silver 获得最新一届的 ACM 计算奖。
David Silver 是深度学习领域的先驱人物,他在人工智能领域的一系列成绩中,又以带领打造了 AlphaGo 最为人所知:David Silver 通过巧妙地结合深度学习、强化学习、蒙特卡洛搜索树和大规模计算的思想,开发了 AlphaGo 算法,AlphaGo 战胜了顶尖的人类棋手,更是被公为人工智能(AI)研究的一个里程碑。
(来源:ACM)
根据 ACM 官方报道,最初,AlphaGo 会经过来自人类专业棋手经验的小范围训练,然后,它会通过强化学习来不断改善性能。AlphaGo 之后, David Silver 和他的团队创造了更新颖的方法,来实现更高的性能和通用性,AlphaZero 就此诞生。与 AlphaGo 不同,AlphaZero 完全通过与自己玩游戏来进行学习,不需要任何人类数据或先验知识(游戏规则除外)。而且,AlphaZero 同时在国际象棋、将棋和围棋游戏中有超过人类的表现,证明了其 AI 算法的通用性。
早在 David Silver 于艾伯塔大学(University of Alberta)攻读博士学位时,他就开始探索开发一种可以掌握围棋智慧的计算机程序,这也成为了他后续一直在专注的研究兴趣。在 2013 年的 NeurIPS 会议上,Silver 展示了一种算法,它可以在雅达利游戏中展现达到人类水平的技巧。这个程序学会了在游戏过程中仅仅通过观察像素和分数来玩游戏。
2015 年, David Silver 和他的同事发布开创性论文“Human Level Control Through Deep Reinforcement Learning ”,在这个研究中,他们将强化学习与人工神经网络相结合,论文发表在 Nature 杂志上,且至今被引用近 1 万次,对该领域产生了巨大影响。随后,Silver 和他的同事继续用新技术改进这些深度强化学习算法,这些算法仍然是机器学习中应用最广泛的工具之一。
2016 年 3 月,团队开发的 AlphaGo 击败世界围棋冠军李世石,这被被誉为 AI 里程碑式的时刻。同年,解析 AlphaGo 背后技术的论文 “ Mastering the Game of Go with Deep Neural Networks and Tree Search ” 公开发布在 Nature 杂志上。
AlphaGo 和 AlphaZero 之后,DeepMind 的游戏 AI 探索的另一个重点是征服《星际争霸 II》。就在去年,由 Silver 领导的 DeepMind 团队开发了 AlphaStar,它掌握了多人即时战略游戏《星际争霸 II》,这类游戏被认为是游戏 AI 需要攀登的高峰。
现在,在 DeepMind——这家谷歌旗下最星光熠熠的 AI 公司,David Silver 和他的同事仍在寻求将机器学习和神经科学方面的进展进行技术融合,以构建功能强大的通用学习算法。David Silver 在深度强化学习上的诸多工作也已被应用于提高英国电网效率、帮助谷歌数据中心降低功耗、为欧洲航天局策划太空探测器轨迹等领域。DeepMind 团队还将继续推进这些技术,并为其找到更多的应用场景。