Google又推出了完胜国际象棋和将棋的AlphaZero

Google 旗下人工智慧公司 DeepMind 又丢出一支重磅炸弹!其新研发的AlphaZero 在用了强劲的计算资源(5,000 个一代 TPU 和 64 个二代 TPU )之后,用不到 24 小时的时间自我对弈强化学习,接连击败了三个世界冠军级的程序 (国际象棋、将棋、围棋)。

AlphaZero 在经过 8 小时训练后首先完爆第一个打败人类的围棋 AI——李世乭版 AlphaGo;经过 4 小时的训练,打败了最强国际象棋 AI——Stockfish;经过 2 小时训练打败最强将棋 AI——Elmo。

AlphaZero自我对弈的训练时间

AlphaZero与围棋AI、国际象棋AI以及将棋AI对弈比分

对弈国际象棋程序Stockfish:28胜,72平;

对弈将棋程序 Elmo:90胜,2平,8负;

对弈围棋程序AlphaGo Zero:60胜,40负。

为什么AlphaZero能这么强大?

知名 AI 部落格作者,来自加州大学洛杉矶分校的 Adit Deshpande 解读了 AlphaZero 胜利背后的力量。他指出,机器学习领域分为三大类,即监督学习、无监督学习和强化学习。强化学习可以在不同的情景或者环境下学习采取不同的行动,以此来获得最佳效果。而 AlphaZero 就用到了强化学习。

AlphaZero 与其前辈 AlphaGo 相比有哪些突破?

据专家分析,在专业技术上,有以下三点突破。

第一,AlphaGo 只会考虑胜负两种结果,而 AlphaZero 还考虑到了平局。

第二,AlphaGo 会通过改变棋盘方向进行强化学习,但是因为国际象棋和将棋的棋盘与围棋不同,所以 AlphaZero 不依赖此方法。因此,AlphaZero 更通用。

第三,AlphaGo Zero 会不断选择胜率最好的版本替换,而 AlphaZero 则只更新一个神经网络。

专家也表示,AlphaZero 有突破也有局限:

局限之一是,他们研发 AlphaZero 是为了将其从围棋领域扩展到其它棋类,增强通用性,但是在方法上没有太多亮点。

局限之二在于,AlphaZero 在实际应用过程中还会不断遇到新问题。这源于强化学习应用于现实并不容易。比如,强化学习可以应用于研究新药品,新药品很多内部结构需要搜寻,之后制药,还要检测这种药品是否有效,这个过程很缓慢并且相当昂贵。

局限之三在于,AlphaZero 所运用的强劲的计算资源——5,000 个一代 TPU 和 64 个二代 TPU 价格相当高,曾有国际风投机构的投资人表示,这么贵的晶片,我也就是看看......

虽然有一定局限,但是科学家们对 AI 的探索从未停下脚步。DeepMind 就是先行者之一,好像登山一样,人们终有一天会登顶。