提醒一下,即将过去的2017年人类在这些游戏里彻底输给了AI

2017 年即将结束,这一年,人工智能领域被炒得火热,那么有哪些新的技术和进展?一起来看哪些人工智能再度刷新你的认知!

AlphaGo 升级版:AlphaGo Zero

去年 3 月,谷歌旗下 Deepmind 公司研发的围棋程序 AlphaGo,以 4 比 1 的成绩战胜韩国职业棋手李世石。一年后,完全靠自学的AlphaGo Zero,在今年 10 月又以 100 比 0 的战绩碾压前辈 AlphaGo。

AlphaGo Zero 通过 8 小时自我训练战胜李世石版本 AlphaGo; 12 小时自我训练战胜世界顶级国际象棋程序 Stockfish;14 小时自我训练战胜世界顶级将棋程序 Elmo。

AlphaGO 的重要开发者黄士杰称,AlphaGo 成功的背后是结合了深度学习(deep learning)、强化学习(reinforcement learning)与搜索树算法(search tree algorithm)三大技术。

简单来说,当时的 AlphaGo 有两个核心:策略网络(policy network)和评价网络(evaluation network),这两个核心都是由卷积神经网络(convolutional neural network)所构成。

首先向“策略网络”中输入大量棋谱,机器会进行监督式学习,然后使用部分样本训练出一个基础版的策略网络,以及使用完整样本训练出进阶版的策略网络,让这两个网络对弈,机器通过不断新增的环境数据调整策略,也就是所谓的强化学习。

而“策略网络”的作用是选择落子的位置,再由“评价网络”来判断盘面,分析每个步数的权重,预测游戏的输赢结果。当这两个网络把落子的可能性缩小到一个范围内时,机器计算需要庞大运算资源的负担减少了,再利用蒙特卡洛搜索树于有限的组合中算出最佳解。

但 AlphaGo Zero 与 AlphaGo 不同,它没有被输入任何棋谱,而是从一个不知道围棋游戏规则的神经网络开始,仅通过全新的强化学习算法,让程序自我对弈,自己成为自己的老师,在这过程中神经网络不断被更新和调整。

黄士杰说,“计算机围棋 AI 的价值在于帮助人类或棋手扩展围棋的理论和思路,未来 AI 是人类的工具,跟人类合作,而非跟人类对抗。强人工智能还是 Far Away,现在最强的学习技能仍在人类的脑袋里”。

牌场一霸:Libratus战胜4位德州扑克顶级选手

在今年 1 月宾夕法尼亚州匹兹堡的 Rivers 赌场,由卡耐基梅隆大学团队研发的人工智能系统 Libratus 和 4 位德州扑克顶级选手展开了一场为期 20 天的鏖战,经过 12 万手牌的比赛,Libratus 获得了最终胜利,赢取了 20 万美元的奖金。

无限德州扑克是一种“不完全信息博弈”(Incomplete information game),相较于围棋难度更大,因为它不仅信息缺失非常严重,而且策略以及心理等因素都能影响胜局。

Libratus 的策略并非基于专业玩家的经验,所以它的玩牌方式有明显的不同。研发团队采用了一套叫做Counterfactual regret minimization(反事实的遗憾最小化)算法 。

利用在匹兹堡超级计算机中心大约 1,500 万核心小时的计算,它会先让 Libratus 反复地进行自我博弈,随机地玩上万亿手扑克,不断地试错,建立自己的策略,最终达到顶尖扑克玩家的水平。

Libratus 可以通过强大的计算和统计能力,把各种打法杂糅,并通过推理对其进行任意排列,将下注范围和随机性提高到人类牌手无法企及的程度,让人类玩家难以猜测电脑手中到底握有什么样的牌。

尽管开发者对 Libratus 运行方式的公开有所保留,但人们不难判断,研发团队会每晚利用超级电脑来分析白天的比赛,以提高 AI 系统性能。AI 系统会检测自身在每轮比赛中的弱点,每天补救最明显的失误,最终赢得比赛。

AI制霸电竞: Open AI 完虐《Dota2》

8 月 13 日,作为 2017 年度电竞游戏《Dota2》赛事中分量最重的一个,“TI7 国际邀请赛”在美国西雅图钥匙球馆正式落下帷幕,中国的 NewBee 战队最终以 0:3 的总比分不敌欧洲劲旅 Liquid ,无缘捧起冠军神盾。

本届赛事看点颇多,既有“李逵”(Liquid)战队在败者组完成 1 穿 6 并最终夺冠的梦幻童话,同时也有着中国 Dota 战队再一次与世界冠军失之交臂的悲情戏码。只不过这些在以彩蛋形式亮相的 Open AI 面前,都只能沦为配角,因为它的出现,宣告了人工智能正式向《Dota2》这款游戏进军了。

抱歉 世界冠军惨遭无情吊打!

Dendi输了!

如果你玩过《Dota2》这款游戏,那么相信你或多或少的都会对这个名字有些印象。这位出生于 1989 年的乌克兰老司机,可以说是整个世界上最顶尖的电子竞技选手之一,曾经随队在第一届 Dota2 国际邀请赛(TI1)上夺得冠军,又在后面的两届 TI 上斩获亚军。

而就是这样一位有着强横实力的选手,却在 8 月 11 日正赛结束后的表演赛上输的如此彻底,而他的对手则是一个 U 盘,确切点说,是 U 盘当中装着的由 OpenAI 开发的 Dota AI。

比赛从号角响起的那一刻开始,便不再有悬念!一开局,OpenAI 就展现出堪称完美的卡兵技巧,而当双方正式交锋时,职业选手与人工智能之间的差距也开始明显地显现出来,无论是正反补兵还是技能施放,AI 对距离和时机都把握都更加准确,毫无迟疑。

根据 OpenAI 官方给出的数据,AI 每分钟的操作次数(APM)仅仅是人类的平均水准,换言之,AI 的每次出手收益都比 Dendi 更高,无效操作更少。

第一局,AI 利用假动作诱骗 Dendi 上前补刀并将其击杀,而第二局对战中,Dendi 更是因为前期的卡兵失误而痛失先手,比赛也在 AI 无限地优势滚雪球当中草草结束。两局对战两场虐杀,更重要的是它们加起来一共才不到 10 分钟。

扎心!独门招式让它们越来越强!比赛结束之后,OpenAI 的老板马斯克还在自己的 Twitter 上怒刷一波存在,并认为 OpenAI 第一次在电竞上完胜世界顶级选手这件事,可比象棋围棋要复杂的多。

当然,对于 OpenAI 的胜利,官方也公布了其独门秘诀,要知道它之所以强大的原因就在于它并没有通过模仿学习和搜索策略来进行训练,而是完全通过“自我对决(Self-Play)”的方式来提升自己的水平。并且在整个提升的过程当中,AI 从最早随机浑噩的状态逐渐进化到世界冠军级的单挑水准,仅仅花费了两周的时间。

AI玩《吃豆小姐》游戏突破临界的999990高分

微软研究人员创建了一个人工智能的系统,这个系统能够在 20 世纪 80 年代风靡全球的电子游戏吃豆人小姐(Ms. Pac-Man)中获得最高分,系统使用了分治策略来更大程度地影响 AI 代理,从而完美地通关游戏。

今年年初,微软收购了一家人工智能初创公司 Maluuba。Maluuba 公司团队运用强化学习技术(机器学习的分支),在吃豆人小姐游戏 Atari 2600 版本中表现完美。使用这种方法,该团队在这个游戏中得到的分数高达 999,990。

加拿大蒙特利尔的麦吉尔大学(McGill University)的Doina Precup 副教授表示,AI 研究人员的常常使用各种电子游戏来测试他们研发的系统,但研究人员发现吃豆人小姐游戏是最难攻克的。

为了在吃豆人小姐游戏中获得更高的分数,Maluuba 公司团队将操控吃豆人小姐游戏的大问题分解成若干个小问题,然后将小问题分发给 AI 代理解决。

Maluuba 团队将这种分治策略称之为混合式奖赏架构(Hybrid Reward Architecture),这个方法使用了 150 多名人工智能代理,每个代理与其他代理相互独立地精通吃豆人小姐游戏。比如,一些代理成功找到一个豆子将获得的奖励,而另外一些代理由于幽灵的存在必须呆在原处。

然后,研究人员在吃豆人小姐游戏中创建了一个顶级代理,就像一家公司的高级经理一样,顶级代理能够获得所有代理的建议,综合分析后由顶级代理来决定吃豆人小姐该如何移动。

顶级代理会根据选择各个方向前进的代理数量的多少来决定移动方向,但同时也需要考虑到代理想要往某个方向移动的反应强度。

例如,如果 100 个代理想向右边移动,因为向右边走是他们的最佳路径,但有 3 个人想要向左边移动,因为右边有一个致命的幽灵,但是这 3 个代理向左边移动的反应强度明显强于那 100 个想向右移动的代理,考虑到幽灵的存在,顶级代理应该决定向左移动。

研发能够通关吃豆人小姐游戏的 AI 是有目的的,该团队是想用它帮助公司的销售部门预测商品的潜在客户。有了 AI 系统预测的帮助,销售主管可以把更多的时间放在潜在客户身上,如此会提高出售机会,因为销售人员的目光已经瞄准了最容易下订单的客户。

从 AlphaGo 惊人学习能力,到牌场一霸 Libratus,从制霸电竞 Open AI 到 AI 吃豆能手,属于人工智能的 2017 年给了我们许多好奇、兴奋与惊喜。

AI 同我们之间的接触,变得愈发多元而亲密,如何处理人工智能和人类的关系、如何将人工智能未来发展变得可控、如何防止人工智能取代甚至是控制人类的讨论,也变得空前火热。

随着更大规模、更深度、更强交互性的机器学习,人工智能的能力极限将不断挑战我们的认知。未来学家们把 AI 做事方式不再受人类控制的时刻称为“奇点”。

霍金在今年全球移动互联网大会上表示,“人工智能的崛起可能是人类文明的终结,人工智能的崛起,可能是人类历史上最好的事,也可能是最糟的”。

而“硅谷钢铁侠”埃隆·马斯克,也频频发出“全球 AI军 备竞赛将导致第三次世界大战” “AI 比朝鲜核武器更危险” “AI 是人类文明存在的根本风险”等言论与担忧。

不可否认的是,在未来社会里,AI 可能会和水电一样,成为我们生活中的基础性资源。当 AI 变得足够聪明之后,势必会取代人类越来越高水平的工作,这是科技发展必然结果。

虽然很多工作人类也可以完成,但是在分工日益精细的当下,我们依赖于机器工作的精密与准确。在未来大部分工作都将由机器来完成时,我们收获的不仅是增强了操作机器的能力,还被赋予了为机器人寻找工作的未来任务。

面对即将到来的 2018 年,人工智能又将带领我们到达未来的何处呢?让我们拭目以待。