通过自我学习,新版AlphaGo如同屠杀般完胜旧版

2017极客大奖年度评选-极客网

通过自我学习,新版AlphaGo如同屠杀般完胜老版

credit 123RF

在AlphaGo横扫人类顶级棋手几个月后,人工智能棋手如今再次打破瓶颈,将以往的困难险阻化作大道坦途:最新版本的AlphaGo完全靠自学来实现前所未有的围棋策略。该项目的新一轮智能棋手被称为AlphaGo Zero,在不需要人为的输入任何有关围棋招法的情况下,仅仅三天的时间里,重新发明了人类棋手在数千年的下棋历史中所掌握的定式,以及从未被人类发现的更先进的围棋理念。通过将人工智能从对人类知识的依赖中解放出来,实现了突破智能机器自主思考限制的可能性。

人类使用两种方法教授早期版本的AlphaGo下棋。第一种被称为监督学习,研究人员为程序提供了10万盘业余顶级高手的对局,并教会了它模仿它所看到的内容。第二个,被称为强化学习,他们让程序自我发挥并从结果中学习改进。

AlphaGo Zero跳过了第一步。程序开始是一个白板,只知道围棋的基本规则,然后开始一个人和自己的对弈。起初,它将棋子随机放到棋盘上。随着时间的推移,它开始学会判断局势和利弊取舍。它还发现了围棋策略里的的许多规范要素,并发现了前所未有的新定式。密西根大学计算机科学家Satinder Singh说:“模仿人类的最好方式就是模仿人类,”他没有参与AlphaGo的开发, “在许多复杂的情况下,你也将永远受限于人类。”

经过三天的学习和490万次对局训练,研究人员令AlphaGo Zero与早期的AlphaGo对弈。 AlphaGo Zero以100:0悬殊比分赢下比赛。

对于专家来说,老版本的溃败十分惊人。纯粹强化学习似乎与围棋的计算复杂性格格不入,围棋比国际象棋要复杂得多:可以预期AlphaGo Zero将永远追求最正确的下一步,如此它应该花费大量时间用于计算。但实际情况相反,它迅速成长,如有神助。

高效的学习过程归功于反馈循环。像其前代一样,AlphaGo Zero通过称为“树搜索”的过程来确定要下一步走法。该程序从当前局面开始,并考虑后续可能的动作。并加入考虑其对手可以在未来棋路中施加的影响因素,最后找到可以应对的措施,……如此这般,创建一个分支树形图,模拟出不同组合的局面演化,从而导致不同的应对策略。

AlphaGo Zero无法遍历树的每一个分支,因为这将需要过多的计算能力。相反,它通过决定哪些路径似乎最有希望获胜来选择性地修剪分支。它可以根据早期的学习内容,计算出修剪哪些路径,以获得有助于引导向胜利的局势。

AlphaGo的早期版本也遵循这样的思路设计的。AlphaGo Zero的新能力是它会记住选择了某个搜索树的分支会导致怎样的游戏结果,而不是仅仅运行树搜索和照此运行结果移动。使用这些信息更新其对局面的评估,和选择不同落子位置的获胜概率。因此,下一次运行树搜索时,可以使用修正过的估计值,反复用以前的树搜索结果进行训练,一次次生成更好的估计值。到最后,它的每一步落子都会增加终盘时获胜的可能性。

既然AlphaGo Zero的能力是从极其大量的可能性中找到实现最佳可能性的路径,在发表在《自然》上的论文里,AlphaGo Zero的研发者表示,他们的系统可以在材料物理学中发挥作用——为了产生具有不同性质的材料,你需要弄清各种原子组合会产生什么结果;以及研究折叠蛋白质分子的性质——需要了解蛋白质精确的三维构架结构并确定其功能。

至于围棋,AlphaGo Zero可能引发了一场地震。迄今为止,还没有哪家游戏公司开发出世界级的围棋软件。 但是AlphaGo Zero可能会改变这一局面。美国围棋协会执行副总裁Andrew Jackson认为,指导人类下棋的围棋app不久就会出现在市场上。这将改变人类棋手训练的方式。它也会使作弊变得容易。

对于AlphaGo来说,未来是开放的。 围棋是一项非常复杂的智力活动,谁也说不清这套自我学习的程序未来可以达到何种高度; 现在能确定的是它掌握了一套学习方法来应对它爆炸性增长的复杂度,这也本来就是AlphaGo的存在意义。

本文译自quantamagazine,由译者 majer 基于创作共用协议(BY-NC)发布。

+加载更多