继AlphaGo之后，AlphaGo Zero为何再次刷屏

人阅读

2017-10-19 18:08:00

相关关键词
- 人工智能
- AI

今天，谷歌旗下人工智能(AI)实验室DeepMind在Nature发布了这篇论文——在这篇名为《Mastering the game of Go without human knowledge》（不使用人类知识掌握围棋）的论文中，Deepmind展示了他们更强大的新版本围棋程序“AlphaGo Zero”， AlphaGo Zero是对著名的AI程序AlphaGo的改进和提升。

AlphaGo AI因在去年3月份击败了韩国世界围棋冠军李世石（Lee Sedol），又在今年5月乌镇围棋大赛时击败现任世界围棋冠军柯洁而名声大噪，但它依然无法与AlphaGo Zero相媲美，经过3天的训练，AlphaGo Zero就以100：0的比分完胜对阵李世石的那版AlphaGo。

继AlphaGo之后，AlphaGo Zero为何再次刷屏

AlphaGo Zero为何如此强大？

一、与自己对弈、自我学习

老版AlphaGo AI与AlphaGo Zero之间的主要区别在于，前者通过吸收人类数据学习下棋，而后者则不需要。之前所有的AlphaGo AI都是从网站上下载人类数据(业余和职业围棋)开始训练的。它们观看了数千场比赛，并被告知人类专家在某些位置上的特定动作。但是，AlphaGo Zero并不使用任何人类数据。相反，AlphaGo Zero通过与自己对弈学会了如何玩围棋，完全是“无师自通”。

继AlphaGo之后，AlphaGo Zero为何再次刷屏

据DeepMind AlphaGo项目首席研究员大卫·西尔弗（David Silver）介绍，AlphaGo Zero使用了一种新的强化学习形式，在这一过程中，它成为了自己的老师。它的起点是一个对围棋一无所知的神经网络，它会与自己进行数千场对弈。它所走的每一步棋就是把这个神经网络与强大的搜索算法结合起来，然后用它来选择下一个动作。

二、不断更新自身神经网络

被美国主流网络媒体BI称为谷歌DeepMind的无名英雄的西尔弗继介绍说：“在每场对弈结束后，AlphaGo Zero实际上都训练了一个新的神经网络。它改进了自己的神经网络，预测AlphaGo Zero自己的棋路，同时也预测了这些游戏的赢家。当AlphaGo Zero这样做的时候，实际上会产生一个更强大的神经网络，这将导致‘玩家’进行新的迭代。因此，我们最终得到了一个新版AlphaGo Zero，它比之前的版本更强大。而且随着这个过程不断重复，它也可以产生更高质量的数据，并用于训练更好的神经网络。”

三、依赖先进的算法

AlphaGo Zero使用的计算能力也比AlphaGo之前的版本要少得多，这表明，算法的进步远比计算能力或数据进步更重要。AlphaGo Zero是一项重大突破，它为DeepMind的研究赢得了更大的声誉。在AI研究领域，让机器在某些任务中成为“超人”，而不是为它们提供人类数据进行训练始终是一项长期存在的挑战。由于人类数据太昂贵、太不可靠或根本无法获取，从而导致AI研究进展缓慢。

西尔弗补充道:“由于不使用这些人类数据、特性或专业技术，我们实际上已经消除了人类知识的局限性。因此，AlphaGo Zero能够从最初的原则，从空白石板中创造知识，并制定出自己的策略，以及自己独特的下棋方式。这使它能够比以前的版本强大得多。”

尽管AlphaGo Zero的突破已让人惊叹，但是研究人员还远没有研究出像好莱坞电影中描述的《机械姬》（Ex-Machina）或《她》（Her）那样的AI。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）