德扑人机大战AI完胜人类不过会下围棋会打扑克距AI商业化还很远

导读：经过五天的鏖战，德州扑克人工智能系统Libratus毫无悬念获得最终胜利。在这场德州扑克人机大战中，中国龙之队的六位牌手共与冷扑大师打了36000手牌，共输792327分，AI完胜人类。

4月10日，“冷扑大师V.S.中国龙之队——人机扑克巅峰表演赛”落下帷幕。经过五天赛事，冷扑大师最终以792,327总记分牌的战绩获胜，200万奖励归属冷扑大师。

五天下来冷扑大师累计赢得792,327记分牌数，平均22.0每百手损失大盲

此次人机扑克大战巅峰表演赛的发起人、创新工场CEO、人工智能工程院院长李开复表示：“透过冷扑大师和龙之队表演赛的对战结果，人机对战基本没有悬念了，据闻AlphaGo近期即将来华和柯洁对战，其实已经不再具有科学意义了。”

围棋和德州扑克代表了AI处理人机对弈的两种信息模式——完美信息和不完美信息。在博弈论中，完美信息指后参与者可观察到前参与者的行为。不完美信息指参与者做选择的时候不知道其他参与者的选择。

冷扑大师背后是由卡内基梅隆大学Tuomas Sandholm教授发明的人工智能Libratus，和AlphaGo不同，Libratus不需要提前背会大量棋谱，也不局限于在公开的完美信息场景中进行运算，而是从零开始，基于扑克游戏规则针对游戏中对手劣势进行自我学习，并通过博弈论来衡量和选取最优策略。

AlphaGo也通过和自己下棋来学习，但在此之前会分析人类玩家的棋谱学习，再和自己下棋来提高棋艺。

在此次比赛和1月匹兹堡的两次德扑人机对战中，Libratus和冷扑大师在三个主要技术模块中都使用了新的算法：包括比赛前采用近于纳什均衡策略的计算（Nash Equilibrium strategies）、每手牌中运用终结解决方案（Endgame Solving）、以及根据对手能被识别和利用的漏洞，持续优化战略打得更为趋近平衡。

这也是冷扑大师在后程越来越凶悍，让人类玩家难以抵挡的原因之一。在五天的巅峰表演赛中，冷扑大师和中国龙之队双方共完成了36,000手牌，每天鏖战10个小时。

比赛首日中国龙之队与冷扑大师的积分差距为65,137记分牌，第二日人类落入低谷，差距347,565记分牌、第三日差距233,874记分牌、第四日人机大幅拉近为98,408记分牌、完赛日47,343记分牌，五天下来冷扑大师累计赢得792,327记分牌数，平均22.0每百手损失大盲。

积分差距

中国龙之队队长杜悦在谈到五天的比赛感想时表示，“人工智能在对战时不会受到情感、心理、体能等因素影响，且强大运算能力远超人类大脑，不得不承认冷扑大师很多手牌打得令人拍案叫绝”。

对此，创新工场李开复博士说，人工智能发展势不可挡。“我认为，未来的人工智能领域不再是几个小伙伴就可以打天下的时代了，而是需要顶尖的人工智能科学家、海量数据、强大的运算能力、以及清晰行业应用几大闭环。”

李开复表示，希望冷扑大师对战龙之队这场人工智能的里程碑事件将推动人们对于人工智能的认知，人机扑克对战中，我们看到了在尔虞我诈、概率不确定、非完美信息需要推理和情商的游戏里，机器一样可以获胜，而类似的场景在真实世界中比比皆是。人工智能已经不再只和AlphaGo对标，人工智能已从不完美信息的处理，进步到对不完美信息海量信息运算，并具备了推理和学习能力。

他强调，“我期待下一个更加高明的AI大师级应用登场，而我更愿意相信，这些应用会来自优秀的年轻创业者，而不是诸如BAT等的科技巨头黑洞”。

会诈唬的AI

Libratus是一个玩无限德州扑克的人工智能程序，Libratus的策略并非基于专业玩家的经验，所以它的玩牌方式可能有明显的不同。基于在匹兹堡超级计算机中心大约1500万核心小时的计算，它使用算法分析德州扑克规则，从而建立自己的策略，而且它能够在比赛中，通过预测所有未来步骤的胜率来思考自己的下一步。

与围棋强调计算和形式判断能力不同，德州扑克更讲究多人博弈过程，如何避免人性贪婪等弱点，并将科学的概率统计与灵活的实战策略很好地配合起来。在围棋、象棋等游戏中，机器和人类在决策前可以获得全部信息，而在德州扑克中，彼此无法得知对方的底牌是什么，也不知道发牌员发出的下一张牌是什么，在“不完整信息”下，人工智能需要根据经验或概率统计知识，猜测对手底牌和下一张牌的可能性，然后再制定自己的应对策略。

“如果AlphaGo是一个超级天才，冷扑大师CMU系统其实一定程度上是一个EQ专家，是靠EQ来打败你。”李开复表示。表演赛为求降低发牌中的运气因素，机器人采用复式对称发牌，两两成对的牌手其中一人将拿到与配对牌手对打的机器人底牌，因此六名牌手将拆分于两个房间和冷扑大师对阵，比赛过程中还必须确保配对牌手彼此不能碰面交流。在整个比赛中，冷扑大师也经常出现一些“诡异”的打法，例如时常超池下注，给对手造成极大的压力，并做出人类出于心理原因做不到但是正确的bluff（诈唬）。

“AI利用增强学习技术，从自我对局中学习最优的扑克玩法，而避免从人类的既定模式中学习经验，这是非常重要的一点。”李开复表示。不过，据了解，目前Libratus的算法还只适用于无限制投注的一对一比赛，如果将比赛扩展到更常见的多人制比赛，Libratus面对的挑战会更大一些，还需要进行策略上的升级与调整。

人工智能应用挑战

正如马云所提及的疑问一样，人工智能打败人类围棋大师，所以会打扑克的人工智能在解决更为广泛的现实问题方面又有哪些价值？在李开复看来，世界上大部分的信息还不是公开的，冷扑大师在面临不完全或误导信息时的推理能力，未来能够解决在决策、外交、商业合作、谈判方面的不确定性问题，成为人类的“参谋”。

但如同谷歌人工智能大胜人类围棋大师，使得AlphaGo的能力被充分认知，但在商业化方法和能力方面却并不明显。以AlphaGo为例，需要学习数量庞大的棋局才可以掌握有效的下棋技巧，而冷扑大师目前的对战形式也是一对一，而现实生活中德扑是多人游戏，多人游戏在计算上的复杂程度是目前冷扑大师所无法胜任的。

人工智能和冷扑大师所提炼出来的人工智能技术如何发挥其商业价值，李开复认为仍需要满足三个条件：海量的数据、数据有标注、单领域。例如在金融领域，金融是虚拟的、由人创造的，数据量庞大且天生带有标注，譬如股票的涨停、小额贷款是否还钱、买了保险后是否出事都是一种标注，这使得AI在放贷、银行、投资、保险方面具有潜力。

“相较于告诉人们人工智能能做什么，目前更重要的反倒是告诉人们，人工智能不能做什么。”地平线机器人技术创始人兼首席执行官余凯曾向第一财经记者表示，在他看来，人工智能进一步拓展的首要挑战就是数据不足的问题。众所周知，人工智能是建立在海量数据基础之上，通过大数据训练，来优化算法模型，以人脸识别技术为例，训练这一算法模型需要至少百万级别的图片数据。

目前，人工智能主要是监督式学习，有监督的训练就需要带标签的数据，因此数据的质量和精准度与输出结果密切相关。“如何剔除数据中的噪音、垃圾信息，获取优质且带有标签的数据成为新挑战，这其中就涉及到无监督式学习或者半监督式学习。”地平线机器人技术联合创始人、算法副总裁黄畅说。

另一大挑战在于深度学习的推广和场景迁移能力不足，每个领域的数据都需要重新收集、标准和再训练，很难进行跨领域推广。这些挑战也是人工智能工业界和学术界急需突破的问题。“在招聘的过程中，懂得深度学习的人很多，而懂得迁移学习、增强学习，具备思辨能力的人很少。”第四范式创始人、首席执行官戴文渊告诉记者。

在实际应用层面，人工智能仍有很长的路要走。正如李开复在比赛结束后的回应一样：“人工智能已从完美信息的AlphaGo，延伸到了不完美信息的冷扑大师，人机对战基本没有悬念了，据闻AlphaGo近期即将来华和柯洁对战，其实已经不再具有科学意义了，以后更应该关注商业领域的人工智能，在金融、医疗、教育等领域产生的商业价值。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）