Facebook田渊栋：德州扑克上战胜人类的AI究竟用的是什么算法？

楼主

curton

1049 主题
4635 帖子
20277 积分

身份：LV8 高级工程师

E币：5703

发消息

 1425

 1

发表于 2021-10-15 07:08:46

显示全部楼层

最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛，非常兴奋。在同时期，还有一篇来自加拿大阿尔伯塔大学（Univ of Alberta）的文章介绍了DeepStack，同样在3000局的比赛中击败了几位职业玩家。这样在非对称信息游戏上人类再一次输给了AI。

当然有AlphaGo的先例，这个对广大吃瓜群众的冲击可能没有那么大。但我个人觉得非对称信息博弈的实用价值更大些。因为非对称信息博弈的应用范围非常广泛，涵括我们每天遇到的所有决策，上至国家战略，下至日常琐事，全都可以以同样的方法建模。

非对称信息博弈难在哪里？

一方面是因为对于同样的客观状态，各个玩家看到的信息不同，因此增加了每个玩家状态空间的数目和决策的难度；

另一方面即使在同样的状态数下，解非对称信息游戏所需要的内存也要比解对称信息要多得多，这个主要是对于对称信息博弈来说，只要记得当前局面并且向下推演找到比较好的策略就可以了；但对非对称信息博弈，只记得当前（不完整的）局面是不够的，即使盘面上的情况相同，但对手之前的各种招法会导致事实上局面不同，只有把它们全都罗列出来进行分析，才能保证想出的应对策略不被别人利用。

比如说玩石头剪刀布，在看不到别人出招的时候轮到自己出招，如果别人一直用石头剪刀布各1/3的混合策略，那自己就会发现好像怎么出招收益都是0，于是每次都出石头，但是这样的话，对手就可以利用这个策略的弱点提高自己的收益。所以一个好的算法就要求，基于别人已有策略得到的新策略尽可能地少被别人利用(low exploitability)。

这次的游戏是Head-up unlimited Texas Hold'em，直译过来是两人无限注德州扑克。所谓两人就是一对一的零和游戏，不是多人游戏。所谓无限注，就是在加筹码的时候可以任意加（比如著名的把全部筹码都押上的All in），而限注（limited），是指在加筹码的时候只能加一个固定的数字（通常是前两轮和大盲注一样，后两轮是大盲注两倍）。

转自：https://www.robot-china.com/news/202110/13/67687.html

写原创有奖励！2025面包板原创奖励正在进行中

 举报



 

  1