最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛,非常兴奋。在同时期,还有一篇来自加拿大阿尔伯塔大学(Univ of Alberta)的文章介绍了DeepStack,同样在3000局的比赛中击败了几位职业玩家。这样在非对称信息游戏上人类再一次输给了AI。
当然有AlphaGo的先例,这个对广大吃瓜群众的冲击可能没有那么大。但我个人觉得非对称信息博弈的实用价值更大些。因为非对称信息博弈的应用范围非常广泛,涵括我们每天遇到的所有决策,上至国家战略,下至日常琐事,全都可以以同样的方法建模。
非对称信息博弈难在哪里?
一方面是因为对于同样的客观状态,各个玩家看到的信息不同,因此增加了每个玩家状态空间的数目和决策的难度;
另一方面即使在同样的状态数下,解非对称信息游戏所需要的内存也要比解对称信息要多得多,这个主要是对于对称信息博弈来说,只要记得当前局面并且向下推演找到比较好的策略就可以了;但对非对称信息博弈,只记得当前(不完整的)局面是不够的,即使盘面上的情况相同,但对手之前的各种招法会导致事实上局面不同,只有把它们全都罗列出来进行分析,才能保证想出的应对策略不被别人利用。
比如说玩石头剪刀布,在看不到别人出招的时候轮到自己出招,如果别人一直用石头剪刀布各1/3的混合策略,那自己就会发现好像怎么出招收益都是0,于是每次都出石头,但是这样的话,对手就可以利用这个策略的弱点提高自己的收益。所以一个好的算法就要求,基于别人已有策略得到的新策略尽可能地少被别人利用(low exploitability)。
这次的游戏是Head-up unlimited Texas Hold'em,直译过来是两人无限注德州扑克。所谓两人就是一对一的零和游戏,不是多人游戏。所谓无限注,就是在加筹码的时候可以任意加(比如著名的把全部筹码都押上的All in),而限注(limited),是指在加筹码的时候只能加一个固定的数字(通常是前两轮和大盲注一样,后两轮是大盲注两倍)。
转自:https://www.robot-china.com/news/202110/13/67687.html
人类文明就是在游戏中一次次地演化,试想,我国多少有些随意性遏制游戏,无形中自身的演化会逊人一筹。现实可见,90后00后的意识行为,遏制是没用的,应该引导。