文 / 伊丽莎白·帕格尔 – 霍根(Elizabeth Pagel-Hogan)
译 / 大萝卜
通常而言,说谎话会给你带来麻烦。但在扑克比赛中,说谎,也就是虚张声势,却可以帮你赢得比赛。扑克玩家通常要赌自己的牌比别人都好。有时候他们的牌确实不错,但有时候他们的牌并不好,但还是要虚张声势骗对手,让对手不敢下注。 那计算机在打扑克的时候会骗人吗? 它们能否识别出人类玩家是不是在虚张声势呢?
卡内基梅隆大学的科学家图奥马斯·桑德霍尔姆(Tuomas Sandholm)和诺姆·布朗(Noam Brown)就在研究这个问题。他们训练一台名叫“冷扑大师”(Libratus)的超级计算机打扑克,并参加了一场名叫“大脑对人工智能”的锦标赛。
与人类对战
桑德霍尔姆是卡内基梅隆大学的教授,布朗是他的博士生,他们俩是“冷扑大师”(Libratus)的创造者。 他们创造的第一个打得州扑克的AI程 序叫“克劳迪科”(Claudico),它在 2015年输给了专业人类玩家。桑德霍尔姆和布朗在此基础上改进了设计, 再次参加比赛,并取得了胜利。
科学家乐于训练计算机参加棋牌类游戏。早在1957年,卡内基梅隆大学的一位科学家就预测,在10年内,计算机在国际象棋上就能打败人类。这个预测有点儿过于乐观了,事实上,直到1997年,计算机才打败了世界国际象棋冠军加里·卡斯帕罗夫 (Garry Kasparov)。2014 年,一台名叫“AlphaGo”的计算机通过自主学习学会了下围棋,并打败了世界级大师。围棋可比国际象棋复杂多了。
2017年1月11日到1月30日,“冷扑大师”与4位专业人类玩家打了12万局一对一的无限注得州扑克。得州 扑克与国际象棋和围棋不同。在国际象棋和围棋中,你可以看到整个棋局,没有任何隐藏信息。但在得州扑克中,对手的牌你是看不到的。
要想与人类对战,“冷扑大师” 得首先学会得州扑克的规则。
游戏规则
在发牌前,玩家需要投注,这叫作盲注。然后,发牌员会给每位玩家 发两张正面朝下的牌,被称为底牌。 然后,每位玩家有三个选择:跟注(跟着之前的盲注下同样数额的注)、加注(增加投注),或者弃牌(放下自己的牌并退出当前牌局)。
然后,发牌员会发出三张公共牌, 放在桌子中央,所有人都可以看到, 这三张牌被称为翻牌。现在每位玩家就相当于有五张牌了:手中的两张牌, 再加上三张公共牌。由发牌员左边的玩家先下注,其他玩家依次操作,可以选择跟注、加注、弃牌或者看牌。
发牌员再发出一张公共牌,被称为转牌,再开启一轮投注。现在每位玩家共有六张牌,他们可以根据自己能看到的六张牌中最好的五张来选择投注。
接着,发牌员又发出一张公共牌, 被称为河牌,现在玩家可以根据七张牌里最好的五张牌来投注了。最后所有玩家翻开自己的底牌(叫做摊牌),通过一定的规则比较各自选择的五张牌的大小(叫做比牌),牌面最大的玩家可以赢得底池中的所有筹码。
不过,如果其他所有玩家都弃牌了,只剩一位玩家,那就不必摊牌和比牌了,唯一没有弃牌的玩家自动获胜。“一对一的无限注得州扑克”的意思是只有两个玩家参与,而且投注的金额不设限,玩家可以把自己所有的筹码都投进去,这叫做“全部押上”。
布朗说:“我们并没有告诉‘冷扑大师’怎么打牌,我们只是告诉它游戏的规则是什么样的而已。一对一无限注得州扑克是个极其复杂的游戏。”
AI的策略
桑德霍尔姆和布朗不可能给“冷扑大师”输入所有可能的情况,一一 告诉它每种情况下应该怎么做,因为得州扑克可能出现的局面太多了。
因此,他们编写了一个算法,让“冷扑大师”能即时计算出每一步采取什么策略。算法就是给计算机设定的一系列步骤,让计算机遵循这些步骤去解决问题。在这里,计算机要解决的问题就是打扑克。
有了这个算法以后,“冷扑大师” 就可以自己和自己对战了。
“我们让AI自己和自己对战几 百万个回合。”布朗说,“在这个过程中,AI可以积累经验。它可能会尝试一些新策略,看看是否有效。然后评估自己的决策,看看能不能做些别的什么事情让自己更有可能成为胜利者。”
在得州扑克里,运气和技巧都很重要。你拿到的牌有大有小,哪怕是世界上最差的玩家,如果拿到一手好牌,也可能在一局中战胜世界冠军。 但随着玩的次数增加,运气就不那么 重要了,策略就成为能否取胜的关键。 通过上百万次的训练,“冷扑大师” 渐渐形成了自己的策略。
如果“冷扑大师”的牌好,它可以下很大的注,然后赢很多钱。这种策略让人类玩家很是吃惊。
“一个有趣的结果是,AI发展出了一种与众不同的技巧,似乎有悖于人类玩家的常识。人类玩家在下注时通常比较谨慎,如果底池里只有200 美元,他们不会下20000美元的注。” 布朗说,“但AI不会感到害怕,如果它觉得下20000美元的注是正确的,就会毫不犹豫地下注。”
虚张声势
“冷扑大师”的策略也包括虚张 声势。
“AI并不认为虚张声势是欺骗,”布朗说,“它只是把它当作取胜的方法之一而已。”
有一局,AI最好的结果是等到一张同花色的牌形成一手同花,但它抽到的牌却根本没用。 “这个时候,它并没有认输,而是下了一个极大的注,想让对手弃牌。 而AI的人类对手杰森就感到很难做出决定:如果他决定跟注,他可能会输掉20000美元;而如果弃牌,他会损失3000美元。苦思冥想了10分钟以后,杰森决定弃牌。这样一来,AI就成功地通过虚张声势获得了胜利。” 布朗解释道。
不过,“冷扑大师”也很小心, 从不过度使用这种虚张声势的办法。
布朗说:“有时,它在牌特别好的时候也只下注一点点金额,甚至根本不下注,而是尝试骗对手大额投注。 它在大额投注的时候有可能是在虚张声势,也有可能真的牌特别好,因此对手猜不出来它是不是在骗人。我们给这个AI起的英文名‘Libratus’,在拉丁语里就是‘平衡’的意思。”
在锦标赛结束的时候,“冷扑大师”共赢了180万美元的筹码。跟它对战的人类玩家十分痛苦,每天都会 输。不过他们也没有白来:最终,人类玩家分享了20万美元的奖金,还从AI身上学会了一种新的策略。
“这场比赛后,参赛的人类玩家都说,他们以后会更多地下大一些的赌注,这样可能会提高获胜的几率。” 布朗说,“他们觉得,在与这么强的对手对战之后,再和别的人类玩家比赛,都是小菜一碟了。”
最终的目标
在AI已经学会了完美的策略,甚至还会骗人之后,人类还有可能在得州扑克上打败 它吗?布朗觉得这是不可能的, 但人类还是有一些优势的。
“人类可以轻易找出对手的弱点,并利用这个弱点打败对手。”布朗说,“如果‘冷扑大师’和人类玩石头剪刀布,人类可能会注意到对手总是出石头,这样他们就会更多地出布。”在扑克牌局里,相比AI,人类玩家更容易找出对手的弱点,并针对对手的弱点制定策略。
对科学家来说,研究会打扑克的AI并不是为了赢钱,也不是为了取得胜利。他们希望以此证明,即使是在无法获得全部牌面信息的牌局上,AI也能制定出必胜的策略。
“研究AI的最终目标是把它应用于真实世界,而真实世界就跟扑克一样,有隐藏的信息。”布朗说。科学家可以把从“冷扑大师”身上学到的 经验应用在其他领域,如商业、军事 和医学,这些领域同样需要人们在信息不完整的情况下做出决策。
本文作者:伊丽莎白·帕格尔–霍根是一位作家,生活在美国宾夕法尼亚州的匹兹堡。她喜欢各种类型 的游戏。她有三个孩子,孩子骗人从来都逃不过她的眼睛。
原文刊登于《好奇号》2020年5月刊
- 上一篇:如何开采金矿?
- 下一篇:悬浮的高速列车,你敢坐吗?