即时博弈里面的囚徒困境与无限重复下的优势策略

电话铃声响了,你接起来。

但是,“这该死的运营商!”网络断开了,电话连接中断,你想也没想就直接重拨过去。

“对不起,您拨打的电话正在通话中,请稍后再拨!sorry,the number you have dialed is busy……”

你忍不住骂出一声“shit!”。

第一次你接起电话,这是一个回合制事件;第二次你拨号的时候,这时候“打电话”这件事情,变成了你们两人的即时制事件。

在回合制事件之中,对方或者你先选择打电话,然后另一方接起来。但是在即时制的情况下,两人都面临两种选择——拨过去或者是等待对方拨过来。

这种时候总是会出现那种诡异的“神同步”:当你想打过去的时候,对方也想着要打过来;当你想着等对方打过来的时候,对方也在等待……

在即时制的事件之中,我们不得不在毫不知晓对方决定的情况下采取行动,等到彼此发现对方做了什么,再想做什么改变已经太迟了。

这种即时博弈,最为出名的就是“囚徒困境”,所有的即时博弈模型,近乎都是从这一原型之下推导而出。

一、囚徒困境

我们先简单介绍一个标准的囚徒困境模型。

警察抓住两个囚犯,现在要单独审问两个囚犯。并且因为某些法则,如果两个囚犯拒绝认罪,那么警方只能把两人各关两年。

如果一人坦白,另一方死不认罪的话,那么坦白的人将获得嘉许,当场释放。而嘴硬到底的那一人,则会被判刑五年。

如果两人都坦白的话,两人都将判刑三年。

我们将两个囚犯分别简化成A跟B,画出博弈论在分析即时博弈常用的博弈矩阵。如下:

其中,每个格子里面左下角是A的结果,右上角是B的结果。

二、优势策略

通过上面那张表单,我们可以看到,对A而言,认罪有两个结果:-3和0。而同时,不认罪的两个结果分别对应的是-5跟-1。

其中-3优于-5,0优于-1。

在这种情况下,我们将结果总是比较好的那一列所对应的策略,称之为优势策略。

我们简单理解一下这个优势策略的含义:不管对方怎么选择,优势策略的结果都要好过于其他策略。在上例之中,对A而言,B认罪的话,自己认罪得到-3,自己不认罪得到的是-5,认罪好过于抵赖;B如果不认罪,自己认罪得到的是0,不认罪得到的是-1,还是认罪得到的结果更好。

而另外的处于明显劣势地位的策略,称之为劣势策略。

我们划出一根线,消去那些所谓的劣势策略,得到这么一张图:

此时我们看到即时博弈里面有三个框之中都出现了删除的实线,最后只留下唯一一个框:两人同时认罪的框。

也就是说,这两个囚徒在追求自己最佳策略的时候,往往会得到两人双双入狱判刑的结局,这就是博弈论里面最为基础的囚徒困境。

三、纳什均衡

回到最开始我们提出的打电话的例子,我们假设电话打通双方收益都是1,打电话打不通两方的收益都是0。

画出博弈矩阵图:

有意思,你仔细观察,发现无论是对A还是对B,都没有一个优势策略:(0,1)的组合,跟(1,0)的组合比起来,显然是毫无优势。

这种情况下,我们没有办法消去所谓的“劣势策略”,整个矩阵还是四个情况摆在我们的眼前。

但是从两个人的整体上来看,两个(1,1)相对起(0,0)就是“双方的优势策略组合”,这两个结果下谁改变都对自己没好处。比如说A选择拨打,B选择等待,A此时改变自己的选择,从1到0,没好处,B从等待变成拨打,也会导致从1到0,也没好处。

这两种双方的优势策略组合可以称之为是纳什均衡:(拨打,等待)和(等待,拨打),就是这一博弈里面的纳什均衡。

好了,基本的概念性玩意儿到此为止。。(不能说看过一期概览连博弈论里面的一些基础定义都不清楚啊,很不想写这种乏味的概念陈述)

四、现实限制下的囚徒困境:惩罚

在前文之中的囚徒困境里面,那只是一个极度简化的模型,现实里面的情况比起模型要复杂许多。

起码我们看过那么多的香港电影、TVB剧,基本上没见过这么老实合作的“犯罪嫌疑人”,他们往往拒不认罪,为什么?

因为“惩罚”的存在。

前面我们提出优势策略的时候,0(无罪释放)相对于-1(关一年)是优势策略,但是这只是理想情况下,考虑到现实——万一放出来会被打,那无罪释放还是一个优势策略?

A此时的思考方式就成了,放出去一定会被认为是招了,那么自己的其他同伙一定会惩罚自己,那么此时,招供就不是一个优势策略。

牢狱的惩罚和出去之后同伴的打击报复,都是惩罚。如果同伴之间的惩罚来的更为严重的时候,不招供才是这种情况下的优势策略。

这也就出现了我们在电影里面经常碰上的情况,罪犯们往往宁愿蹲监狱都不大愿意招供,犯罪团伙的惩罚机制,有力的制止了其成员在被警察抓住之后选择“招供”的倾向性。

五、无限重复的囚徒困境

如果无限重复,用囚徒的例子已经不合适了。(牢底坐穿吗?)

还记得《自私的基因》概览么?放荡和羞怯的雌性个体,忠贞与薄情的雄性个体。

不过这里不用那个例子,为了简化,我们用一个银行家的例子。为了简化篇幅,直接上图:

如同上面的囚徒困境,合作是会被每个人删除掉的劣势策略。

但是如果这个游戏不是一轮位置,而是无限重复的时候,会是怎么样的局面?这个“重复博弈”更为复杂,但这个复杂性里孕育着希望。

这个时候,A跟B并不是敌人,虽然他们还是追求每个人的最大收益,但是对方不可能永远是傻瓜——选择合作,而自己选择背叛。

谁都清楚,无限的背叛下去,双方都讨不到好。

那么这就引入了一个新的词汇——信任。

我们会从彼此过去的行为中,判断对方是否值得信任,确定自己在这一轮里面打出什么样的策略,同时我们在事实上也监管着对方的行为。

我们可以信任、背叛这样循环,可以每十次信任打出一次背叛,可以……

哪种综合策略可以获得最好的收益?

六、针锋相对策略

阿克塞尔罗德(一个政治科学家)为此举办了一个实验:每个人提交自己的策略,把这些策略输入计算机,然后计算机让它们自动演化,在若干次循环之后计算每个策略的得分。

最后得分最高的是这么一个策略:针锋相对策略,又叫以牙还牙策略。(来自于心理学家和博弈学家阿纳托尔)

这个策略在第一回合会采取合作行动,之后每一步都会重复对手上一局的策略。

这一场比赛可以让我们明白一个事情:在重复的囚徒困境里面,善意和宽容是得到一个好结果的必须要素。

不过在这里,事后的研究却也认为,针锋相对策略并非是一个非常完美的策略,之所以在计算机的模拟之下能够获得最后的胜利,跟计算机的“从不犯错”有很大的关系。

这个策略有个致命的疏忽:误会。

设想一下,在现实里面使用针锋相对策略的时候,误会对方行为一次?(那么两个针锋相对者会无穷无尽的重复选择背叛下去)

针锋相对策略缺少的是一个宣布“到此为止”的方法。

具体在现实之中,作者也提出了一个比较复杂的策略,这个策略从合作开始,总共四条:

1、第一印象——第一轮就背叛的对方绝对不可接受,直接进入针锋相对策略;

2、短期——任何三轮当中出现两次背叛不可接受,转向针锋相对策略;

3、中期——过去二十轮之中出现两次背叛不可接受,转向针锋相对策略;

4、长期——过去一百轮当中出现五次背叛也是不可接受的,转向以牙还牙策略。

末、小结

总体来说今天这一篇文章还是比较多的掺杂了理论和概念,不过非常抱歉,这也是不得已而为之。

无论是囚徒困境、纳什均衡,还是无限重复的囚徒困境,这些是我们用知识去解释现实里面不得不涉及到的一些博弈论基础。

本周,将给大家带来明理系列第四期——现实世界里面的博弈缩影。

不管是在《自私的基因》里面出现的进化抉择倾向,还是当下热门的“消费升级”,甚至还有“房价问题”,这些都可以用前面提到的那几个博弈论的基础概念进行解释和预测。

读书不是为了读死书,而是为了用来构建我们的知识体系和预测机制。

明天,将给大家带来这一期概览系列的最后一篇——博弈之下的自由市场失灵。

在《国富论》之后,人们对自由市场经济里面那个“看不见的手”充满了盲目的信心,人们认为每个理性人在追求个人经济最大化的时候,同时也会让整个社会变的更好。

尽管一次次经济危机的出现让人们知道,这只看不见的手并非上帝他老人家的,但是我们依旧对其充满信心。

但是博弈之下人们的取舍,最终却总是会带来一些“并不是对所有人更好”的结局。

想要知道具体是怎么一些情况,还有为什么?那就期待明天的推送吧!

你的阅读时间就是最好的赞美。

关注我们,概览群书,长见识;修身明理,知是非。