- Published on
「地球 OL 漫游指北」Vol.004 博弈论 101
- Authors
- Name
- Roitium
引入
高强度冲浪的你一定听过这个案例:囚徒困境。即警局逮捕了两名罪犯,但没有足够证据指控两人有罪。于是警局将两位罪犯分开分别审问。两位罪犯各自都有两种选择:背叛与保持沉默,合并来看有以下三种情况:
- 两人均背叛对方(互相揭发):各自获得 5 年刑期
- 两人均保持沉默:(由于警局没有可靠的证据),两人各自获得 0.5 年刑期
- 一方背叛,另一方沉默:背叛一方立即获释,沉默一方获得 10 年刑期。
站在上帝视角,聪明的你一定能想到:要想让两个人共同获利最多,那一定是选择均保持「沉默」,这样两方都只有半年刑期。但事实是,如果你站在某一位囚犯的视角上,显然选择「背叛」是最优的,最坏结果也就是 5 年刑期,不至于沦落到 10 年。于是双方都这样想,两人均获得 5 年刑期。
「囚徒困境」,便是经典的静态博弈模型;而「双方都背叛」这个决策,便是「纳什均衡」。什么?你说你这两个名词都没听过?没关系,这篇文章我们就会讲这两个概念。但在这之前,我们还需要先了解一下——到底什么是博弈论?
博弈论基本概念
定义
维基百科写的真不是人话,要让我来总结,基本就是:
研究理性的人在决策性的场景中如何做出决策的理论。
(这句话的重点在于博弈论中,我们假设参与者都是理性且自私的,就拿囚徒困境举例子,他们不会选择「沉默」,去赌合作的可能性,因为他们知道这么做会让自己有更大的风险。)
三要素
通过这句话,就可以提取出博弈论的「三要素」:
- 参与者 (Player):参与博弈的人
- 策略 (Strategies):在博弈过程中参与者选择的策略
- 回报 (Payoff):根据决策不同从而得到不同的回报
非常简单!我们终于可以开始学最简单的博弈类型了:完全信息静态博弈!
完全信息静态博弈
这个八个字的名词应该分开来看:
- 静态博弈:各方同时做出决策,或者说决策有先后顺序,但是在做决策时博弈者互相看不到其他博弈者的策略
- 完全信息博弈:即所有信息对于所有参与者都是公开的(包括可选策略、每个策略对应的回报等)
最经典的完全信息静态博弈就是囚徒困境,你还是否记得我提了一个名词——纳什均衡?这是咱们了解博弈论的基础工具,必须学习一下:
纳什均衡
定义与例子
「纳什均衡」以约翰·纳什1命名,是博弈论的核心基石。依旧先给出我的定义:
一个任何参与者单方面改变策略,且其他参与者不改变的情况下,该参与者都无法获得任何好处的情况,就被称为「纳什均衡」
没看懂?让我们继续利用囚徒困境的模型,但这次我们画一个表格:
囚徒 A:背叛 | 囚徒 A:沉默 | |
---|---|---|
囚徒 B:背叛 | (-5, -5) | (-10, 0) |
囚徒 B:沉默 | (0, -10) | (-0.5, -0.5) |
(表格中元组的第一项为囚徒 A 的刑期时长,第二项为囚徒 B 的刑期时长,数值越大即刑期越短)
好的,现在让我们以「双方都背叛」为基础,试试单方面改变某个人的策略:比如让囚徒 A 沉默,你会发现他的刑期变成了 10 年,改变 B 也同理。他们都无法通过只改变自己的策略来使自己受益,那么「双方都背叛」这个组合就是这个模型的纳什均衡点。
如何找纳什均衡?
所以,我们要怎么找到纳什均衡呢?
划线法
隆重请出:划线法!
让我们继续使用已经被提过不知道多少次了的囚徒困境:
首先,我们固定 A 的策略到「背叛」,然后逐一比较 B 的策略,发现对 B 来说最好的就是 5 年,我们在 5 下划线。同理,再固定 A 的决策到「沉默」,继续比较 B:
囚徒 A:背叛 | 囚徒 A:沉默 | |
---|---|---|
囚徒 B:背叛 | (-5, -5) | (-10, 0) |
囚徒 B:沉默 | (0, -10) | (-0.5, -0.5) |
同理,我们固定 B:
囚徒 A:背叛 | 囚徒 A:沉默 | |
---|---|---|
囚徒 B:背叛 | (-5, -5) | (-10, 0) |
囚徒 B:沉默 | (0, -10) | (-0.5, -0.5) |
结果显而易见:那个下方都被我们划线的组合,就是纳什均衡点。
如果策略组合很多,我们可以先删去严格劣势策略减少一部分可能性后再使用划线法。并且很显然,划线法对三人及以上参与者的博弈是不适用的,但受限于文章篇幅,先不讲了...
重复博弈:我要报仇!
那如果这个简单的博弈可以重复进行无数次呢?或许你听过那个很著名的策略:一报还一报(Tit-For-Tat),即你的下一次决策完全复刻对手的这次决策。听起来没什么实感?让我们举个例子感受下这个策略的优越和稳定性。当然,此时再用囚徒困境就不太合适了,因为大抵这世上没人想在监狱里玩这种重复博弈吧... 就让我们换个例子,这次,我们讲讲「两家面包店」的故事:
假设有两家面包店,他们每天都可以修改面包的价格,且只能改为高价(10 元)、低价(5 元)这两种价格,不同的价格有不同的收益:
面包店 B:高价 | 面包店 B:低价 | |
---|---|---|
面包店 A:高价 | (10 k, 10 k) | (2 k, 15 k) |
面包店 A:低价 | (15 k, 2 k) | (5 k, 5 k) |
(元组第一项为 A,第二项为 B)
与囚徒困境很类似,纳什均衡点就是都低价。但现在每一天都是新的开始!让我们看看假如你是面包店 A 老板,在第一天选择高价的情况下,如果使用一报还一报策略,会发生什么情况:
可能性一:完美合作
假如 B 老板是个老实人,第一天决定释放善意,选择出高价,你们都获得了最佳利润。第二天你同样复刻他昨天的策略,B 看到了你的善意,也决定继续合作。最终两人就会稳定地完美合作下去。
可能性二:一开始的背叛
假如 B 老板第一天动了歪心思,选择低价竞争,你在第一天亏的很惨。但第二天你复刻了他昨日的决策,选择「低价」,此时,你的最坏结果也不过是与对方「两败俱伤」。第三天,对方大概率已经看懂了你的决策方法,对方应该逐渐明白:最佳的方式应该是选择合作,一起出高价。
一报还一报为什么有用?
你或许会问:这个策略看起来也太简单了,真的有用吗?答案显然是肯定的。在 1980 年一位大学教授组织的囚徒策略比赛中,一报还一报是最终胜出的策略2。我搜到了一篇博客3,很认同里面提出的几点原因(不幸的是,中文互联网上我并没有搜到有关这个竞赛和这个策略的内容):
- 敏感性:这个策略在对手背叛自己后,就会立即也采取背叛策略,将自己的损失降到最低。
- 宽容性:他并没有彻底堵死合作的可能性,只要对手原意承担一点小损失,那么在「改邪归正」后咱们依然可以与对手建立合作。
- 简单性:这个策略太简单了,仅次于「全背叛」或「全合作」,在三局之后,对手基本就能摸清你的策略机制。
但需要注意的是,一报还一报在面对稳定、可预测的对手,且重复次数无限制时效果是最佳的,但如果你的对手有点「奇怪」,采用这种严格的策略有可能会陷入「背叛循环」,没有改出的机会。此时,采用宽容一点的策略如两报还一报才是更优解。
除了耳熟能详的囚徒困境,经典模型还有很多,比如猎鹿模型的重点在于「信赖」,只有当你们双方足够信赖对方时,才可能达成合作;鹰鸽模型的重点在于「竞争与收益的平衡」,即为了一个东西,我是否值得去强硬的竞争到最后。这些模型都很有意思,也能带来不同的思考。但考虑到篇幅,无法展开讲解了。
完全信息动态博弈
终于!我们来到了动态博弈部分,在这一章节,我们将会引入一个全新的变量:「顺序」,在现实中,双方往往不是同时做出决策,而是有顺序的,这就意味着后者可以看到前者做出的决策,这其实有点像下棋。
子博弈精炼纳什均衡
依旧设想一个场景:有 A、B 两家公司,前者是市场巨头,而后者是挑战者。博弈树长这个样子(元组第一项为 A 公司收益,第二项为 B 公司收益):

可以看到,这里面存在两个子博弈:整个博弈就是子博弈 C1,而在「进入市场」分支中还存在着一个子博弈 C2。
而解决动态博弈(找到最优策略)的关键,就在于寻找「子博弈精炼纳什均衡」,听起来很高大上?没错,记住这个名字,他就成了你茶余饭后、群内聊天吹水的谈资,但其实他的本质很简单:一个策略组合,它在每一个子博弈中都是一个纳什均衡。
所以... 到底要怎么寻找这东西呢?继续隆重请出新的嘉宾:逆向归纳法!
让我们再看向这个博弈树,顾名思义,「逆向」即为从最后一次决策(C2)看起,在这个决策中,显然作为一个理性的参与者,A 会选择与 B 合作。所以我们应该只保留 (5, 5) 这一个结果,把另一种分支“剪”掉:

接下来向前倒推 C1 决策,显然在 B 看来,「进入市场」是个收益更大的选择。所以,最终的均衡结果就是:B 进入市场,A 默许进入,双方瓜分市场。
最后通牒博弈
这是一个很著名也很有趣的实验:有两名玩家 A、B 和 a 元钱。实验者把这 a 元钱给 A 玩家,玩家 A 需要提出一个分配方案,将这些钱分给他自己和玩家 B。
玩家 B 负责做出选择:
- 接受:这 c 元钱按照 A 的提议分配
- 拒绝:两个人一分钱都得不到
现在让我们利用刚才学到的逆向归纳法,进行一次推理:

从 C2 看,只要 A 提议的 b>0,那么 B 就应该选择接受,保证利益最大化。再往上看 C1,由于 A 知道 B 会接受任何 b>0 的分配方案,所以他应该给 B 尽可能少的钱,保证自己的利益最大化。最终的均衡就是:(c=1 元, b=a-1 元)
但在实际实验的过程中,发现了两点差异:
- A 大部分情况下不会提出这么极端的分配方案,他知道会被对方否决导致自己什么都得不到。
- B 在 A 提出过于极端的分配方案时,确实会选择拒绝,或许是为了惩罚 A 的贪婪?
这实际上告诉我们:在大部分现实情况中,博弈论「理性人」的假设实际是不成立的,人们内在的道德感与公平感不允许做出完全自利的决策。
不完全信息博弈
在前面几个部分,每个参与者都能知道具体的游戏规则,不存在信息差,但这与现实相去甚远,在现实中,很多情况你根本不确定你的对手是谁(他的偏好、底牌什么的),我们把这些信息称为对方的「类型」。这时候,你就需要基于你已经掌握的对方的信息,形成一种「信念」(说人话就是概率),这个信念决定了在你的视角中,他某一类型的可信度。
解决这一问题的工具,是「贝叶斯纳什均衡」,其思想是:每个玩家都会根据自己对其他玩家“类型”的“信念”,来选择一个能最大化自己收益的策略。最终达成的纳什均衡,就是在一个所有人都根据自己的(概率)猜测做出了最优选择,且谁也不想单方面改变的状态。
信号博弈
一个经典的例子就是诺贝尔奖得主迈克尔·斯宾塞提出的「教育作为信号」模型。当时看到这一点时,有种恍然大悟的感觉:之前我不知道从哪里读到过一句话:「文凭溢价的本质就是信号传递+人力资本」,当时对「信号传递」有点模糊的感觉,但不清楚具体是什么,现在可算明白了。
求职者与公司之间,就是不完全信息博弈的关系。公司不知道求职者的能力高低,但求职者自己知道,那求职者要如何有效证明自己能力很强呢?答案就是通过「学历」传递信号!对于高能力的求职者来说,取得高学历的成本(付出的精力和时间)较少;而对低能力求职者则相反,付出的成本远远超出这个职位带来的回报,那他自然不会选择去获取这个高学历。这样,高学历就只有高能力者才会获得,那么当公司拿到这份学历时,自然就能获得它所传递的信号:这个求职者很牛批!
但问题也就出现在这里,或许你在获取这个学历的过程中所学的知识,在工作中根本用不上!你所做的一切,仅仅是为了向公司传递这个信号而已。
至于具体贝叶斯纳什均衡怎么计算,受限于文章篇幅和作者本人能力,在此就不详细展开了。
所以... 有什么用?
所以… 兜兜转转聊了这么多,从囚徒困境到纳什均衡,从重复博弈到最后通牒,一次次螺旋上升的概念,一个个晦涩难懂的名词,都解决不了一个疑问:博弈论对我们普通人到底有什么用?
它可能不会让你在下一次买菜时便宜五毛钱,也不会让你在一场争吵中“必胜”,甚至可能会让你意识到,许多情况下的“最优解”恰恰是自己的直觉无法接受的。
它仅仅是提供了一种不太常见的视角,让我们能以旁观者的视角看一些事。在陷入困境时,先退一步,试着看清棋盘的全貌:这是一个什么类型的游戏?是一次性的,还是会重复的?是零和博弈还是存在共赢可能的?参与者有谁,他们真正想要的是什么——是金钱、是尊严、还是稳定性?不同的决策收益,不同的预期,所对应的都是完全不同的模型,也往往有不同的对策。
结语
但写完这一切,说实话,我可能下次遇到这些事时也不会想着去拿笔列一下收入矩阵(这也太 nerd 了...),但或许,在学习的过程中,能多那么一点点正确的直觉?去思考不同的策略?能有这一点效果我就很满足了。