Frontiers for Young Minds

Frontiers for Young Minds
菜单
核心概念 数学与经济 发表时间 2023年04月27日

博弈论与合作: 互利共赢?

摘要

一个 20 世纪 30 年代的著名棒球运动员里奥·杜罗切曾说: ''好人总是排到最后。'' 这在棒球上可能是对的, 但更普遍地来说在生活中并不正确。本文使用 ''博弈论'' 来研究一种叫做 ''囚徒困境'' 的情境。这种情境说明了人们为何总是不能很好地合作。博弈论告诉我们, 善良可信的人具有策略上的优势, 因为他们能通过 ''改变博弈'' 来摆脱囚徒困境, 并让包括他们在内的所有人获得更好的结果。因此, 真正说来应该是 ''好人总是排在最先'' 。

无处不在的博弈

''没有人是一座孤岛。'' (约翰· 邓恩, 十七世纪英国诗人)。

当人们谈到 ''游戏'' 时, 他们通常说的是某种娱乐项目, 比如跳棋、大富翁, 或是足球、篮球这样的体育运动。但在被称作 ''博弈论'' 的数学分支中, 我们讨论更广泛意义上的游戏, 即 ''博弈''。

定义: 博弈

只要某种局面同时满足: (1) 不止一人在作决定; (2) 这些人的决定会彼此影响。这种局面就叫做 ''博弈''。

在博弈论意义下, 几乎我们生活中所做的所有事都是 ''博弈''。无论在家、在学校, 去哪里、做什么事, 我们总在 ''博弈''。不信吗? 那就回想你今天最开始的时刻——起床。你多快起床会影响你的家长, 家长多早起床也会影响你——那么这就是一个博弈了! 再想想, 在今天剩下的时间里发生了什么。从卫生间到早餐桌, 在教室里和操场上, 你作出的决定在影响别人的同时也影响你自己。你在进行博弈! 懂点博弈论能让你在这些情境下获得更好的体验——不仅是 ''赢'' , 还能改善人际关系、提升生活质量。

博弈论被用于研究人们在策略形势下会如何表现, 在经济学、政治科学、商业战略、法律、创业和军事科学等方面都有应用。正如物理学能用于描述行星如何围绕太阳运转, 博弈论试图描述人们在博弈中如何作出决定。数学在博弈论中是十分有用的, 它能作为工具来分析博弈者的动机并预测结果。正如下一个例子显示的那样, 有时博弈论作出的预测会十分出人意料。

示例: 和朋友下馆子

八个朋友决定中午一同外出吃汉堡。他们将平分结账。菜单上有两种汉堡: 4 美元一个的普通堡和 8 美元一个的豪华堡。这八人都感觉一个普通堡值 5 美元, 而一个豪华堡值 6 美元。注意, 他们认为吃普通堡的价值高于它的价格 (5 美元> 4 美元), 而吃豪华堡的价值低于它的价格 (6 美元< 8 美元)。买豪华堡显然不划算——你需要花 8 美元来买一个你认为只值 6 美元的东西。但是博弈论预言: 这八个人一起吃饭时都会买豪华堡。为什么?

为了理解这一出人意料的结论, 站在数学的角度思考这个问题会有帮助。设点豪华堡的人数为 D, 点普通堡的人数为 R (D, R 均为 0 至 8 间的整数, 且由于共有 8 人, 故 D + R = 8)。因为普通堡 4 元一个而豪华堡 8 元一个, 所以总价是 8 D + 4 R。代入 R = 8-D 并化简得:

总价=32+4D

每人付的钱是总价的八分之一, 故计算化简得:

每人付账=4+D/2

当某人将自己点的汉堡由普通堡升级为豪华堡时, 他们食用汉堡的价值上升了1美元 (普通堡价值 5 美元而豪华堡价值 6 美元)。然而, 他们只需为此多付 50 美分, 因为账单上因此多出的 4 美元被 8 个人均分。从而, 每个人都有点豪华堡的动机, 尽管当每个人都点豪华堡时, 结果是每个人都花 8 元买了一个对他们说来只值 6 元的东西。(如果某人决定点普通堡会如何呢? 总价会从 64 元降至 60 元, 这使得每人付的钱从 8 元降至 7.5 元。那么点普通堡的人需要为一个只值 5 元的东西付 7.5 元, 这比为价值 6 元的东西付 8 元还要糟。)

这看起来很奇怪, 但实际上这便是博弈论中最著名, 也被研究得最多的策略形势的例子——叫做 ''囚徒困境'' 的博弈。

囚徒困境

普林斯顿大学的数学家和早期博弈论学者——阿尔伯特· 塔克1 在 1950 年想出了 ''囚徒困境'' 的事例。他以此反映博弈论中一个出人意料的结果: 个人的最佳选择可能使团体中的所有人变得更糟。

囚徒困境的故事

警察逮捕了两个罪犯——罪犯 #1 (记为 P1) 和罪犯 #2 (记为 P2), 他们犯的罪最高能判 5 年。但是警方强烈怀疑罪犯犯下了更严重的罪行——持械抢劫, 这种罪最高可判 20 年。警方审问者把囚犯关押在不同的牢房并分别告诉他们: ''现在是时候供认抢劫了。你坐几年牢取决于你们当中哪一个供认。如果只有你供认, 我今天就能放你走。否则, 如果你们都不供认, 你就坐5年牢。如果你们都供认就是 10 年, 如果只有你不供认就是 20 年。'' 我们如何预测囚犯的选择呢?

图 1 展示了囚犯 P1 的刑期与两位囚犯供认情况的关系。注意, 无论 P2 供认与否, P1 选择供认都会对他更有利。(若 P2 供认: P1 供认只用坐 10 年牢, 不供认则是 20 年; 若 P2 不供认: P1 供认则能立即出狱, 不供认则是 5 年。无论如何, 出于个人考虑 P1 都应该供认)。当然这个逻辑对 P2 也适用。从而, 博弈论预言两位囚犯都会供认, 并一同坐牢 10 年——这是一个 ''双输'' 的结局, 因为如果他们都保持沉默, 就只会各判5年。

图 1 - 在囚徒困境中 P1 的刑期这个 ''收益矩阵'' 展示在两位囚犯作出不同选择时 P1 的刑期。
  • 图 1 - 在囚徒困境中 P1 的刑期这个 ''收益矩阵'' 展示在两位囚犯作出不同选择时 P1 的刑期。
  • 图中有 4 个格子, 对应于博弈的 4 种可能结果 (P1 的选择分别对应两行, 而 P2 的选择分别对应两列)。注意, 无论 P2 供认与否, P1 都有供认的个人动机——如红色箭头所示。

现实生活中的囚徒困境

你可能从来不会被警察审讯, 但是在博弈论视角下, 我们生活中遇到的许多情形本质上与囚徒困境相同。为了阐明这一点, 最好更严谨地定义 ''囚徒困境''。这样就算没有涉及真实的囚犯, 我们也能更容易地鉴别现实生活中的囚徒困境。

定义: 优势策略

对一个博弈者来说, 优势策略指的是, 无论其他人如何选择, 都能给他带来最大可能收益的措施。

定义: 囚徒困境

只要某个博弈满足: (1) 所有博弈者都有优势策略; (2) 如果所有博弈者都选择优势策略, 则所有博弈者都能获得更好的结果。

囚徒困境的这一定义并未说明参与博弈的人数。原本的故事中只有两个囚徒, 但这并不重要。相同的博弈也能在多个囚犯中进行。比如我们之前考虑的 ''和朋友下馆子'' 博弈, 就是一个有 8 名博弈者的囚徒困境, 它有优势策略 ''点豪华堡'' (相当于 ''供认'' ), 以及集体的不良结果 ''所有人都不划算'' (相当于 ''所有人都坐更长时间的牢'' )。以下是另外两个我们日常生活中遇到的多人囚徒困境的例子。

案例: 扔垃圾

每周末, 在中央公园野餐的人都要决定是否丢下垃圾不管。在个人层面, 每个人丢下垃圾不管都能有更好的收益——丢垃圾是件麻烦事。但是, 如果每个人都这么做, 公园会变得一团糟。在这个由野餐者参与的囚徒困境中, 博弈者的优势策略是丢下垃圾不管, 而在集体层面会带来公园变得脏乱的不良后果。

案例: 路见不平一声吼

有个坏蛋欺负你们班的孩子。当他欺负别人的时候, 你会出手相救还是旁观不管? 在个人层面, 你和别的孩子会倾向于不对抗这个坏蛋, 因为他可能反过来欺负你。但是, 如果每个人都这么做, 坏蛋就不会收手。在这个由孩子们参与的囚徒困境中, 博弈者的优势策略是袖手旁观, 而在集体层面会导致坏蛋肆意妄为的不良后果。

摆脱囚徒困境: 互助的力量

你想让他人如何对待你, 就如何对待他人。(黄金法则)

在囚徒困境中, 比起为了帮助他人而作出一点个人牺牲, 人们选择对自己最有利的方案时会获得更差的结果。因此, 一种摆脱囚徒困境的方式便是改变博弈者的动机, 使得他们希望帮助他人。例如在那个扔垃圾的例子里, 社区组织可以挂海报, 来促使野餐者 ''做个好邻居: 扔掉你的垃圾''。通过强调 ''好邻居'' 是如何扔掉垃圾的, 这张海报能让人们清理自己的垃圾, 因为人们希望自己看上去像一个好邻居——也因为人们希望避免被当成 ''坏邻居''。只要这些新的想法强大到足以说服所有人做清洁, 每个人都会比以前过得更好。因为公园会变干净, 人们会自我感觉良好, 也会对邻居感觉良好。

摆脱囚徒困境: 承诺的力量

''你挠我的背, 我也挠你的背。''(老话, 大约起源于 17 世纪的英国水手间)

时光回到 17 世纪, 英国的水手们若是在工作中被抓到喝酒, 会面临严重的惩罚。他们会被绑在桅杆上并被另一个船员用一种被称作 ''九尾猫'' 的鞭子鞭打。为了不被打成重伤, 水手们会彼此约定鞭打对方时轻一些 (就像 ''挠背'' 一样)。只要每个人都同意这项约定, 那么当惩罚来临时, 每个人都心知肚明自己不会被打得太重。

''彼此挠背'' 是一个承诺的例子——一项在他人帮助你后帮助他人的承诺。承诺也能帮助博弈者摆脱囚徒困境。

囚徒的承诺

''如果你不供认, 我保证我也不供认。但如果你供认了, 我也会。''

假设 P2 作出了这一承诺且 P1 相信了他的承诺。那么 P1 的选择就会是坐十年牢 (两人都供认) 或是坐五年牢 (都不供认), 从而他会选择不供认。困境就这样解决了! 见图 2。但是P1不相信P2会怎么样呢? 如果 P1 感觉 P2 会不守承诺, 那么 P1 会供认, 两人都要坐十年牢。还是被困进去了!

图 2 - ''囚徒的承诺'' 让博弈者们 ''摆脱'' 囚徒困境。
  • 图 2 - ''囚徒的承诺'' 让博弈者们 ''摆脱'' 囚徒困境。
  • 本图展示了当一个博弈者 (P1) 先做决定且后手 (P2) 守诺时囚徒困境的 ''博弈树。'' 所有红色字符对应 P1, 黑色字符对应 P2。博弈从左到右进行。每个博弈者在每个 ''决策点'' 所作的决定都用粗箭头表示, 他们不会作出的决定则用细箭头表示。预测的结果——都不供认, 都判五年——被圈出。

你怎么保证当你作出承诺时别人相信你呢? 最简单也是最有力的方法就是做一个诚实、有荣誉感的人。如果别人知道你 ''君子无戏言'', 知道你关心自己的名誉, 他们就能相信你会按照你所说的做。那么你就能充分利用承诺的力量, 来在自己的生活中逃脱囚徒困境, 并让自己和身边的人都过得更好。

延伸阅读

本文讨论了两种摆脱囚徒困境的方式: 改变博弈者的动机或彼此作出承诺。然而, 实际上一共有五种囚徒困境的 ''逃脱路线''。想要了解更多关于囚徒困境和其他有关博弈论的内容, 可以阅读笔者的作品 《Game-Changer》 和以下列出的推荐材料。

以下书籍提供博弈论通俗易懂的介绍:

1. 《Game-Changer: Game Theory and the Art of Transforming Strategic Situations》, 作者 David McAdams, 2014。(译者注: 尚无中译本, 故不翻译此标题, 感兴趣请检索英文)。

2. 《策略思维: 商界、政界及日常生活中的策略竞争》, 作者阿维纳什 · K · 迪克西特, 巴里 · J · 奈尔伯夫, 1991。(译者注: 原版出版于 1991 年, 中译本出版年份晚于此)。

以下书籍探讨博弈论思想的重要应用:

1. 《谈判力》, 作者罗杰 · 费希尔, 威廉 · 尤里, 1981。(译者注: 同为原版出版年份)。

2. 《共享经济》, 作者埃尔文 · E · 罗斯 (诺贝尔经济学奖得主), 2015。

笔者最喜欢的博弈论教材:

1. 《策略博弈》, 作者阿维纳什 · 迪克西特, 苏珊 · 斯克斯, 戴维 · 赖利, 2015。

(译者注: 中译本尚只有本书第三版, 出版年份为 2012, 而作者推荐的是第四版。原书名为 《Games of Strategy》, 需最新版的读者可按此检索)。

利益冲突声明

作者声明, 该研究是在没有任何可能被解释为潜在利益冲突的商业或财务关系的情况下进行的。

脚注

1. 塔克的一位博士生约翰 · 纳什因其在博弈论上的贡献获诺贝尔经济学奖。奥斯卡获奖电影 《美丽心灵》 讲述的就是纳什在普林斯顿, 作为塔克学生的那段岁月里的生活,他在片中由罗素 · 克劳饰演。