纳什均衡 - 王朝网络宽屏版

纳什均衡名称来源及简介：纳什均衡，Nash equilibrium ,又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。约翰·纳什1948年作为年轻数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》（1950）的博士论文。该博士论文导致了《n人博弈中的均衡点》（1950）和题为《非合作博弈》（1951）两篇论文的发表。纳什在上述论文中，介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念，也就是不限于两人零和博弈。该解概念后来被称为纳什均衡。

纳什均衡定义：假设有n个局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己利益最大化。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。

纳什均衡经典案例：囚徒困境（1950年，数学家塔克任斯坦福大学客座教授，在给一些心理学家作讲演时，讲到两个囚犯的故事。）

假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯，对每一个犯罪嫌疑人，警方给出的政策是：如果一个犯罪嫌疑人坦白了罪行，交出了赃物，于是证据确凿，两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白，则两人各被判刑8年；如果另一个犯罪嫌人没有坦白而是抵赖，则以妨碍公务罪（因已有证据表明其有罪）再加刑2年，而坦白者有功被减刑8年，立即释放。如果两人都抵赖，则警方因证据不足不能判两人的偷窃罪，但可以私入民宅的罪名将两人各判入狱1年。表2.2给出了这个博弈的支付矩阵。

表2.2 囚徒困境博弈

A╲B

坦白

抵赖

坦白

-8，-8

0，-10

抵赖

-10，0

-1，-1

关于案例，显然最好的策略是双方都抵赖，结果是大家都只被判1年。但是由于两人处于隔离的情况，首先应该是从心理学的角度来看，当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论，假设每个人都是“理性的经济人”，都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程：假如他坦白，我抵赖，得坐10年监狱，坦白最多才8年；他要是抵赖，我就可以被释放，而他会坐10年牢。综合以上几种情况考虑，不管他坦白与否，对我而言都是坦白了划算。两个人都会动这样的脑筋，最终，两个人都选择了坦白，结果都被判8年刑期。

基于经济学中Rational agent的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被释放就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局，纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战：按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。

纳什的传记：《普林斯顿的幽灵》《普林斯顿的幽灵》（又译为《美丽心灵》）

西尔维娅.娜萨