二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑5年。
这就是博弈论中经典的囚徒困境。
囚徒困境是博弈论的非零和博弈中具有代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒困境假定每个参与者都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑5年的情况好。但根据以上假设,两人均为理性个人,且只追求个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是困境所在。
囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益,但在信息不明的情况下,因为出卖同伙可为自己带来利益。
这种困境反映了个人理性与集体理性和之间的矛盾,对每个人而言都是理性的选择,能得到最优的结果,但对于整个集体来说却是非理性的,最终导致对集体中每个人都不利的结果。
每个人想到的都首先是自己的利益,进行的都是有利于自己的选择决策,但最后的结果,往往都没有使自己获利,大家都没有从中获得好处。以一个足球队而言,当球员在赛场所想的只是自己的风采,或是自己的位置,或者是在俱乐部的前途的时候,这支球队就不会有希望了。
为避免“理性合成谬误”,任何一个集体都应该加强内部协作。不仅每个人要充当理性的经济人,集体也应该成为理性的经济人,只有这样,才能实现集体和内部成员利益的最大化。
经济学巨星和他的伟大成就——纳什与纳什均衡
“纳什均衡”的创立者约翰·纳什的名字是因为那部获奥斯卡奖的影片《美丽心灵》才被大家了解的。这个被精神分裂症困扰了30多年的天才曾被很多学术奖项和机构排斥在门外,他的诺贝尔奖得来的更是艰难。他在20世纪80年代中期即出现在候选人的名单当中,却因为两派意见相差太大而被搁置了近10年。1994年,他终于在投票中以微弱多数通过,获得当年的诺贝尔经济学奖。
约翰·纳什1948年作为年轻的数学博士生进入普林斯顿大学。其研究成果见于题为《非合作博弈》(1950)的博士论文。该博士论文导致了《n人博弈中的均衡点》(1950)和题为《非合作博弈》(1951)两篇论文的发表。纳什在上述论文中,介绍了合作博弈与非合作博弈的区别。他对非合作博弈的最重要贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念,也就是不限于两人零和博弈。
假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的策略),从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡,从实质上说,是一种非合作博弈状态。
纳什均衡理论奠定了现代主流博弈理论和经济理论的根本基础,正如克瑞普斯在《博弈论和经济建模》一书的引言中所说,“在过去的一二十年内,经济学在方法论以及语言、概念等方面,经历了一场温和的革命,非合作博弈理论已经成为范式的中心……在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中,现在人们已经很难找到不懂纳什均衡能够‘消费’近期文献的领域。纳什均衡理论改变了经济学的语言和表达方法。在进化博弈论方面相当有造诣的坎多利对保罗·萨缪尔森的名言“你甚至可以使一只鹦鹉变成一个训练有素的经济学家,因为它必须学习的只有两个词,那就是‘供给’和‘需求’”,曾做过一个幽默的引申,他说,“现在这只鹦鹉需要再学两个词,那就是‘纳什均衡’”。
在经济生活中,纳什均衡其实就在我们身边。每逢周末节假日是超市人最多的时候,假如你怀抱着一堆东西站在收银台旁边一队长长的队伍的最后边,你是准备抱着这堆东西找个最短的队来排,还是就近找个队排?
在这里我们假设超市里的每个人都有一个理性的预期——尽快离开超市。因此所有的队都会一样长,你用不着费劲的去找最短的队。购物者只要看到旁边的队人少,就会很快排进较短的队中,如此一来较短的队也变长了,一直持续到两个队人数差不多。相邻的两个队是这样,同理,所有的队都会变得人数差不多。所以,还是就近选择最好。
如果我们从时间的角度来考虑,其结果也是一样的。我们排队除了要看每个队伍的长短,还得关心每个队的移动速度。如果一个队有10个人,但是每个人买的东西少,另一个队有7个人,都推着购物车,买了一堆东西,显然人们还是愿意排第一个队。等到第一个队多出第二个队足够多的时候,两个队伍的移动速度基本差不多了,你也用不着去找队排了。除此外,收银员的工作熟练程度也会影响到队伍的移动速度快慢,如果你不知道是哪个收银员,所以还是就近找个队排最好。
排哪个队都一样,这就是经济学中所说的均衡。均衡是一种均势状态,或是一种皆大欢喜的状态,每个人都乐于接受它;抑或是一种作茧自缚的状态,每个人都被迫选择它。但是不管人喜欢不喜欢,这是我们所能作出的最好的选择。
生活中有一种有趣的现象也可用均衡原理来解释。为什么有许多美女最后嫁给了让人跌破眼镜的男士,被人们说是“鲜花插在了牛粪上”呢?如果用纳什均衡原理对此进行分析,会有许多有趣的结论。纳什均衡的基本原理是,如果对方的策略是确定的,我的策略就是最优的;对方的策略是不确定的,我的策略就很难是最优的。
在纳什假定的情景下,如果四位优秀的男士看到四位美女加一绝色美女,通常每一位男士都会假定其他男士会去追绝色美女,故追到绝美的不确定性最强,很难有最优机会;为防止“赔了夫人又折兵”,每一位男士去追的将是普通美女。普通美女与绝色美女相比,比较知道自己的差距,在有确定追求者的时候,会有清晰的迎合策略。因此相比较于绝美的不确定策略,普通美女会更具吸引力,结果会导致绝色美女轮空或无人敢认真追她。
如果按照Ⅰ、Ⅱ、Ⅲ、Ⅳ给男女分等级,那么现实中的典型配对是:Ⅰ男配Ⅱ女,Ⅱ男配Ⅲ女,Ⅲ男配Ⅳ女。在大伙的“谦让”之下,Ⅰ女即鲜花美女将轮空,所以Ⅳ男即“牛粪”可能出于无聊或其他动机去追Ⅰ女“鲜花”。
Ⅰ女“鲜花”一般是不追人的,所以丧失了主动、选择性地获得优秀男士的机会。而最有可能追鲜花的是Ⅳ男即“牛粪”,这极大限制了“鲜花”的选择范围,并使其极易产生极端自我认识误区,认为男人没有一个好东西,从而伤心地把自己插在“牛粪”上。除非鲜花明白了这个道理,自我破解,否则就很难走出这个近乎宿命的“鲜花插牛粪”困境,从而实现相对较优的组合。
由此可见,均衡是指一种均势的状态,在经济生活中,是各方参与者在理性预期的指导下综合博弈的结果。假如我们理解了其中的奥妙,生活就不会平添许多无谓的烦恼。
海盗如何分金——动态博弈
有这样一个故事,五个强盗抢得100枚金币,他们决定:
(1)抽签决定各人的号码(1,2,3,4,5)。
(2)由1号提出分配方案,然后5人表决,当且仅当超过半数同意时,方案通过,否则他将被扔入大海喂鲨鱼。
(3)1号死后,由2号提方案,4人表决,当且仅当超过半数同意时方案通过,否则2号同样被扔入大海。
(4)以此类推……
假定每个海盗都是很聪明的人,都能很理智地判断得失,从而做出选择,那么1号提出怎样的分配方案才能够使自己的收益最大化?
问题的答案是:1号独得97块金币,不给2号,给3号1块,给4号或5号2块。可以写成(97,0,1,2,0)或者(97,0,1,0,2)。
1号这样做不是找死吗?不怕被其他人扔到海里去?事实上,这个方案是绝妙的。因为这5个海盗都是绝顶聪明的。首先来看4号和5号是怎么想的:如果1号、2号、3号都喂了鲨鱼,只剩4号和5号的话。无论4号提出怎样的方案,5号都一定不会同意。因为只要5号不同意,就可以让4号去喂鲨鱼,那么自己就可以独吞全部金币。4号预见到这一结局,所以打定主意,不论怎样,唯有支持3号才能保命。而3号知道,既然4号的赞成票已在手中,那么就会提出自己独得100块的分配方案,对4号、5号一毛不拔。不过,2号料到3号的方案,他会提出(98,0,1,1)的分配,不给3号,给4号和5号各1块金币。因为这样对4号和5号来说比在3号分配时更有利,于是他俩将转而支持2号,不希望他出局。但是,1号比2号更占先机,只要他得到3票赞成,即可稳操胜券,如果他给3号1块金币,给4号或5号2块金币——这肯定要比2号给得多,那么,除了他自己的1票之外,他还能得到3号以及4号或5号的支持。这样他将不会被丢到海里去,并且还将拿到97块金币!
这个看起来似乎是自寻死路的方案实际上非常精确。前提在于,五个强盗个个工于心计,能够准确地预测分配过程中每一步骤将会发生的变化。而且全都锱铢必较,能多得一块就绝不少得,能得到一块也绝不放弃。这是一场精彩的博弈。
博弈论的基本概念有参与人、行动、信息、策略、支付(效用)、结果和均衡,其中参与人、策略和支付是描述博弈的基本要素,而行动和信息是“构件”,参与人、行动和结果统称为“博弈规则。具体含义如下:
(1)参与人:又称为局中人,是博弈论中最基本的概念,是指选择自己的行为以使效用最大化的决策主体。
(2)行动:是指参与人在博弈的某个时点的决策变量。
(3)信息:参与人有关博弈的知识,特别是有关“自然”的选择,其他参与人的特征和行动的知识。信息集是指参与人在特定时刻有关变量值的知识。
(4)策略:是指参与人在给定信息情况下的行动规则,它规定在什么时候,选择什么行动。
(5)支付:是指在一个特定的策略集合中参与人得到的确定的效用水平或指参与人得到的期望效用水平。
(6)结果:主要是指均衡策略组合,均衡行动组合,均衡支付组合等。
(7)均衡:是指所有参与人的最优策略集合。
在博弈中要掌握几点:第一,在竞争中要掌握主动权。1号强盗看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还获得了最大的收益。5号强盗看起来最安全,丝毫不用担心被扔进大海,还有可能坐收渔人之利,却因不得不看别人脸色行事而只能分得一小杯羹,甚至两手空空。第二,在竞争中最重要的是规则。如果规则改变了,这道题的解答就完全是另一码事。当然有了规则,还必须要遵守,这真是一群讲规则的强盗,不抢、不闹、不来浑的,就动脑子玩智慧,凭智力赚取最大收益,看来他们早就跨入知识经济时代了。第三,在竞争中要保持头脑清醒。要善于分析得失,学会满足,不然可能一无所得,当然,这里不是说那种糊里糊涂的满足,应得的一定要努力争取。
回到“海盗分金”这个话题,其实这就是一场动态博弈。动态博弈指参与者的行动有先后顺序,并且后采取行动的人可以知道先采取行动的人会采取什么行动。
动态博弈的困难在于,在前一刻最优的决策在下一刻可能不再为最优,因此在求解上发生很大的困难。动态博弈行动有先后顺序,不同的参与人在不同时点行动,先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者做了什么选择,因此,为了做最优的行动选择,每个参与人都必须这样思考问题:如果我如此选择,对方将如何应对?如果我是他,我将会如何行动?给定他的应对,什么是我的最优选择?
在动态博弈中,每个局中人的举动显然是先根据对方的行动做出的,就如下棋一样,你走一步,对方走一步,行动策略上有一个先后顺序,这就给了被动方反被动为主动的余地。