第12章典型的博弈策略常识(1)

优势策略和劣势策略

在某市有A、B 两大杂志社，为了提高各自的市场占有率，出版前，两大杂志社都会暗自较劲，要做出最吸引读者的封面故事。因此在出版前，编辑们都会举行闭门会议，商讨并选择封面故事。

假定最近有两大热点新闻：一是某大型运动会举行开幕式；二是卫生部发布了我国对抗癌疫苗Ⅱ期临床研究的新闻。那么编辑们应该选取哪一条新闻作为封面故事更能吸引报摊前的读者，促使其购买杂志呢？当然，对于那些已经订阅的读者，无论封面故事是什么，他们都会购买。因此，封面故事策略关键是针对报摊前的读者的。我们假设，这些读者中有30％的人对体育运动感兴趣，有70％的人对抗癌新疫苗感兴趣，这些人只会掏钱购买封面故事让自己感兴趣的杂志，如果两本杂志的封面故事是同一条新闻的话，那么感兴趣的读者就会被平均分配，一半读者买A 杂志，一半读者买B 杂志。

现在，A 杂志的编辑为了让自己的杂志卖出更多，就会做这样的推理：

“假如B 杂志采用‘抗癌新疫苗’做封面故事，那么我们用‘运动会开幕式’做封面故事的话，我们就会得到全部对政治感兴趣的读者，即全体读者的30％；如果我们也采用‘抗癌新疫苗’做封面故事的话，我们两家就会平分对抗癌新疫苗感兴趣的读者，即全体读者的35％，因此，还是用抗癌新苗的新闻做封面故事更好。相反，如果B 杂志社采用运动会开幕式做封面故事，我们也采用同样的故事，我们得到的读者就只有15％的读者，而我们采用‘抗癌新疫苗’做封面故事，得到的读者就能够达到70％。无论杂志社用哪一条新闻做封面故事，我们采用‘抗癌新疫苗’做封面故事都会为我们带来更大的收益。”从A 杂志社编辑的分析中，我们可以知道选择采用‘抗癌新疫苗’做封面故事就是他们的优势策略。

但是并不是所有的博弈，其参与者都有一个优势策略。一般来说，在博弈中，博弈各方都会有一个优势策略的博弈是最简单的一种博弈。在这种博弈中，虽然伴随着策略互动，但有一个结局却是可以预见的，那就是全体参与者都会选择自己的优势策略，而不理会其他博弈参与者怎么做。但是对优势策略的选择未必能够获得最大的效益。如在囚徒困境中，两个囚徒都有一个优势策略--和警方合作，然而这个策略却没有给他们带来最好的结局。这就提出了一个很有意思的问题：参与者应该怎样选择策略才能获得最大的收益？在博弈中没有优势策略我们有应该怎么选择呢？

优势是一种例外，而不是规律。虽然优势策略的出现能够大大简化行动的规则，但这在大多数现实生活中的博弈中并不适用。这时候我们必须用到其他原理。

与优势策略相对应的还有劣势策略，优势策略优于其他任何策略，同样，劣势策略则劣于其他任何策略。当我们有一个优势策略时，我们会照办，并且知道博弈的对手也会选择优势策略；同样，我们会规避劣势策略，对手也会规避他的劣势策略。

当我们无从判断到底哪个是优势策略的时候，我们应该从候选策略中剔除劣势策略，并且将剔除不断地进行下去，直至剩下唯一的策略，就是我们应该选择的策略。这种方法能够缩小整个博弈的规模，降低博弈的复杂程度。囚徒困境中囚徒们之所以选择和警方合作，就是利用这种劣势策略剔除法得到的。

混合策略：方法不止一个

网络上有一张杭州的“防小偷”电子地图风靡一时，其点击率连创新高。这张地图由杭州的一位市民制作，是一个三维立体的杭州方位图，上面较为准确地对杭州各条大街小巷及商场建筑进行了电子模拟。人们点击该地图网址打开网页后，只需要知道杭州哪里最容易招贼，进而做好安全防御措施。

并且，这张“防小偷”电子地图的数据还能够不断地更新，网民可以把自己知道的小偷出没的地点标注在该地图上，也可以将地段信息标注得更加详细，如将小偷的活动时间、作案方式、惯用手法等都列在上面。

显然，这张地图对于人们的出行来说是非常有利的，因此才会有那么高的点击率。那么对于人们如此需要的地图，为什么警方不予以提供呢？与一般市民相比，警方了解的情况更为准确、具体、详尽，警方设计的防偷地图一定更加适用，可为什么“警方版防偷图”始终没有问世呢？

实际上，问题并没有这么简单。如果警方公布“防偷地图”，很有可能会让问题更加复杂和严重，比如，警方如果公布“防偷地图”很可能会打草惊蛇，使小偷转移战场，这样一来警方对小偷掌握的信息就全部作废了，这样就会成为劣势的一方。要想真正把这个问题了解清楚，我们可以通过博弈论中的一个模型--警察与小偷博弈。

假设某个小镇上只有一名负责治安的警察，也只有一名偷盗的小偷。在小镇的东边有一家餐厅，西边有一家银行，银行需要保护的财产金额为万元，餐厅的财产金额为1万元，这两个地方都是小偷经常出没的地点。

尽管如此，因为分身乏术，警察一次却只能在一个地方巡逻，保护一个地方的财产；当然小偷也只能去一个地方行窃。如果小偷和警察都选择了同一个地方，那么小偷就会被抓个正着；如果选择的是不同的地方，小偷就能够成功偷窃。为了使小镇治安尽可能好一些，警察应该采用什么样的巡逻策略呢？

警察经常采用的一种方法就是在财产更多的银行巡逻。这样，警察的确可以保住2万元的财产不被偷窃。但是如果小偷去了餐厅，餐厅的财产就会被偷走。由此可见，这种做法并非警察的占优策略，通过博弈论分析，我们可以找到更好的策略。

对于警察来说，占优策略是：通过抽签决定去银行还是酒馆。银行和酒馆总共需要保护的财产是3万元，我们将之分成3份，每份1万元来保护，给每一份财产标上序号，抽到哪一份就去保护哪一份。比如，1、2号签各1万元，但都是银行的财产，3号签1万元，是餐厅的财产，抽到1、号签就去银行巡逻，抽到3号签就去餐厅巡逻。

这样一来，小偷面临的情况就是警察有三分之一的机会会去餐厅巡逻，有三分之二的机会会去银行巡逻。这种情况下，小偷的占优策略仍然是抽签决定去银行还是去餐厅偷盗，所不同的是，为了避开警察，抽到1、号签去餐厅，抽到3号签去银行。这样小偷有三分之一的机会去银行，三分之二的机会去餐厅。

从警察与小偷之间的博弈中，我们看到混合策略思路的影子。但以“剪刀、石头、布”的游戏做样板会更加形象。对每个玩游戏的小孩来说，是出“剪刀”还是“石头”，又或者“布”，都应当是随机的，不能让他人知道自己的策略是什么，甚至是连策略倾向也不能有，因为一旦对方洞悉了自己的策略倾向，对方就拥有更大的胜率。因此，每个小孩的最优策略都是随机决定出什么，而剪刀、石头、布的概率各为三分之一，此时，该博弈就达到了策略的均衡，当然，这并非我们常见的纯策略均衡，而是混合策略均衡。

此外，猜硬币也是一种常见的混合策略样板。在足球比赛正式开始之前，双方会通过猜裁判手中硬币的正反面来决定谁先开球。由于硬币正反面的概率各为二分之一。那么，参与者猜正面的概率是二分之一，猜反面的概率也是二分之一，这时博弈达到混合策略纳什均衡。

与囚徒困境博弈相比，上面这些博弈情况有一个最大的不同之处就是，不存在纯策略纳什均衡点，而只有混合策略均衡点，在混合策略均衡点时，每个博弈参与者所选择的策略都是最优选择。那么，混合策略与纯策略到底有什么不同呢？

一般来说，纯策略是指博弈参与者在自己的候选策略中一次性选取唯一确定的策略，并且参与者会一直坚持这种策略；而混合策略是指参与者随机地在自己的策略空间中选取满足一定概率条件的策略，这种选择是可以改变的。例如在警察与小偷博弈中，警察选择去银行还是去餐厅巡逻就是随机的，而且满足一定的概率。

相对而言，混合策略要比纯策略复杂得多，而纯策略只是博弈论中的一种特例。显然，在本节开头提到的“防偷地图”例子中，如果警方公布防偷地图，只会使得博弈的局面更加混乱，从博弈策略的角度来看，公布“警方版”的防小偷地图并不是一个好策略。

策略性欺骗：凡事都要讲究方式

喜爱足球的人应该都了解：一场正规的足球赛一共需要22名队员，双方各11名，即使不正规的足球赛也至少需要双方各四五人，因此，要想组织起一场足球比赛并不是容易的事情，因为即使他人愿意参加，也会因为对是否能组织起这么多人没有信心而推脱。

但那些有经验的组织者却总是能成功地组织起人员，他们是这样做的：即使是在一开始组织时，面对第一个人，他们所说的也往往是“现在已经有××人了，只要你答应，我们就能够踢一场让人痛快淋漓的球赛了”，这样被劝说者往往会毫不迟疑地答应下来；接下来，他们会采用同样的方式劝说第二个人、第三个人……直至成功组织起一场球赛。

显然，组织者在游说他人的时候，并没有实话实说，而是作了一个预先的“假定”--“已经有××人了，只要你答应就可以了”，采用了略带“欺骗”的方式，当然这个欺骗没有恶意，这是出于策略的需要，因此被称为“策略性欺骗”。

在现实中，许多经济、政治、文化等活动也是依靠这种策略性欺骗才得以组织起来的。如某个单位要组织某个活动，需要许多单位和个人都参与进来，但是谁也不是大闲人，怎样才能使被邀者愿意参与进来呢？组织者通常会先邀请一些著名的单位或个人，无论这些单位或个人是否已经答应，在邀请其他单位或个人时，都会说：“××单位或××人已经确定将会出席，这样的机会很难得，相信你一定不会错过。”又或者在媒体或邀请函上标明“××著名人物或××著名单位将出席”的字样。这样，让被邀者认为自己出席这样的活动能够获得收益，那么他们也就倾向于选择“参加该活动”。虽然在被邀请的时候这种“收益”并不是确实的，只是一种预先的“假定”，但是随着不断地有人被成功说服参与进来，这种“收益”就变成了现实。在博弈中，为了取得最后的胜利，我们常常采用策略性欺骗，而其方式也是多种多样的。

三国时，东吴主孙权攻克荆州后杀掉了关羽，但又不想刘备上门寻仇，于是想了个一箭双雕的计策，派人将关羽的首级送到许都意图嫁祸于曹操，不想这一计谋被曹操手下的谋士识破。于是曹操不懂声色地收下木匣，厚待东吴来使，让东吴来使以为自己计谋已经得逞，暗地里却命工匠连夜赶制出一具沉香木的躯体，与关羽头颅配在一起。然后，曹操追封关羽为荆王，并亲自率领文武百官，以王侯之礼厚葬了关羽。

最后，孙权的计谋未能得逞，刘备发兵向孙权寻仇。

在上述博弈中，曹操假装中计，让东吴掉以轻心，然后反过来利用对方的策略，使自以为聪明的孙权反倒成了傻子。

在这个策略性欺骗当中，曹操为了取得最后胜利，而自愿增加自己的行动步骤，甚至付出一定的代价，降低自己的收益来迁就对方，以达到诱敌深入的目的，最终取得博弈的胜利。

关于策略性欺骗还有这样一个例子：

有一个被叛死刑的犯人，为了让自己能够活下来，便对国王说道：“大王，我恳求您不要杀我，因为我有特殊的本领，能够为大王效劳。”国王出于自己的利益考虑，便问道：“你有什么特殊的本领？又能为我做些什么呢？”这个人回答说：“大王，我能用一年的时间让您的马学会飞翔，以后您就可以骑着马在天上飞翔了。”国王和在场大臣们一听，都惊讶无比地瞪大眼睛，不相信地看着他。他立刻接着说：“大王您如此英明，请您相信我，我没有必要说谎话，如果我无法教会您的马飞翔，您再杀我也不迟。”

于是，这位国王答应了犯人的请求。

就这样，犯人运用策略性的欺骗在与国王的博弈中取得了胜利，使自己逃脱了被处死的命运。有人也许会说，他一年后一样难逃死刑。但是一年里有365天，每一个日夜有24小时，在这几千个小时里，许多事情都有可能发生：犯人可能会病死，国王或许会去世，马也可能会死掉，甚至国家也可能陷入战乱中……无论怎样，犯人有太多种可能不被处死。

在博弈中，策略性欺骗是博弈参与者们经常使用的。其关键就在于识破对方的计谋和对方所想达到的目的，然后理性地做出策略决策，唯有这样才能在博弈中保持不败。

洞悉对方策略：避免陷入被动

有两个成绩一贯优秀的大学生，选修了博弈论课程。很快期末到了，考试定于某个周一举行。这两个学生本来打算利用周末好好地复习，但恰逢要到外地参加另一个大学举行的舞会，于是两人决定参加舞会后，于周日早上一早赶回，利用周日下午的时间好好复习，这样也能顺利通过考试。

但是计划往往没有变化快，由于前一天晚上玩得太尽兴了，他们周日睡过了头，一直到下午才醒来，返回学校的时候，已经是晚上了，根本就来不及准备第二天的考试了。他们只好给博弈论教授打电话，谎称他们在赶回学校的路上，乘坐的车的轮胎爆了，因此来不及赶回学校复习功课，希望教授能够将考试推迟一天，给他们一点时间复习。

对教授而言，如果这两个学生所说的确是事实，那么他应该予以体谅--答应他们的请求；相反，如果这两个学生说的是编造出来的借口，那么学生们就不值得体谅，甚至应该得到某种形式的惩罚，让他们为自己的谎言付出代价。但现在教授根本就不知道两个学生说的是不是事实。那么，他应该如何决策呢？

这个小问题自然难不倒这位专事博弈论的教授，他爽快地答应了这两个学生的请求，将考试调到星期二举行。

到了星期二，教授将两个学生隔离开来，让他们分别在两个教室里答题。试卷第一页有10分关于博弈论的试题，这两位学生本来平时成绩就不错，再加上争取到一天的复习时间，因此对第一页的题目自然是手到擒来。然而，就在他们信心满满地准备答第二页的试题时，他们愣住了。因为第二页只有一道题，分值却有90分，题目是：“请问周日你们的车爆的是哪只轮胎？”

最后，两个学生回答的答案并不统一，他们都因没有得到那宝贵的90分而没有通过考试，都为自己的谎话付出了代价。

第12章 典型的博弈策略常识(1)

第12章典型的博弈策略常识(1)