囚犯困境-管理- 科技百科 -互联网博物馆，你我的知识加油站

囚犯困境博弈

囚犯困境（Prisoner`s dilemma是指这样一种情形，此时两个人（或厂商）合作要比不合作好，但是每个人都觉得不合作符合他的利益，因此每个人的状况都要坏于如果他们合作时的境况。囚犯境也是一个游戏，已经并继续加以研究的人在各种学科，从生物学通过社会学和公共政策。在其有趣的特点是，它是一个“非零和”游戏：最好的策略对某一球员往往是，增加了一个回报的合作伙伴以及。它也表明，没有一个单一的“最好”的战略：如何最大限度地发挥自己的收益取决于采取的战略之一的合作伙伴。Serendip使用特定战略（所谓的“针锋相对”）被认为是最佳的下尽可能广泛的合作伙伴战略。

[显示部分][显示全部]

概述编辑本段 回目录

囚犯困境

囚犯困境（PrisonDilemma）是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。单次发生的囚徒困境，和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服，从而可能导向一个较好的、合作的结果。作为反复接近无限的数量，纳什均衡趋向于帕累托最优。

囚犯困境的主旨为，囚犯们虽然彼此合作，坚不吐实，可为全体带来最佳利益（无罪开释），但在资讯不明的情况下，因为出卖同伙可为自己带来利益（缩短刑期），也因为同伙把自己招出来可为他带来利益，因此彼此出卖虽违反最佳共同利益，反而是自己最大利益所在。但实际上，执法机构不可能设立如此情境来诱使所有囚犯招供，因为囚犯们必须考虑刑期以外之因素（出卖同伙会受到报复等），而无法完全以执法者所设立之利益（刑期）作考量。

发展理论编辑本段 回目录

囚犯困境

经过
1950年，由就职于兰德公司的梅里尔·弗勒德（MerrillFlood）和梅尔文·德雷希尔（MelvinDresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（AlbertTucker）以囚犯方式阐述，并命名为“囚犯困境”。经典的囚犯困境如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。若二人都互相检举（互相“背叛”），则二人同样判监2年。
　　
如同博弈论的其他例证，囚犯困境假定每个参与者（即“囚犯”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

说法
囚犯到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚犯由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚犯会如何作出选择：

若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。

这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚犯都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

现实应用编辑本段 回目录

无论是人类社会或大自然都可以找到类似囚犯困境的例子，将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学，以及自然科学的动物行动学、进化生物学等学科，都可以用囚犯困境分析，模拟生物面对无止境的囚犯困境博弈。囚犯困境可以广为使用，说明这种博弈的重要性。以下为各界例子：

政治学例子：军备竞赛
在政治学中，两国之间的军备竞赛可以用囚犯困境来描述。两国都可以声称有两种选择：增加军备（背叛）、或是达成削减武器协议（合作）。两国都无法肯定对方会遵守协议，因此两国最终会倾向增加军备。似乎自相矛盾的是，虽然增加军备会是两国的“理性”行为，但结果却显得“非理性”（例如会对经济造成都有损坏等）。这可视作遏制理论的推论，就是以强大的军事力量来遏制对方的进攻，以达到和平。

经济学例子：关税战
两个国家，在关税上可以有以两个选择：提高关税，以保护自己的商品。（背叛）
与对方达成关税协定，降低关税以利各自商品流通。（合作）
当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）

商业例子：广告战
商业活动中亦会出现各种囚犯困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：互相达成协议，减少广告的开支。增加广告开支，设法提升广告的质量，压倒对方。若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚犯困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚犯困境中。

自行车赛例子
自行车赛事的比赛策略也是一种博弈，而其结果可用囚犯困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况：选手们在到终点前的路程常以大队伍（英文:Peloton）方式前进，他们采取这策略是为了令自己不至于太落后，又出力适中。而最前方的选手在迎风时是最费力的，所以选择在前方是最差的策略。通常会发生这样的情况，大家起先都不愿意向前（共同背叛），这使得全体速度很慢，而后通常会有二或多位选手骑到前面，然后一段时间内互相交换最前方位置，以分担风的阻力（共同合作），使得全体的速度有所提升，而这时如果前方的其中一人试图一直保持前方位置（背叛），其他选手以及大队伍就会赶上（共同背叛）。而通常的情况是，在最前面次数最多的选手（合作）通常会到最后被落后的选手赶上（背叛），因为后面的选手骑在前面选手的冲流之中，比较不费力。

重复困境编辑本段 回目录

困境。就是说只有二方的囚徒困境，没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。罗伯特·阿克塞尔罗德在其著作《合作的进化》中，探索了经典囚徒困境情景的一个扩展，并把它称作“重复的囚徒困境”（IPD）。在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面：算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”，这是阿纳托尔·拉波波特（AnatolRapoport）开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的，只包含了四行BASIC语言，并且赢得了比赛。这个策略只不过是在重复博弈的开头合作，然后，采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛，在下一回合中你无论如何要以小概率（大约是1%~5%）时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时，“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手：你合作但是你的对手听说你背叛了。

通过分析高分策略，阿克塞尔罗德指定了策略获得成功的几个必要条件。
1、友善。最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。
　　
2、报复。但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。

3、宽恕。成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。

4、不嫉妒。最后一个品质是不嫉妒，就是说不去争取得到高于对手的分数（对于“友善”的策略来说这也是不可能的，也就是说“友善”的策略永远无法得到高于对手的分数）。

因此，阿克塞尔罗德得到一种给人以乌托邦印象的结论，认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一，是友善的家伙能先完成交易。重新考虑经典的囚徒困境一节中给定的军备竞赛模型：结论是，只是理性策略增进了军事力量，似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是，企图说明对抗国家实际上以这种方式（在“重复囚徒困境假定”下的不同时期，军费支出在“高”和“低”之间反复）竞赛的尝试，却经常表明假定的军备竞赛并没有如预想的那样出现。（例如希腊人和土耳其人的军费支出，看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛，却更可能是被其国内的政策所驱使。）这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说，最佳（点数最大化的）策略是简单地背叛；正如前面解释的，无论对手的行动可能是什么，这都是真实的。但是，在重复的囚徒困境博弈中，最佳策略依赖于可能的对手的策略，和他们怎样对背叛和合作作出反应。例如，考虑这样一个人群，那里每个人每次都背叛，除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位，因为第一回合的损失。在这样的人群中，对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中，对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略：贝叶斯纳什均衡：如果对抗策略的统计分布能被确定（例如，50％以牙还牙，50％一直合作），就能从数学上获得最佳的相对策略。已经有了人群的蒙特卡罗模拟，在这里低分个人消失了，高分个人一再被生产出来（一种获得最佳策略的天才算法）。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。尽管以牙还牙始终被认为是最可靠的基本策略，但是在重复囚徒困境的20周年纪念赛中，来英国南安普敦大学的一个小组（由尼古拉斯·詹宁斯（NicholasJennings）领导，包括了拉蒂普·达什（RajdeepDash）、萨瓦帕里·拉姆琼（SarvapaliRamchurn）、亚历克斯·罗杰斯（AlexRogers）斯和皮鲁克里士南·维特林根（PerukrishnenVytelingum））介绍了一个新的策略，这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作，为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛，这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出，一个程序将总是合作，其他程序则总是背叛，保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者，这程序将持续地背叛，企图去最小化竞争程序的得分。结果[5]，这个策略以获得前3位结束了竞赛，也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效，但是这是因为利用了下述事实：在这个特殊的竞赛中，多重通道是被允许的。在一方只能控制单一参与者的竞赛中，以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛，既然你的对手将没有机会惩罚你。因此，你们都将在最后的回合背叛。这时，你可以在倒数第二回合中背叛，既然最后一回无论你做什么，你的对手都将背叛。依此类推。为了合作以保持请求，这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。

另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次，而且你的分数是一个平均数（当然是用计算机计算的）。囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流，群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年，格罗夫曼（Grofman）和普尔（Pool）估计，致力于这方面研究的学术文章，数量超过2000篇。

学习心理学和博弈论。当博弈参与者能学会估计其他参与者背叛的可能性，他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示，总体上，缺乏经验的参与者与其他参与者的互动，或者是典型的好，或者是典型的坏。如果他们在这些经验的基础上行动，（通过更多的背叛或合作，否则）他们可能在未来的交易中受损。随着经验逐渐丰富，他们获得了对背叛可能性的更真实的印象，变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响，可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了，为什么年轻人的成长经验这么具有影响力，以及为什么他们特别容易被欺负，有时他们本身最后也成为欺凌弱小者。

群体中背叛的可能性，可以被合作的经验所削弱，因为先前的博弈建立了信任。因此自我牺牲行为可以，例如，加强团体的道德品质。如果团体很小，积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关：鼓励那些你将援助的人，从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。

参考资料编辑本段 回目录

1、http://www.guofa.info/bbs/topic.cgi?forum=7&topic=1816
2、http://hi.baidu.com/aggie1988/blog/item/50be04d9cc08652910df9b34.html

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。本词条对我有帮助0

囚犯困境发表评论(0) 编辑词条

概述编辑本段 回目录

发展理论编辑本段 回目录

现实应用编辑本段 回目录

重复困境编辑本段 回目录

相关博弈编辑本段 回目录

相关词条编辑本段 回目录

参考资料编辑本段 回目录

对词条发表评论

囚犯困境 发表评论(0) 编辑词条

概述编辑本段回目录

发展理论编辑本段回目录

现实应用编辑本段回目录

重复困境编辑本段回目录

相关博弈编辑本段回目录

相关词条编辑本段回目录

参考资料编辑本段回目录

对词条发表评论

囚犯困境发表评论(0) 编辑词条