科技: 人物 企业 技术 IT业 TMT
科普: 自然 科学 科幻 宇宙 科学家
通信: 历史 技术 手机 词典 3G馆
索引: 分类 推荐 专题 热点 排行榜
互联网: 广告 营销 政务 游戏 google
新媒体: 社交 博客 学者 人物 传播学
新思想: 网站 新书 新知 新词 思想家
图书馆: 文化 商业 管理 经济 期刊
网络文化: 社会 红人 黑客 治理 亚文化
创业百科: VC 词典 指南 案例 创业史
前沿科技: 清洁 绿色 纳米 生物 环保
知识产权: 盗版 共享 学人 法规 著作
用户名: 密码: 注册 忘记密码?
    创建新词条
科技百科
  • 人气指数: 1976 次
  • 编辑次数: 1 次 历史版本
  • 更新时间: 2009-03-11
admin
admin
发短消息
相关词条
劳动
劳动
社会资本理论
社会资本理论
统一价值论
统一价值论
商业常识认知路径
商业常识认知路径
乡镇企业
乡镇企业
孙耿模式
孙耿模式
经济模式
经济模式
平定模式
平定模式
管理学家
管理学家
破产
破产
推荐词条
希拉里二度竞选
希拉里二度竞选
《互联网百科系列》
《互联网百科系列》
《黑客百科》
《黑客百科》
《网络舆情百科》
《网络舆情百科》
《网络治理百科》
《网络治理百科》
《硅谷百科》
《硅谷百科》
2017年特斯拉
2017年特斯拉
MIT黑客全纪录
MIT黑客全纪录
桑达尔·皮查伊
桑达尔·皮查伊
阿里双十一成交额
阿里双十一成交额
最新词条

热门标签

微博侠 数字营销2011年度总结 政务微博元年 2011微博十大事件 美国十大创业孵化器 盘点美国导师型创业孵化器 盘点导师型创业孵化器 TechStars 智能电视大战前夜 竞争型国企 公益型国企 2011央视经济年度人物 Rhianna Pratchett 莱恩娜·普莱契 Zynga与Facebook关系 Zynga盈利危机 2010年手机社交游戏行业分析报告 游戏奖励 主流手机游戏公司运营表现 主流手机游戏公司运营对比数据 创建游戏原型 正反馈现象 易用性设计增强游戏体验 易用性设计 《The Sims Social》社交亮 心理生理学与游戏 Kixeye Storm8 Storm8公司 女性玩家营销策略 休闲游戏的创新性 游戏运营的数据分析 社交游戏分析学常见术语 游戏运营数据解析 iPad风行美国校园 iPad终结传统教科书 游戏平衡性 成长类型及情感元素 鸿蒙国际 云骗钱 2011年政务微博报告 《2011年政务微博报告》 方正产业图谱 方正改制考 通信企业属公益型国企 善用玩家作弊行为 手机游戏传播 每用户平均收入 ARPU值 ARPU 游戏授权三面观 游戏设计所运用的化学原理 iOS应用人性化界面设计原则 硬核游戏 硬核社交游戏 生物测量法研究玩家 全球移动用户 用户研究三部曲 Tagged转型故事 Tagged Instagram火爆的3大原因 全球第四大社交网络Badoo Badoo 2011年最迅猛的20大创业公司 病毒式传播功能支持的游戏设计 病毒式传播功能 美国社交游戏虚拟商品收益 Flipboard改变阅读 盘点10大最难iPhone游戏 移动应用设计7大主流趋势 成功的设计文件十个要点 游戏设计文件 应用内置付费功能 内置付费功能 IAP功能 IAP IAP模式 游戏易用性测试 生理心理游戏评估 游戏化游戏 全美社交游戏规模 美国社交游戏市场 全球平板电脑出货量 Facebook虚拟商品收益 Facebook全球广告营收 Facebook广告营收 失败游戏设计的数宗罪名 休闲游戏设计要点 玩游戏可提高认知能力 玩游戏与认知能力 全球游戏广告 独立开发者提高工作效率的100个要点 Facebook亚洲用户 免费游戏的10种创收模式 人类大脑可下载 2012年最值得期待的20位硅谷企业家 做空中概股的幕后黑手 做空中概股幕后黑手 苹果2013营收 Playfish社交游戏架构

囚犯困境博弈
囚犯困境博弈
囚犯困境(Prisoner`s dilemma是指这样一种情形,此时两个人(或厂商)合作要比不合作好,但是每个人都觉得不合作符合他的利益,因此每个人的状况都要坏于如果他们合作时的境况。 囚犯境也是一个游戏,已经并继续加以研究的人在各种学科,从生物学通过社会学和公共政策。在其有趣的特点是,它是一个“非零和”游戏:最好的策略对某一球员往往是,增加了一个回报的合作伙伴以及。它也表明,没有一个单一的“最好”的战略:如何最大限度地发挥自己的收益取决于采取的战略之一的合作伙伴。Serendip使用特定战略(所谓的“针锋相对”)被认为是最佳的下尽可能广泛的合作伙伴战略。
目录

[显示全部]

概述编辑本段回目录

囚犯困境
囚犯困境
囚犯困境(PrisonDilemma)是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。

在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。

囚犯困境的主旨为,囚犯们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚犯招供,因为囚犯们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

发展理论编辑本段回目录

囚犯困境
囚犯困境
经过

1950年,由就职于兰德公司梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚犯方式阐述,并命名为“囚犯困境”。经典的囚犯困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。若二人都互相检举(互相“背叛”),则二人同样判监2年。
  
如同博弈论的其他例证,囚犯困境假定每个参与者(即“囚犯”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。

说法
囚犯到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚犯由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚犯会如何作出选择:

若对方沉默、背叛会让我获释,所以会选择背叛。若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚犯都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

现实应用编辑本段回目录

囚犯困境无论是人类社会或大自然都可以找到类似囚犯困境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚犯困境分析,模拟生物面对无止境的囚犯困境博弈。囚犯困境可以广为使用,说明这种博弈的重要性。以下为各界例子:

政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚犯困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。

经济学例子:关税战
两个国家,在关税上可以有以两个选择:提高关税,以保护自己的商品。(背叛)
与对方达成关税协定,降低关税以利各自商品流通。(合作)
当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。)

商业例子:广告战
商业活动中亦会出现各种囚犯困境例子。以广告竞争为例。两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。此二公司可以有二选择:互相达成协议,减少广告的开支。增加广告开支,设法提升广告的质量,压倒对方。若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚犯困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚犯困境中。

自行车赛例子
自行车赛事的比赛策略也是一种博弈,而其结果可用囚犯困境的研究成果解释。例如每年都举办的环法自由车赛中有以下情况:选手们在到终点前的路程常以大队伍(英文:Peloton)方式前进,他们采取这策略是为了令自己不至于太落后,又出力适中。而最前方的选手在迎风时是最费力的,所以选择在前方是最差的策略。通常会发生这样的情况,大家起先都不愿意向前(共同背叛),这使得全体速度很慢,而后通常会有二或多位选手骑到前面,然后一段时间内互相交换最前方位置,以分担风的阻力(共同合作),使得全体的速度有所提升,而这时如果前方的其中一人试图一直保持前方位置(背叛),其他选手以及大队伍就会赶上(共同背叛)。而通常的情况是,在最前面次数最多的选手(合作)通常会到最后被落后的选手赶上(背叛),因为后面的选手骑在前面选手的冲流之中,比较不费力。

重复困境编辑本段回目录

困境。就是说只有二方的囚徒困境,没有多方的。所谓多方的囚徒困境只是由多个二方囚徒困境混杂在一起而形成的错觉。罗伯特·阿克塞尔罗德在其著作《合作的进化》中,探索了经典囚徒困境情景的一个扩展,并把它称作“重复的囚徒困境”(IPD)。在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面:算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现,当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后,从利己的角度来判断,最终“贪婪”策略趋向于减少,而比较“利他”策略更多地被采用。他用这个博弈来说明,通过自然选择,一种利他行为的机制可能从最初纯粹的自私机制进化而来。

最佳确定性策略被认为是“以牙还牙”,这是阿纳托尔·拉波波特(AnatolRapoport)开发并运用到锦标赛中的方法。它是所有参赛程序中最简单的,只包含了四行BASIC语言,并且赢得了比赛。这个策略只不过是在重复博弈的开头合作,然后,采取你的对手前一回合的策略。更好些的策略是“宽恕地以牙还牙”。当你的对手背叛,在下一回合中你无论如何要以小概率(大约是1%~5%)时而合作一下。这是考虑到偶尔要从循环背叛的受骗中复原。当错误传达被引入博弈时,“宽恕地以牙还牙”是最佳的。这意味着有时你的动作被错误地传达给你的对手:你合作但是你的对手听说你背叛了。

通过分析高分策略,阿克塞尔罗德指定了策略获得成功的几个必要条件。
1、友善。最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
  
2、报复。但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。

3、宽恕。成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,最大化了得分点数。

4、不嫉妒。最后一个品质是不嫉妒,就是说不去争取得到高于对手的分数(对于“友善”的策略来说这也是不可能的,也就是说“友善”的策略永远无法得到高于对手的分数)。

因此,阿克塞尔罗德得到一种给人以乌托邦印象的结论,认为自私的个人为了其自私的利益会趋向友善、宽恕和不嫉妒。阿克塞尔罗德关于重复囚徒困境的研究的重要结论之一,是友善的家伙能先完成交易。重新考虑经典的囚徒困境一节中给定的军备竞赛模型:结论是,只是理性策略增进了军事力量,似乎两个国家都宁可花费其GDP在枪炮而不是黄油上。有趣的是,企图说明对抗国家实际上以这种方式(在“重复囚徒困境假定”下的不同时期,军费支出在“高”和“低”之间反复)竞赛的尝试,却经常表明假定的军备竞赛并没有如预想的那样出现。(例如希腊人和土耳其人的军费支出,看来并不像遵循“以牙还牙”的重复囚徒困境式的军备竞赛,却更可能是被其国内的政策所驱使。)这可能是一次性博弈和重复性博弈中的理性行为不同的例子。

对一次性囚徒困境博弈来说,最佳(点数最大化的)策略是简单地背叛;正如前面解释的,无论对手的行动可能是什么,这都是真实的。但是,在重复的囚徒困境博弈中,最佳策略依赖于可能的对手的策略,和他们怎样对背叛和合作作出反应。例如,考虑这样一个人群,那里每个人每次都背叛,除了一个人是遵循以牙还牙策略。这个人处于一种轻微的不利地位,因为第一回合的损失。在这样的人群中,对这个人来说最佳策略就是每次都背叛。在一个有一定的百分比的总背叛者而剩下的则是以牙还牙者的人群中,对个人来说的最佳策略依赖于这个百分比和博弈的长度。

一般有两种方法得到最佳策略:贝叶斯纳什均衡:如果对抗策略的统计分布能被确定(例如,50%以牙还牙,50%一直合作),就能从数学上获得最佳的相对策略。已经有了人群的蒙特卡罗模拟,在这里低分个人消失了,高分个人一再被生产出来(一种获得最佳策略的天才算法)。决赛人群中的算法合成通常依赖于初赛人群中的算法合成。尽管以牙还牙始终被认为是最可靠的基本策略,但是在重复囚徒困境的20周年纪念赛中,来英国南安普敦大学的一个小组(由尼古拉斯·詹宁斯(NicholasJennings)领导,包括了拉蒂普·达什(RajdeepDash)、萨瓦帕里·拉姆琼(SarvapaliRamchurn)、亚历克斯·罗杰斯(AlexRogers)斯和皮鲁克里士南·维特林根(PerukrishnenVytelingum))介绍了一个新的策略,这个策略证明了它比以牙还牙更成功。这个策略依赖于程序之间的合作,为单一程序中获得了最高的点数。南安普敦大学提交了60个程序参与竞赛,这些程序的开头被设计成通过一组5到10个的动作去彼此识别。一旦这些识别被作出,一个程序将总是合作,其他程序则总是背叛,保证背叛者得到最大的点数。如果程序识别出它在操作一个非南安普敦参与者,这程序将持续地背叛,企图去最小化竞争程序的得分。结果[5],这个策略以获得前3位结束了竞赛,也得到了大量接近底部的位置。虽然这个策略显著地证明了比以牙还牙有效,但是这是因为利用了下述事实:在这个特殊的竞赛中,多重通道是被允许的。在一方只能控制单一参与者的竞赛中,以牙还牙确实是更好的策略。

如果重复囚徒困境将被精确地重复N次,已知N是一个常数,那么会产生另一个有趣的事实。纳什均衡就是每次都背叛。这很容易用归纳法证明。你也可以在最后的回合背叛,既然你的对手将没有机会惩罚你。因此,你们都将在最后的回合背叛。这时,你可以在倒数第二回合中背叛,既然最后一回无论你做什么,你的对手都将背叛。依此类推。为了合作以保持请求,这时未来必须对两个参与者来说是不确定的。一个解决方案是让博弈总次数N变成随机的。对未来的预期必须是无法确定的长度。

另一个单独的案例是“永不停止”的囚徒困境。这个博弈被重复很多次,而且你的分数是一个平均数(当然是用计算机计算的)。囚徒困境博弈是某些人类合作和信任理论的基础。假定囚徒困境能够模拟需要信任的两人之间的交流,群体的合作行为可以用有多个参与者的、重复博弈的变体来模拟。这从而引起了许许多多学者经久不衰的兴趣。1975年,格罗夫曼(Grofman)和普尔(Pool)估计,致力于这方面研究的学术文章,数量超过2000篇。

学习心理学和博弈论。当博弈参与者能学会估计其他参与者背叛的可能性,他们自身的行为就为他们关于其他人的经验所影响。简单的统计显示,总体上,缺乏经验的参与者与其他参与者的互动,或者是典型的好,或者是典型的坏。如果他们在这些经验的基础上行动,(通过更多的背叛或合作,否则)他们可能在未来的交易中受损。随着经验逐渐丰富,他们获得了对背叛可能性的更真实的印象,变得更成功地参与博弈。不成熟的参与者经历的早期交易对他们未来参与的影响,可能比这些交易对成熟的参与者的影响要大得多。这个原理部分地解释了,为什么年轻人的成长经验这么具有影响力,以及为什么他们特别容易被欺负,有时他们本身最后也成为欺凌弱小者。

群体中背叛的可能性,可以被合作的经验所削弱,因为先前的博弈建立了信任。因此自我牺牲行为可以,例如,加强团体的道德品质。如果团体很小,积极行为更可能以互相肯定的方式——鼓励这个团体中的个人继续合作——得到反馈。这与相似的困境有关:鼓励那些你将援助的人,从可能使他们处于危险的境地的行为中得到满足。这类方法主要在互惠利他主义、群选择、血缘选择和道德哲学的研究中涉及。

相关博弈编辑本段回目录

封闭袋子交易
霍夫施塔特2曾提出,像囚徒困境一类的问题,若以简单博弈的形式来说明,人们会较容易理解。例如他以“封闭袋子交易”的简单博弈来说明此论题:两人面对面互相交换封闭的袋子,共同了解其中一方放钱,另一方放商品。双方可以诚实的依照承诺,把东西放到袋子里交换;又或者交空袋子给对方,选择背叛。在这场博弈中,由于背叛可获得巨大利益,必然有多人选择背叛。这意味着理性的商人不会进行这种交易,因而“封闭袋子交易”将由于逆向选择而失去市场。

是敌是友?
“是敌是友?”是一个竞赛表演节目,从2002年到2005年在美国竞赛表演广播网(GameShowNetwork)放映。这是一个用真人进行的囚徒困境博弈例子,不过情景是人造的。这个竞赛表演有三对人参与竞争。当每对人被淘汰时,他们做一个囚徒困境博弈,决定如何分他们的奖品。如果他们都合作(“朋友”),他们的奖品就被平分。如果一个合作而另一个背叛(“敌人”),背叛者得到所有的奖品,合作者什么都得不到。如果都背叛,那么两人都一无所获。注意,这个支付矩阵与前述标准的支付矩阵不同,因为发生“都背叛”的情形和“我合作而对手背叛”的情形,其损失是一样的。和标准囚徒困境的稳定均衡相比,“都背叛”是不稳固的均衡(weakequilibrium)。如果你知道你的对手将成为“敌人”,这时你的选择无法影响你的奖品。在某种意义上,“是敌是友”拥有一个介于“囚徒困境”和“小鸡”之间的支付模型。

这个支付矩阵是:
如果参与者都合作,每人得到+1。
如果都背叛,每人得到0。
如果甲合作而乙背叛,甲得到0而乙得到+2。
是敌是友对于想对囚徒困境作现实分析的人将是有用的。注意到,参与者只能进行一次,所以所有涉及重复进行博弈的观点都不适用,“以牙还牙”策略也无法发展出来。

在是敌是友中,每个参赛者被允许做一个声明,使另一半友在双方秘密决定合作或背叛之前,确信他的友善。可能“打破制度”的方法将是一个参与者告诉他的对手:“我会选择做敌人。如果你相信我后来会和你分奖品的话,就选择做朋友。否则,如果你选择做敌人,我们都回空手而回。”一个更贪婪的版本将是:“我将选择做敌人。我会给你百分之X,剩下的百分之(100-X)归我。所以,要或不要,要么我们都得到一些,要么我们都一无所获。”(在最后通牒博弈中时。)现在,奸计就是去尽量减少那个百分之X,并保持另一个竞争者仍然选择做朋友。基本上,这个参与者必须知道这个界限,在这里他的对手从看到他一无所获中得到的效用,要超过他从肯定能赢得的金钱中得到的效用,如果他顺利的话。

竞赛中这个方法从未被试验过;可能是因为裁判们不会允许,而且即使允许,不平等厌恶也会由于这个规则的使用而导致较低的期望收益。(最后通牒博弈中尝试了这个方法,结果导致对高而不平等的出价的拒绝——在一些案例中,相当于两周的工资优先于两个参与者一无所获被决绝。)

相关词条编辑本段回目录

参考资料编辑本段回目录

→如果您认为本词条还有待完善,请 编辑词条

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
0

标签: 囚犯困境

收藏到: Favorites  

同义词: 暂无同义词

关于本词条的评论 (共0条)发表评论>>

对词条发表评论

评论长度最大为200个字符。