文档库 最新最全的文档下载
当前位置:文档库 › 生活中的囚徒困境

生活中的囚徒困境

生活中的囚徒困境
生活中的囚徒困境

生活中的—“囚徒困境”

摘要:数学源自生活,生活中处处可见数学之美,博弈论—数学的一个分支,无疑在经济、军事、生物、政治等方面发挥了不可替代的作用。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。所谓奕者即博者,在中国很早便存在博弈论的思想。如“世事洞明皆学问,人情练达即文章”,更有“画龙画虎难画骨,知人知面不知心”、“逢人且说三分话,未可全抛一片心。”博弈论中著名的“囚徒困境”在生活中最为真实体现,本文即从囚徒困境出发,寻找生活中“囚徒困境”的例子,如学生减负,商业之间的广告战、价格战等等,阐述了生活中的“囚徒困境”。

囚徒困境—忠诚还是背叛这是一个问题

经典案例:“警察与小偷的故事”

在博弈论中,一个著名例子是由塔克给出的“囚徒困境”博弈模型“警察与小偷的故事”。假设有两个小偷A 和B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。表1给出了这个博弈的。

表1 囚徒困境博弈 [Prisoner's dilemma] A ╲B

坦白 抵赖 坦白

-8,-8 0,-10 抵赖 -10,0 -1,-1

我们来看看这个博弈可预测的均衡是什么。对A 来说,尽管他不知道B 作何选择,但他知道无论B 选择什么,他选择“坦白”总是最优的。显然,根据对称性,B 也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。但他们都抵赖并非个人最优选择。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。

生活中的“囚徒困境”

学生减负—书包越减越重

学生减负的呼声在中国当代教育体制下越来越高,但结果是,辅导班越来越火、学生书包越来越重。表2将清楚的呈现学生各个选择的结果

面对表2的结果,孩子和父母会做出怎样的选择呢?从“囚徒困境”中我们知道,所有的学生会选择增负而不是减负,如果所有人选择减负那么皆大欢喜,如果我选择了减负而别人选择了增负,我考试分数肯定会比别人低,那么我便不能考上好的学校接受更好的教育,在未来求职时我赶不上他人;如果我选择了增负,其他人选择减负,那我会在考试中获得优势。其他学生╲我

减负 增负 减负

所有人综合素质提高 我能考好的大学,找好工作 增负 我的会比其他人低,考不

上好的大学

所有人都会拼命学习

无论如何对于我来说“增负”都是最优势选择,因此所有的学生(我),都会在减负潮中选择增负,他们的书包当然越来越重。

商业价格战—傻作精时精亦傻,输为赢处赢还输

2007年6月21日,光明、蒙牛、伊利等十四家国内外乳业企业在南京签署“乳品自律南京宣言”约定取消特价、降价等促销方式(变相的联合涨价),结果在7月24—8月10日,出现了“买一箱伊利纯牛奶送250毫升牛奶”、“光明利乐枕原价22.8,现价18”、“蒙牛买一箱送一包”,为什么所有的企业都会违约呢?看看表3我们便会明白

A╲B 降价不降

降价-50,-50 100,-100

不降-100,100 0,0

假如A公司选择降价,B公司不降,那么A的利润将增加100,B的利润将减少100。如果A、B都不降价,那么他们的利润增加0,如果都降价,他们的利润都增加-50。如同“囚徒困境”降价才是每个企业的优势选择。就如同看球赛,前边的人为了看得更清楚而站起来,后边的人也必须站起来,否则你就看不到。实际上相当于人人都没站起来。即便如此你还是不得不站起来。

联系最近的一个例子,网络上频频出现“盐”慌,“盐”黄子孙,“盐”而无信等词。只是因为有些人道听途说盐要涨价,便去超市疯狂购盐。以至盐涨价到十多元,为什么这些人会盲目跟风呢?所有人肯定会这样想,我多买一点,若盐涨价了我便赚了一笔,即使不涨价我也不亏损,如果我不买,等盐价上涨之后我再去买,我肯定会亏。于是所有的人都冲到超市去买盐,盐供不应求只能涨价。最后超市不得不每人限购一袋盐。造成盐价上涨的正是这群盲目跟风的人。

中国古代作品中的“囚徒困境”

明代宋濂的《宋文宪文公集》中记载了这样一个故事:

从前书生甲和书生乙是朋友,甲说:“我辈应自己鼓励,他日入朝为官,对趋炎附势只事绝不涉足。”乙说:“这是我痛恨的咬牙切齿的行为,我们干吗不对神起誓。”甲很高兴,二人就歃血为盟。没过多久他们一同入朝为官,当时朝中有一权臣很受宠爱,每天都有大臣到他“家拜访。甲重申誓言“说过的话犹在耳畔,怎么敢忘记啊。”。但是乙后悔了,又怕甲知道他反悔,于是在一大清早,鸡刚一报晓,他就去拜访那位大臣。刚进门看到正屋前东边的走廊有一人,走进一看正是甲。我们用表4展示其中的利害关系:

甲╲乙巴结不巴结

巴结巴结厉害的可能做官甲可能升官

又是一个

“囚徒困境”,无论对方做什么,自己要做的便是平明巴结,权利的影响力以及领导的尊严便是这样形成的。人事的腐败也是这样产生的。

“重复博弈”—柳暗花明又一村

当然并非所有的“囚徒困境”都是“悲惨”结局。在重复博弈的情况下,“囚徒困境”渐渐走向光明。

刘德华的《如果你是我的传说》中这样写道:“天长地久有没有,浪漫传说说太多,有谁为我写下一个。天若有情天亦老,我只担心等不到。矛盾心情怎样面对才好......

浅析博弈中的囚徒困境

浅析博弈中的囚徒困境 班级: 姓名: 学号:

摘要:囚徒困境是博弈论的非零和博弈中具代表性的例子,个人最佳选择并非团体最佳选择,个人理性有时会导致集体的非理性——机关算尽却因而作茧自缚,这就是囚徒困境所反映的问题。 一经典的囚徒困境 “囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人隐瞒,则揭发者因为立功而立即获释,隐瞒者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑三年。 从集体上看,他们应当互相合作,都隐瞒,这样总服刑时间最短(为2年)。但他们会仔细考虑对方可能采取什么样的选择,并从自身利益出发做出选择。他们会意识到,如果同伙隐瞒而自己背叛,就能使自身利益最大化(0年)。但他也意识到,他的同伙也不傻,也会这样来设想,这样的话,他就更不可能让同伙得利(服刑0年)而自己受害(服刑5年)所以结论就是,唯一正确的选择就是背叛同伙,把一切都告诉警方,如果他的同伙保持隐瞒,那么他就会是那个获释出狱,服刑0年。而如果他的同伙也向警方交代了,那么,他只需服刑3年而不是5年。所以结果只能是两个囚犯都坐牢服刑3年,而不是都服刑1年。所以对于他们个人来说都是理性的,然而对集体来说却是非理性的。 二重复多次 如果囚徒困境的情况重复多次,会有什么新的变化?假设重复10次。我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次相反,如果第一次别人保持隐瞒,建立了互信的关系,你也会保持隐瞒,导致最优。当然,两个囚徒都会有相似的想法,在第一局保持隐瞒,以期望建立互信关系,所以双方都会保持隐瞒。第二局时,双方亦应有相似的想法,继续保持隐瞒,以期继续在互信的情况下进行第三局,

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信 息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。 关键词:博弈论囚徒困境经济 一、完全信息静态“囚徒困境”博弈 完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。 它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。 用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) : 囚徒2 囚 徒 1 (表1) 假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。容易看出,由于对

于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。 二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈 研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。 下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长,支付的时间价值必须考虑,记r为折现因子。在有限博弈的情况下,可简化在r = l 的情况下讨论,并采用动态博弈的逆向归纳法进行研究: 先分析t = T阶段两博弈方的选择,这仍然是一个基本的囚徒困境博弈,此时前一阶段的结果已成为事实,又无后续阶段,因此不难得出结论,这一阶段的结果是(坦白,坦白),双方得益( -3 ,-3)。现在回到t = T -1阶段,理性的博弈方对于后一阶段的结局非常清楚,其结果必然是(坦白,坦白),因此不管现阶段的博弈结果是什么,双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3,此时的得益矩阵是: 囚徒2 囚 徒 1 (表2) 容易看出,坦白仍是两博弈方的严格优超策略,即(坦白,坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推,每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白,所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。 再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段,所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”:( 1 ) 开始阶段选择抵赖;( 2 )选择抵赖直到有一方选择了坦白,为了报复对手的背叛,以后都选择坦白。假定囚徒j 严格执行上述冷酷战略,考察囚徒i 的最优策略是否为冷酷战略:如果i 在博弈的某个阶段首先选择了坦白,他在该阶段得到0,而不是-1,但他的这次背叛会遭到囚徒j的永远惩罚,因此i 在随后每个阶段的支付都是-3 。如果下列条件满足,给定j没有选择坦白,i将不会选择坦白: 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……,即: 31 11 r r r -≤- -- 解上述不等式得:r≥1/3 (这个条件容易满足)。就是说,如果r ≥1/3,给定j 坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。进一步假定j首先选择坦白,那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为?如果i 坚持冷酷战略,他随后每个阶段的支付是-3,但如果他选择其他战略,他在任何单一阶段的支付都不会大于-3,因此,无论r是多大,i都有积极性坚持冷酷战略。在博弈重复无数次的情况下,只要r>1/3,子博

囚徒困境案例分析

囚徒困境解说 例子 1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监1年。 若二人都互相检举(相关术语称互相“背叛”),则二人同样判监8年。 用表格概述如下: 解说 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。

二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法 摘要:囚徒困境是博弈论中的一个重要范例,这个问题涉及各个领域。本文通过三个简单的实例,来谈谈解决的方法。 案例一:一个面馆的囚徒困境 我曾经在路边一个小店里吃面,由于当时客人不是很多,就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅,开始的时候为了调动他的积极性他们采用按销售量分成,一碗面给5毛钱提成。这样的话,客人越多他挣得也就越多,为了吸引更多的顾客,他在碗里放很多的肉来吸引回头客,一碗面才6块钱,本来就靠薄利多销,他放的肉多,面馆自然也赚不到钱。后来呢,就换了一个结算方式,给厨师发固定的工资,这样客人多少跟他没有什么关系,但是新的问题又出现了,这次他在碗里放肉放很少,基本上把所有的客人都赶走了。客人少了,他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧,由于没有处理好,使得双方都处在不利的结局。 解决方法:面馆的老板应该对厨师明确,每碗面的元材料是固定的,大师傅的工资还是按照销售量提成走,但是前题是每个月使用的原材料不能超额,否则只有基本工资。或者就规定每碗面里就放多少克肉。此外,还有一个更简单的办法就是:面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。 经过以上的分析,我们可以得知解决的方法:1.工资加提成的制度确实能调动员工的积极性;2.权利下放可以,但是要有度;3.员工的工资提成不能只和销量挂钩,应该和老板的利润挂钩。4.有效的沟通、激励,平时给员工传达精神的奖励,让员工认为自己也是公司的主人。 案例二:小餐馆的囚徒困境 在天津新建的一片经济适用房社区里有两家小餐馆,他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房,而周边像小饭馆这样的生活配套设施很缺乏,所以附近的建筑工人都是在这两家小饭馆解决三餐。 这两家餐馆因为在口味、价格、菜的品种等都基本相同,所以一直以来这两家面对都是这些人,营业额都差不多,而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长,就在今年的夏天,两家餐馆的其中一家,暂且称为A

浅析囚徒困境与纳什均衡

浅析囚徒困境 囚徒困境是博弈论的非零和博弈中具代表性的例子,指反映个人最佳选择并非团体最佳选择。 囚徒困境的经典案例这里不再复述,让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境:减轻中小学生过重负担喊了20多年,仅1985年至2000年的15年里,中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效,中小学生课业负担不减反增。 又比如近年来炒得火热的楼市——“我没买房,结果房价还是涨了,因为我们无法保证大家都不买房。可是,我错了吗?没有。当初如果我买房了,房价下跌了呢?因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下,房价竟还能且调且涨。可是,我对了吗?没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”:买,难担高房价重负;不买,难受房价节节攀升的煎熬。 再看中国的法治之路。虽然法治让所有人都长期受益,甚至执政者自己也不例外,但是一个狭隘理性社会却偏偏无力支撑法治,以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人,不会故意给自己找茬,多数律师也不例外。不过,任何事物都有两面性,“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”:一种行为模式对于个人看起来是很理性的,但是对于个人构成的集体来说却是非理性的,最后对于每个人来说也是非理性的。我们都不敢站出来说话,对每个人来说都是很“理性”的一种行为方式,但最后的结果只能是让整个社会丧失法治。 但囚徒困境一定是坏事吗?就以囚徒困境的经典案例来说,作为一个比喻,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就巴不得他们不能合作。 然而如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。比如在楼市的囚徒困境中,政府能适当调控房价,给予购房者房价稳定合理的承诺,那么楼市的囚徒困境是有可能破解的。 在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出

囚徒困境

囚徒困境(prisoner's dilemma )是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 概念释义 囚徒困境(prisoner's dilemma ):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。 单次和多次重 单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。 在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。 囚徒困境的主旨 囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。 固定局数的囚徒困境 试想像囚徒困境的情况进行十次。 我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次别人保持沉默,建立了互信的关系,你也会保持沉默,导致帕累托最优。 当然,两个囚徒都会有相似的想法,在第一局保持沉默,以期望建立互信关系,所以双方都会保持沉默。第二局时,双方亦应有相似的想法,继续保持沉默,以期继续在互信的情况下进行第三局,以致余下的八局。这种想法合理吗? 在第十局时,互信的关系明显是没有意义的,因为十局已经完结,囚徒没有必要为维持互信的关系而沉默(没有第十一局),所以第十局囚徒一定会背叛对方的,理由和只有一局囚徒困境一样。 问题是,既然大家都知道在第十局,无论如何对方都会背叛自己的,你在第九局保持沉默也是没有意思的,要知道,保持沉默(友好关系)的原因是为了希望下一局别人保持沉默。所以第九局双方都一定会背叛对方的。 下一个问题是,双方都有相同的想法,明知第九局对方会背叛自己,所以第八局保持沉默也是没有意思的,第七局亦然,如此类推,纳什均衡是十局都会互相背叛,建立互信关系是没有可能的。 只有在囚徒困境的局数大家都不肯定的情况下,上述的推论才不会发生,才会出现互相保持沉默的现象。 经典的囚徒困境 例子 1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获

1囚徒困境

囚徒困境简介 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 囚徒困境最早是由美国普林斯顿大学数学家曾克1950年提出来的。他当时编了一个故事向斯坦福大学的一群心理学家们解释什么是博弈论,这个故事后来成为博弈论中最著名的案例。故事内容是:两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是“坦白从宽,抗拒从严”,如果两人都坦白则各判8 年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 从图表里我们可以看到,整体来说,都抵赖是最优选择,总共只需要关两年。可会出现这个结果吗? 答案是不会。 首先看A,如果B选择坦白,那么他也应该选择坦白,这样只要关八年,否则都要关十年;如果B选择抵赖,那么他还是应该选择坦白,因为这样他就可以直接回家啦,不用关一年了。所以无论B怎么选择,A都应该选择坦白。这个分析对B来说也是一样,他也应该选择坦白,所以最终他们两个肯定都会被关八年,多么可怜啊,这就是人们著名的“囚徒困境”。 囚徒困境的主旨为,囚徒们虽然彼此合作,坚不吐实,可为全体带来最佳利益(无罪开释),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期),也因为同伙把自己招出来可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。 囚徒困境的应用 许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。 在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。五花八门的价格联盟总是非常短命,道理就在这里。 并不是每次个人的“理性选择”都能让自我利益最大化,也许会让你陷入一个“囚徒困境”。大量例子说明,在“囚徒困境”中,常常是先动手的一方会占一些优势。那么,“先下手为强”吧。

生活中的囚徒困境

生活中的—“囚徒困境” 摘要:数学源自生活,生活中处处可见数学之美,博弈论—数学的一个分支,无疑在经济、军事、生物、政治等方面发挥了不可替代的作用。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。所谓奕者即博者,在中国很早便存在博弈论的思想。如“世事洞明皆学问,人情练达即文章”,更有“画龙画虎难画骨,知人知面不知心”、“逢人且说三分话,未可全抛一片心。”博弈论中著名的“囚徒困境”在生活中最为真实体现,本文即从囚徒困境出发,寻找生活中“囚徒困境”的例子,如学生减负,商业之间的广告战、价格战等等,阐述了生活中的“囚徒困境”。 囚徒困境—忠诚还是背叛这是一个问题 经典案例:“警察与小偷的故事” 在博弈论中,一个著名例子是由塔克给出的“囚徒困境”博弈模型“警察与小偷的故事”。假设有两个小偷A 和B 联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。表1给出了这个博弈的。 表1 囚徒困境博弈 [Prisoner's dilemma] A ╲B 坦白 抵赖 坦白 -8,-8 0,-10 抵赖 -10,0 -1,-1 我们来看看这个博弈可预测的均衡是什么。对A 来说,尽管他不知道B 作何选择,但他知道无论B 选择什么,他选择“坦白”总是最优的。显然,根据对称性,B 也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。但他们都抵赖并非个人最优选择。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。 生活中的“囚徒困境” 学生减负—书包越减越重 学生减负的呼声在中国当代教育体制下越来越高,但结果是,辅导班越来越火、学生书包越来越重。表2将清楚的呈现学生各个选择的结果 面对表2的结果,孩子和父母会做出怎样的选择呢?从“囚徒困境”中我们知道,所有的学生会选择增负而不是减负,如果所有人选择减负那么皆大欢喜,如果我选择了减负而别人选择了增负,我考试分数肯定会比别人低,那么我便不能考上好的学校接受更好的教育,在未来求职时我赶不上他人;如果我选择了增负,其他人选择减负,那我会在考试中获得优势。其他学生╲我 减负 增负 减负 所有人综合素质提高 我能考好的大学,找好工作 增负 我的会比其他人低,考不 上好的大学 所有人都会拼命学习

囚徒困境研究专题

第五章囚徒困境研究专题 一、囚徒困境为什么被关注? 之所以囚徒困境被广泛的关注,不仅仅在于它由强大的解释力,如它可以解释企业竞争,应试教育困境,集体劳动悲剧等等,更重要的在于人们从中看到一个深刻的问题:个体理性与集体理性的冲突。 哈丁的公共地悲剧(1968) 如何破解?重复进行! 什么是重复博弈?重复博弈指的是参与人之间进行多次相同的博弈,每个人所得收益为每次博弈的收益之和。 注意: (1)这里的收益之和应该考虑贴现率。 (2)重复博弈分为有限次重复和无限次重复 有限次重复囚徒困境博弈的特征:(1)完全但不完美信息,(2)重复。 有限次重复囚徒困境的解,每步都“不合作”为纳什均衡。 二、无限次重复囚徒困境中的策略 两个参与人无限次地重复囚徒困境,每个人的收益为每次博弈所获收益之和。在这样的博弈中因无最后一步,我们无法通过逆向归纳法来求解它。 无限次重复囚徒困境博弈及其各种策略分析: 触发策略:参与人开始采取合作行动,若发现对方在某步采取“背叛”行动,参与人以后都采取背叛行动。 “永远合作”:在每个囚徒困境博弈中均采取“合作”策略二无论对方采取什么策略。一旦采取这个策略,对方的最优策略是每步均采取“背叛”策略。在重复囚徒困境博弈中人们通过策略的变化或偏离进行学习的。一旦人们的合作行动的偏离——无论这样的偏离是有意还是无意的——得到额外的好处、对方遭受损失,同时这样的偏移没有被“惩罚”,人们将尝试性的进一步偏移。我们看到,若某个参与人在重复囚徒困境中采取永远“合作”,其结果是对方将通过一步步偏移,直至永远偏离。因此,理性人应该知道上述这个分析的结论,他不会采取这个永远合作策略。 “永远背叛”策略: 在对方第一步采取合作并假定对方以后采取“一报还一报”的情况下,第一步或者某一步主动采取“背叛”的收益为: U=4+2δ+2δ2+……=4+2δ/(1-δ) U’= 3+3δ+3δ2+……=3+3δ/(1-δ) U≥U’ δ≤1/2.

浅析“囚徒困境”模型中的“理性”假设

浅析“囚徒困境”模型中的“理性”假设 “囚徒困境”博弈模型中个体理性和集体理性的冲突对经济学的基本假设——“理性经济人”造成了严重挑战。认为“囚徒困境”中之所以出现表面的理性冲突是因为囚徒并非真正理性,之后笔者试着给出了两种可以化解这种冲突的方案:一种是改变博弈的理性选择方式,一种是集体理性工具说或集体利益幻象说,这一过程构成笔者对“理性经济人”假设的反思。 标签:“理性经济人”假设;囚徒困境;个体理性;集体理性 引言 “理性经济人”假设是西方经济学理论分析的逻辑起点,它为构建精致庞大的经济学理论体系奠定了一个公理化的起点。在以此为前提取得了丰硕的理论研究成果的同时,它也遭到了众多批判和质疑。1950年普林斯顿大学的塔克(Tucker)教授提出的“囚徒困境”博弈模型是对这一假设的有力冲击。在这一模型里,每个囚徒都是“理性的”,而且他们也都知道对方是“理性的”,每个囚徒都选择了对自己而言是理性的“占优策略”,而结果对每个人而言却都是次劣的,对集体而言则是最劣的[1],这不符合“理性经济人”假设的逻辑结果,即个体理性的利益最大化行为的自然结果即是集体利益的最大化。这促使笔者思考,或者是研究者们在这一模型里对“理性经济人”假设的理解有偏差,或者是这一假设本身即有暗伤存在,囚徒博弈只是帮助我们发现了这一点;或者是这一假设根本不适用于分析该模型中囚徒的策略选择行为,这一点显然是试图逐渐扩张到解释预测一切人类行为的帝国主义经济学所不愿意承认的。而笔者深信,每个囚徒可以选择的“沉默”(合作)与“坦白”(背叛)两种策略不可能都是不理性的,至少有一个策略是相对最为理性的;同样,仅有可能出现的四种结果(最优,次优,次劣,最劣)也不可能对于每个囚徒而言都是不理性的,至少有一个结果是相对最为理性的[2],在模型中如何使理性的策略与理性的结果统一起来,即实现手段理性与目标理性的统一,这是理性的任务。 一、“囚徒困境”及其出现的原因分析 “囚徒困境”博弈模型最初由普林斯顿大学的塔克教授提出。经典的“囚徒困境”如下所述[3]: 两个囚徒被警察抓住后分别关押,警方知道他们有罪,但是苦于缺乏充足的证据。警察给他们的政策是“坦白从宽,抗拒从严”。每个囚徒面临的两个策略选择“沉默”(合作)和“坦白”(背叛)。如果一方“坦白”,而另外一方“沉默”,则坦白方将被释放,而沉默方将被判重刑10年;如果双方均“坦白”,则每人将被判刑8年;如果双方均“沉默”,警方因为没有足够的证据而只能给他们轻微的象征性惩戒,判刑半年。 他们的支付矩阵如下所示:

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境” 博弈论中有一个经典案例囚徒困境” 。两个共谋犯罪 的人被关入监狱,不能互相沟通情况。如果两个人都不揭发 对方,则由于证据不确定,每个人都坐牢一年;若一人揭发, 而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。囚犯可以做出如下选择:1、供出他的同伙(即与 警察合作,从而背叛他的同伙),2、保持沉默(也就是与他的 同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。 当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。 A 犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。 但他也意识到,他的同伙也不是傻子,也会这样来设想他。 所以A 犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A 犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就

囚徒困境实验报告

《实验经济学》结课论文总分 囚徒困境实验报告 学院财政税务学院 专业12级资产评估 姓名李岩 学号0506 囚徒困境实验分析 一、实验目的 根据囚徒困境经典悖论,通过实验来探寻单词与多次重复结果,分析结论。然后通过研究“囚徒困境”,了解囚徒困境产生的原因,想出走出囚徒困境的方法,并且理解和利用囚徒困境解决生活中与经济中的实际问题。二、实验原理 囚徒困境是博弈论的非零和博弈中具代表性的例子。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。

若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 三、 实验说 明 通过角色扮 演的方式再现经典的囚徒困境。实验者两人一组,扮演囚徒。 在相同的情境下看不同的实验者如何选择策略来 完成实验。 实验并没有考虑其他客观因素,是在完全假设的没有任何干扰囚徒做出选择的因素的情境下进行的。 实验规则:实验参与人被随机地分配到有两个人组成的不同小组中。如果小组中的两个成员都选择坦白,那他们将会分别获得6年的刑期;如果小组中的两个成员都选择否认,那他们将会分别获得3年的刑期;如果小组中有一个成员选择坦白、另一个选择否认,那么选择坦白的成员获得1年的刑期,选择否认的成员获得10年的刑期。 四、 实验准备 实验小组一共五人,通过抽签的方式分出两人,一人为囚徒一,一人为囚徒二。 实验分为两种,一个是单次,一个为多次。 另外三人分别记录单次实验与多次试验的结果,分析数据。 五、 实验步骤 1、在单次实验的情况下,囚徒一与囚徒二分别只有一次机会选择拒绝或坦白。 2、在多次重复实验的情况下,分为三轮,囚徒一与囚徒二分别有十次机会 甲沉默 甲背叛 乙沉默 二人同服刑1年 乙服刑10年,甲即时获释 乙背叛 甲服刑10年,乙即时获释 二人同服刑8年

论“囚徒困境”现象及其普遍意义

【摘要】本文从博奕论的经典命题“囚徒困境”现象出发,论述了“囚徒困境”现象及其普遍意义,“囚徒困境”现象与企业竞争情报以及价格战中的合作双赢;运用“囚徒困境”博奕对两个势均力敌的竞争对手之间的价格进行了分析,认为价格战是可以避免的,合作可以带来双赢。 【关键词】博弈论囚徒困境企业竞争情报价格战合作双赢 “生活是一个永无止息的决策过程,我们每个人都无法逃避这样的现实:或是成为某个策略的影响者,或是被某个策略所影响。其实,我们每个人都是生活这场游戏的策略家。既然这样,当一个出色的策略家总比当一个蹩脚的策略家更好一点。” 目前博弈论的发展正越来越受到各个领域的重视,因为在现实生活中矛盾和冲突总是无所不在,而利用博弈论可以帮助我们很好地解决这些现实生活中的矛盾和冲突问题。由此可见,如何在矛盾和冲突中成功的选择和运用策略是一个很有意义的问题。 一、“囚徒困境”现象及其普遍意义 1.“囚徒困境”现象 “囚徒困境”(Prisoner, s Dilemma)的具体内容如下:两个嫌疑犯作案后被警察逮捕,分别关在不同的屋子里审讯,警察告诉他们,如果两个人都坦白,那么每个人判刑8年;如果两个人都抵赖,每个人判刑1年(或许因为证据不足);如果其中一个人坦白,另一个人抵赖的话,坦白的人释放,抵赖的人判刑10年。 在这个博奕中,纳什均衡是(坦白,坦白),尽管从总体上看,(抵赖,抵赖)是对两个人都有益的结果,但由于不构成纳什均衡,所以不是该博奕的解。给定B坦白的情况下,A的最优战略选择是坦白,AB最优战略的组合(纳什均衡)却不是总体最优的选择。有没有可能其中一个人选择抵赖呢?按照人是理性的假设,没有人会积极地这么做,因为如果对方坦白的话,自己就可能被判刑10年,理性的人是不会冒这种风险的。囚徒困境反映了一个深刻的哲学问题:个人理性和集体理性的矛盾。 在这个博奕中,两个博奕方对对方的可能得益完全知晓,并且各自独立作出策略选择。每个博奕方选择自己的策略时,虽然无法知道另一方的实际选择,但

经典的囚徒困境

经典的囚徒困境 1950年,由就職於兰德公司的梅里尔·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式阐述,並命名为「囚徒困境」。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯,分别和二人见面,并向雙方提供以下相同的选择: ?若一人認罪並作证检控對方(相關術語稱「背叛」對方),而對方保持沉默,此人将即時獲释,沉默者将判監10年。 ?若二人都保持沉默(相關術語稱互相「合作」),则二人同樣判监半年。 ?若二人都互相检举(互相「背叛」),則二人同樣判監2年。用表格概述如下: 解說 如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,

此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方选择;而即使他们能交谈,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇: ?若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。 ?若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。 二人面對的情況一樣,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此,这場博弈中唯一可能达到的纳什均衡,就是雙方参与者都背叛對方,結果二人同樣服刑2年。 这場博弈的纳什均衡,顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,兩人都只會被判刑半年,总体利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛,结果二人判监均比合作為

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展 发表于:分类:未分类 博弈论()对人的基本假定是:人是理性的(,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年; 如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。 囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。 在经济学方面的实例: 一.电信价格竞争 根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商与, 他们在电信某一领域展开竞争,一开始的价格都是。 (中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。 正因为是政府扶植起来鼓励竞争的,所以得到了政府的一些优惠,其中就有的价格可以比低%。这一举动,还不会对产生多大的影响,因为的根基实在是太牢固了。在这样的市场分配下,、可以达到平衡,但由于在价格方面的优势,市场份额逐步壮大,到了一定程度,对造成了影响。这时候,该怎么做?不妨假定:降价而维持,则获利,损失,整体获利; 维持且也维持,则获利,获利,整体获利; 维持而降价,则损失,获利,整体获利; 降价且也降价,则损失,损失,整体损失。

博弈论中的囚徒困境在生活中的应用

博弈论中的囚徒困境在生活中的应用 囚徒困境最早出现在1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 若二人都互相检举(互相“背叛”),则二人同样判监2年。 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: (1)若对方沉默、背叛会让我获释,所以会选择背叛。 (2)若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 一,囚徒困境之于异地恋

囚徒困境(博弈论的经典案例)

囚徒困境(博弈论的经典案例) 学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境,非常耐人回味。 囚徒困境,说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。 这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。----那么,这两个囚犯该怎么办呢? 是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上

意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。 当然,在现实世界里,信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中,其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。----但是,无论在自然界还是在人类社会,合作都是一种随处可见的现象。 那么,问题就出现了:到底是何种机制促使生物体或者人类进行相互合作呢?----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,对合作的问题久有研究兴趣。为了进行关于合作的研究,他组织了一

浅析囚徒困境与纳什均衡之欧阳家百创编

浅析囚徒困境 欧阳家百(2021.03.07) 囚徒困境是博弈论的非零和博弈中具代表性的例子,指反映个人最佳选择并非团体最佳选择。 囚徒困境的经典案例这里不再复述,让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境:减轻中小学生过重负担喊了20多年,仅1985年至2000年的15年里,中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效,中小学生课业负担不减反增。 又比如近年来炒得火热的楼市——“我没买房,结果房价还是涨了,因为我们无法保证大家都不买房。可是,我错了吗?没有。当初如果我买房了,房价下跌了呢?因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下,房价竟还能且调且涨。可是,我对了吗?没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的

“调侃”折射出当下楼市的“囚徒困境”:买,难担高房价重负;不买,难受房价节节攀升的煎熬。 再看中国的法治之路。虽然法治让所有人都长期受益,甚至执政者自己也不例外,但是一个狭隘理性社会却偏偏无力支撑法治,以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人,不会故意给自己找茬,多数律师也不例外。不过,任何事物都有两面性,“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”:一种行为模式对于个人看起来是很理性的,但是对于个人构成的集体来说却是非理性的,最后对于每个人来说也是非理性的。我们都不敢站出来说话,对每个人来说都是很“理性”的一种行为方式,但最后的结果只能是让整个社会丧失法治。 但囚徒困境一定是坏事吗?就以囚徒困境的经典案例来说,作为一个比喻,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就巴不得他们不能合作。 然而如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。比如在楼市的囚徒困境中,政府能

相关文档
相关文档 最新文档