文档库 最新最全的文档下载
当前位置:文档库 › 博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展
博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展

05-06-13 10:57 发表于:《没有范的世界》分类:未分类

博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。

“囚徒困境”

“囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;

如果都不坦白则因证据不足各判1年。

在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。

囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。

在经济学方面的实例:

一.电信价格竞争

根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。

正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。这时候,A该怎么做?不妨假定:

A降价而B维持,则A获利15,B损失5,整体获利10;

A维持且B也维持,则A获利5,B获利10,整体获利15;

A维持而B降价,则A损失10,B获利15,整体获利5;

A降价且B也降价,则A损失5,B损失5,整体损失10。

从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最大化,A就不可避免地选择了降价。从B角度看,效果也一样,降价同样比维持好,其降价收益为5,维持收益为2.5,它也同样会选择降价。在这轮博弈中,A、B都将降价作为策略,因此各损失5,整体损失10,整体收益是最差的。这就是此博弈最终所出现的纳什均衡。我们构造的这一电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。

许多其他行业的价格竞争都是典型的囚徒困境现象,如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

二.OPEC组织成员国之间的合作与背叛

“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。

上述我们在对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。而在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。比如中东石油输出国组织(OrganizationofPetroleumExportingCountries简称OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈(One shot game)的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定

理”(Folk Theorem)的含义。

合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。所以合作是非常困难的。所以OPEC组织经常会有成员国不遵守组织的协定,私自增加石油产量。每个成员国都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家都增加产量,造成石油价格下跌,大家的利润都受到损失。当然,一些产量增加较少的国家损失更多,于是也更加大量生产,造成价格进一步下降--结果,陷入一个困境:大家都增加产量,价格下跌,大家再增加产量,价格再下跌……。

理论上,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作10次,那么在第九次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作,那么就很可能在

第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作……一直到,从第一次开始大家都不会采取合作态度。

以上是运用博弈论中的经典案例“囚徒困境”对现实经济生活的一些简单的

理论上的分析,虽然在现实生活当中影响人们决策和态度的因素很多,但是,博弈论作为现代经济学的前沿领域,始终是一个强有力的分析工具。

囚徒困境在理论上的延伸:

一、博弈中最优策略的产生

艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。

社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。

A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C 的得零分,选D的得5分;如果AB都选D,双方各得1分。

显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。

对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。

如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。

如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,且

W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。

艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。

第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能总是合作,即" 可激怒的";第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即"宽容性"。

为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是:第一,"一报还一报"仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是"不善良的",后15名中,只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是"清晰性",能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。"一报还一报"就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。

二、合作的进行过程及规律

"一报还一报"的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。

假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,"一报还一报"的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。

实验结果很有趣。"一报还一报"原来在群体中占1/63,经过1000代的进化,结构稳

定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个"不善良的"哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了"一报还一报"之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。

进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。

那么,在一个极端自私者所组成的不合作者的群体中,"一报还一报"能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是"一报还一报"的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突破了"囚犯困境"的研究困境。

在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。

那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的时候一方总是要小小地进攻一下的,在中越前线就是这样)第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。第五、不要嫉妒人家的成功,"一报还一报"正是这样的典范。第六、不要首先背叛,以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报,对合作也要作出回报。第八、不要耍小聪明,占人家便宜。

(打桥牌和打麻将的区别)

艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合

作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。

当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,吴坚忠博士经研究发现,以修正的"一报还一报",即以一定的概率不报复对方的背叛,和 "悔过的一报还一报",即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强,"悔过的一报还一报"效果越好,"宽大的一报还一报"效果越差。

三、艾克斯罗德的贡献与局限性

艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。(刘邦和项羽的战争)

艾氏所发现的"一报还一报"策略,从社会学的角度可以看作是一种"互惠式利他",这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。

囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──"社会悖论",或"资源悖论"。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。

艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,"投桃报李"、"人不犯我,我不犯人"都体现了"tit for tat"的思想。但这些东西并不是最优的,因为"一报还一报"在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了"以德报德,以直报怨"这样精彩的修正策略,所谓"直",就是公正,以公正来回报对方的背叛,是一种修正了的"一报还一报",修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。

但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,《合作的进化》一书暗含着一个重要的假定,即,个体之间的博弈是完全无差异的。现实的博弈中,对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0 分,这样,弱者的报复就毫无意义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此,程序

还可以在此基础上进一步改进。

其次,艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术,合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史,以便作出反应,这些都暗含着"预期"行为。在应付复杂的对策环境时,信任可能是对局双方达成合作的必不可少的环节。但是,预期与信任如何在计算机的程序中体现出来,仍是需要研究的。

最后,重复博弈在现实中是很难完全实现的。一次性博弈的大量存在,引发了很多不合作的行为,而且,对策的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间的核威慑。在这些情况下,社会要使交易能够进行,并且防止不合作行为,必须通过法制手段,以法律的惩罚代替个人之间的"一报还一报",规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。

以上是我整合有关文章贴上去的,尤其是后半段的程序竞赛相当精彩。希望对各位有所启发。

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法 摘要:囚徒困境是博弈论中的一个重要范例,这个问题涉及各个领域。本文通过三个简单的实例,来谈谈解决的方法。 案例一:一个面馆的囚徒困境 我曾经在路边一个小店里吃面,由于当时客人不是很多,就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅,开始的时候为了调动他的积极性他们采用按销售量分成,一碗面给5毛钱提成。这样的话,客人越多他挣得也就越多,为了吸引更多的顾客,他在碗里放很多的肉来吸引回头客,一碗面才6块钱,本来就靠薄利多销,他放的肉多,面馆自然也赚不到钱。后来呢,就换了一个结算方式,给厨师发固定的工资,这样客人多少跟他没有什么关系,但是新的问题又出现了,这次他在碗里放肉放很少,基本上把所有的客人都赶走了。客人少了,他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧,由于没有处理好,使得双方都处在不利的结局。 解决方法:面馆的老板应该对厨师明确,每碗面的元材料是固定的,大师傅的工资还是按照销售量提成走,但是前题是每个月使用的原材料不能超额,否则只有基本工资。或者就规定每碗面里就放多少克肉。此外,还有一个更简单的办法就是:面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。 经过以上的分析,我们可以得知解决的方法:1.工资加提成的制度确实能调动员工的积极性;2.权利下放可以,但是要有度;3.员工的工资提成不能只和销量挂钩,应该和老板的利润挂钩。4.有效的沟通、激励,平时给员工传达精神的奖励,让员工认为自己也是公司的主人。 案例二:小餐馆的囚徒困境 在天津新建的一片经济适用房社区里有两家小餐馆,他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房,而周边像小饭馆这样的生活配套设施很缺乏,所以附近的建筑工人都是在这两家小饭馆解决三餐。 这两家餐馆因为在口味、价格、菜的品种等都基本相同,所以一直以来这两家面对都是这些人,营业额都差不多,而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长,就在今年的夏天,两家餐馆的其中一家,暂且称为A

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信 息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。 关键词:博弈论囚徒困境经济 一、完全信息静态“囚徒困境”博弈 完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。 它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。 用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) : 囚徒2 囚 徒 1 (表1) 假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。容易看出,由于对

于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。 二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈 研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。 下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长,支付的时间价值必须考虑,记r为折现因子。在有限博弈的情况下,可简化在r = l 的情况下讨论,并采用动态博弈的逆向归纳法进行研究: 先分析t = T阶段两博弈方的选择,这仍然是一个基本的囚徒困境博弈,此时前一阶段的结果已成为事实,又无后续阶段,因此不难得出结论,这一阶段的结果是(坦白,坦白),双方得益( -3 ,-3)。现在回到t = T -1阶段,理性的博弈方对于后一阶段的结局非常清楚,其结果必然是(坦白,坦白),因此不管现阶段的博弈结果是什么,双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3,此时的得益矩阵是: 囚徒2 囚 徒 1 (表2) 容易看出,坦白仍是两博弈方的严格优超策略,即(坦白,坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推,每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白,所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。 再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段,所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”:( 1 ) 开始阶段选择抵赖;( 2 )选择抵赖直到有一方选择了坦白,为了报复对手的背叛,以后都选择坦白。假定囚徒j 严格执行上述冷酷战略,考察囚徒i 的最优策略是否为冷酷战略:如果i 在博弈的某个阶段首先选择了坦白,他在该阶段得到0,而不是-1,但他的这次背叛会遭到囚徒j的永远惩罚,因此i 在随后每个阶段的支付都是-3 。如果下列条件满足,给定j没有选择坦白,i将不会选择坦白: 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……,即: 31 11 r r r -≤- -- 解上述不等式得:r≥1/3 (这个条件容易满足)。就是说,如果r ≥1/3,给定j 坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。进一步假定j首先选择坦白,那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为?如果i 坚持冷酷战略,他随后每个阶段的支付是-3,但如果他选择其他战略,他在任何单一阶段的支付都不会大于-3,因此,无论r是多大,i都有积极性坚持冷酷战略。在博弈重复无数次的情况下,只要r>1/3,子博

浅析运筹学在实际生活中的应用

2011年5月

目录 摘要 (3) 一、引言 (3) 二、运筹学概述 (4) 三、运筹学的发展 (4) 四、运筹学的理论体系 (5) (1)规划论 (5) (2)决策论 (6) (3)运输问题 (6) (4)存储论 (6) (5)图论 (7) (6) 排队论 (7) (7)博弈论 (7) 五、运筹学的应用所涉及的领域 (8) (1)市场销售 (8) (2)生产计划 (8) (3)库存管理 (8) (4)运输问题 (9) (5)财政和会计 (9) (6)人事管理 (9) (7)城市管理 (9) 六、运筹学国内外应用现状 (9) 七、结论 (11) 八、结语 (11) 参考文献 (11)

浅析管理运筹学在实际生活中的应用 摘要:随着经济的快速发展和社会的进步,社会各行各业之间的竞争日益激烈,尤其表现为对资源的争夺。因此,在有限的资源下获得最大的利益是每个竞争者所考虑的问题,这也是经济学和运筹学所着重解决的问题。运筹学就是以数学为主要手段、着重研究最优化问题解法的学科。作为一门实用性很强的学科,运筹学可以用来很好的解决生活中的许多问题。运筹学有着广泛的应用,对现代化建设有重要作用。正因为如此,运筹学在企业决策领域中有着广泛的应用。众所周知,运筹学研究的根本目的在于对资源进行最优化配置,用数学的理论与方法指导社会管理,提高生产效率,创造经济效益。而企业投资的根本目的也是在资源的优化配置和有限资源的有效使用的基础上,达到既定目标,实现企业利润最大化。然而,随着市场竞争的日趋激烈,决策是否有效对于企业生存发展的影响愈来愈大。正确的决策可以使企业获利并促进企业的发展,而错误的或者无效的决策只能使企业无利可获甚至亏损,阻碍企业的发展。而运筹学、经济学、博弈论等决策性的科学可以引导投资者选择最佳投资组合策略,为决策者在投资决策过程中提供一些有价值的思路。用来解决人们用纯数学方法或者现实实验无法解决的问题,对企业正确决策的形成有着积极地促进作用。 关键词:管理运筹学;决策;应用;博弈论;理论体系;效益 一、引言 人们无论从事任何工作,不管采取什么行动,都希望所制订的工作或行动方案,是一切可行方案中的最优方案,以期获得满意的结果,诸如此类的问题,通常称为最优化问题。运筹学就是以数学为主要手段、着重研究最优化问题解法的学科。求解最优化问题的关键,一是建立粗细适宜的数学模型,把实际问题化

小议博弈论在日常生活中的应用

小议博弈论在日常生活中的应用 摘要:博弈过程本来就是一种日常现象。我们在日常生活中经常需要先分析他人的意图从而做出合理的行为选择,选出一种最优策略再加以行动。博弈融合在我们生活的点点滴滴之中,时时与我们相伴,所以,接下来的本文要为我们举例及讨论一些博弈论在生活中的应用。了解生活中的一些博弈事件后,希望我们日后能以理论结合实践,能从博弈论的理论角度出发,在实践中加以应用。 关键词:博弈、选择、策略、日常生活 正文:0引言 许慎在《说文解字》中说:“弈,围棋也!”班固的《弈旨》说:“北方之人谓棋为弈。”杨雄的《方言》也说:“围棋,自关东齐鲁之间谓之弈。”无论是六博还是围棋都是一种游戏,由此看,博弈最初的本意就是一种游戏。然而,随着博弈在社会生活中的发展与应用,现代数学中有博弈论,表示在多决策主体之间行为具有相互作用时,各主体根据所掌握信息及对自身能力的认知,做出有利于自己的决策的一种行为理论。 在现实生活中的个体、团体或其他组织,面对一定的环境条件,在一定的规律约束下,依靠掌握的信息,同时或先后一次或多次,对各自允许选择的行为或策略进行选择并加以实施,并各自从中取得相应结果或受益,这个过程便是博弈的过程。博弈论的应用范围非常广

泛,市场竞争、环境保护、公共资源的开发与利用、各种经济比赛等都属于博弈现象。 1博弈论中的两个基本概念 (1)策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。 (2)博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。 2博弈论在日常生活中的几个应用 (1)个人选择困境 “人生如棋,一步下错,全盘皆输。”这句话主要表达人的一生中的某些抉择的重要性。所以,我们每一次的选择何尝不是一种博弈呢?记得某位老师曾和我们说过这样一种观念——世界存在的一种三维空间,即是在未来的某一时刻存在着无数个你,有当画家的你、当作家的你、当科学家的你、当教师的你等等等等无数的你,然而,就是因为你某一瞬间的决定,杀死了无数个你自己。所以,选择即是与自己博弈的一种形式。譬如,填高考自愿,在当时的一种环境条件下,考虑了各方面的原因,根据自己所掌握的信息,各种纠结后做出了我们最后的选择。所以,可以说,经过这么一场与自己博弈的过程,

博弈论论文囚徒困境的启示和思考

囚徒困境的启示和思考 二、囚徒困境的解释 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。 实际上囚徒困境在我们的实际生活中也有很多,下面举两个进行说明

三、经济学例子:关税战 两个国家,在关税上可以有以两个选择: 提高关税,以保护自己的商品。(背叛) 与对方达成关税协定,降低关税以利各自商品流通。(合作) 当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。) 四、商业例子:广告战 商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。 两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。 此二公司可以有二选择: 互相达成协议,减少广告的开支。(合作) 增加广告开支,设法提升广告的质量,压倒对方。(背叛) 若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。 除了这些还有的很多类似的例子,比如说公共产品的提供,商家的价格战等等,在这里就不多赘述了。 五、“囚徒困境”现象的意义和启示 通过以上几个关于囚徒困境的例子,特别是作为经济管理学院的学生,我们可以将博弈论的一些知识运用好,更好的指导我们的经济生活。理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。在经济发展中,我们应该认识到“看不见的手”还有更多内涵,有待我们去发掘。 本文主要通过对该理论的分析,从中发现对企业经营管理活动的有义启示。 第一,在市场竞争过程中,一名优秀的经营者,无论做任何决策还是考虑问题应该有战略眼观,特别是在做出对企业乃至行业今后发展的竞争策略时,从长远出发,做正确的决断。 第二,保存对手就是保存自己。在市场竞争中,让竞争对手发展就是自己发展,本着求同存异的思想,共谋发展,避免恶性竞争,避免两败俱伤的情况。 第三,市场竞争不是纯粹的竞争,在义和利之间应该如何取舍,是一位有战略眼观的企业家该做的第一个选择。 2杜兰:走出“囚徒困境”《通信企业管理》[J] 2003年第4期,第31页

博弈论中的几个经典问题.doc

几个博弈论中的经典问题 博弈论( GameTheory ),亦名“对策论”、“赛局理论”,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间 的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。 几个重要的概念 1、策略 (strategies) :一局博弈中,每个局中人都有选择实际可行的完整的行动方案, 即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个 可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略。如果在一 个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博 弈”。 2、得失 (payoffs) :一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时 的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策 略有关。所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组 策略的函数,通常称为支付(payoff )函数。 3、次序( orders ):各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策 选择,就出现了次序问题;其他要素相同次序不同,博弈就不同。 4、博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。 在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买 到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。 5、纳什均衡 (Nash Equilibrium) :在一策略组合中,所有的参与者面临这样一种情况, 当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略 他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略 的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡 偶”是在二人零和博弈中,当局中人 A 采取其最优策略a*, 局中人 B 也采取其最优策略 b*, 如果局中人 B 仍采取b*, 而局中人 A 却采取另一种策略a,那么局中人 A 的支付不会超过他采取原来的策略a* 的支付。这一结果对局中人 B 亦是如此。 经典的博弈问题 1、“囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警 察抓住,隔离审讯;警方的政策是 " 坦白从宽,抗拒从严 " ,如果两人都坦白则各判8年;如果一 人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和 不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、 A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这 是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假 定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。 即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是 抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个 组合,因此这个组合是纳什均衡。

生活中的博弈论论文

生活中的博弈论 这学期我在人文课的选择上,我选了“生活中的博弈论”这门课。本来以为会很枯燥乏味,现在课要结束了,回想起来觉得还是挺有趣的。其中含有很浓的智慧气息,趣味横生。下面就是我关于这门课的小论文。 我们首先就会问,什么是博弈论?其实就是研究个体如何在错综复杂的相互影响中得出最合理的策略。生活中每个人,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们“出棋”着数中理性化、逻辑化的部分,并将其系统化为一门科学。事实上,博弈论正是衍生于古老的游戏或曰博弈如象棋、扑克等。数学家们将具体的问题抽象化,通过建立完备的逻辑框架、体系研究其规律及变化。这可不是件容易的事情,以最简单的二人对弈为例,稍想一下便知此中大有玄妙:若假设双方都精确地记得自己和对手的每一步棋且都是最“理性”的棋手,甲出子的时候,为了赢棋,得仔细考虑乙的想法,而乙出子时也得考虑甲的想法,所以甲还得想到乙在想他的想法,乙当然也知道甲想到了他在想甲的想法… 博弈论怎样着手分析解决问题,怎样对作为现实归纳的抽象数学问题求出最优解、从而为在理论上指导实践提供可能性呢?现代博弈理论由匈牙利大数学家冯·诺伊曼于20世纪20年代开始创立,1944年他与经济学家奥斯卡·摩根斯特恩合作出版的巨著《博弈论与经济行为》,标志着现代系统博弈理论的初步形成。

博弈论是指某个个人或是组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或是策略进行选择并加以实施,并从各自取得相应结果或收益的过程,博弈论经过了这么多年的发展已经完善成为一门十分重要的经济学分支学科,不管是在结构分析还是决策预测等方面都发挥着越来越重要的作用,尤其对于理性人来说懂得如何博弈就显得越发重要。 下面我说一下我个人的想法。博弈其实就是一种游戏,是如何做出对自己有利选择的游戏,但又区别于传统的如体育运动、下棋、打牌等游戏,同时又和这些有些有本质的共同特征,如都有一定的规则,都有一个结果,策略至关重要,同时策略和得益有相互依存性,游戏者不同的策略会带来不同的结果。这样看来博弈好像和我们身边普通的游戏是一样的,其实这并不奇怪,其实博弈本身的含义就是博弈参与者在一定的规则条件下选择相应的策略以期获得足够的利益的过程,这和传统的游戏是相通的,如最常见的斗地主,就是在一定的规则下(如连牌至少5张一连等等),选择如何出牌(出牌的组合以及出牌的顺序等等)而获胜(当然也可能输)的过程,这本身就是一个三方博弈的过程。 为了能够了解博弈的含义,那么下面我们来看一下经典的博弈模型。 需要提到的当然是任何与博弈有关的书籍中都会讲到的“囚徒困境”。

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

博弈论之囚徒困境

博弈论之囚徒困境 阿普顿是普林斯大学的高材生,毕业后被安排在爱迪生身边工作,他对依靠自学而没有文凭的爱迪生很不以为然。一次,爱迪生要阿普顿算出梨形玻璃泡的容积,阿普顿点点头,心想:这么简单的事一会几就行了。只见他拿来梨形玻璃泡,用尺上下量了几遍,再按照武样在纸上画好革田,列出了一道算式,算来算去,算得满头大汗仍没算出来。一连换了几十个公式,还是没结果,阿普顿惠得满脸通红,狼狈不堪。爱迪生在实验室等了很久,觉得奇怪,便走到阿普顿的工作问,看到几张白纸上密密麻麻的算式.便笑荚说:“您这样计算太浪费时间了。”只见爱迪生将一杯水倒连玻璃泡内,交给阿普顿说:“再找个量筒来就知道答案了。”阿普顿茅塞顿开,终于对爱迪生敬服.最后成为爱迪生事业上的好助手。有时候。科学并不一定意味着烦琐的计算与剥量,而是一种有浓厚艺术气息的思维方式。前者固然可以得出正确的结论,但是后者同样可以用一种出入意表的方式曲径通幽。这种方式,与我们在生活中运用博弈科学有异曲同工之妙。大量的教学模型吓不倒我们,因为我们可以对它们置之不理。有一个脑筋息转弯问题是这样的:在什么情况下零大干二,二大干五,五又大干零’答案是:在玩“石头.剪刀.布”游戏的时候。 博弈.就是用这种游戏思维来突破看似无法改变的局面,解决现实的严肃问题的策略。在博弈中,每个参与者都在特定条件下争取其最大利益,强差一者来必胜券在握,弱者也未必永无出头之日。因为在博弈中,特别是多十参与者的博弈中,结果不仅取决干参与者的实

力与策略,而且还取决于其他参与者的制约和策略。事实上,博弈过程本来就不过是一种日常现象。我们在日常生活中经常薷要先分析他人的意田从而做出合理的行为选择,而所谓博弈就是行为者在一定环境条件和规则下,选择一定的行为或策略加以实施并取得相应结果的过程。 博弈论首先是我们思索现实世界的一套逻辑,其次才是把这套逻辑严密化的数学形式。博弈论的目的在于巧妙的策略,而不是解法。我们学习博弈论的目的.不是为了享受博弈分析的过程,而在于赢得更好的结局。说到底,博弈论毕竟只是一个分析问题的工具,用这个工具来简化问题,使问题的分析清晰明了也就够了。博弈的思想既然来自现实生活,它就既可以高度抽象化地用教学工具来表述,也可以用日常事例来说明,并运用到生活中去。 在斯大林时代的苏联,有一位乐队指挥坐火车前往下一个演出地点。正当他在车看当晚就要指挥演奏的作品乐谱时。两名克格勃(KGB,苏联国家安全警察。实际是政治特务将他作为间谍逮捕了。他们以为那乐谱是某种密码,这位乐队指挥争辩说那只是柴可夫斯基的小提琴协奏曲,却无济于事。在乐队指挥被投入牢房的第二天,审问者自鸣得意地走进来说:“我看你最好还是老实招了吧,我们已经抓住你的朋友柴可夫斯基了.他这会儿正向我们交代呢。你如果再不招就枪毙了你。如果交代了,只判你10年。”笑过之后,每个人都会思考其中所蕴涵的东西。但是如果认为这个笑话仅仅讽刺了克格勃特务的无知与无耻,那是不够的。事实上,克格勃们的花招,是想运

博弈论中的囚徒困境在生活中的应用

博弈论中的囚徒困境在生活中的应用 囚徒困境最早出现在1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 若二人都互相检举(互相“背叛”),则二人同样判监2年。 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: (1)若对方沉默、背叛会让我获释,所以会选择背叛。 (2)若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 一,囚徒困境之于异地恋

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

论囚徒困境

简析博弈论中的囚徒困境 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 经典的囚徒困境 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

用博弈论的眼光来看日常生活中的事例

经 济 博 弈 论 作 业 —日常生活中有趣的小博弈 学院:经济学院 班级:09经济一班 姓名:朱广艳 学号:127生活中的小游戏——博弈无处不在

日常生活中的一切,均可从博弈中得到解释,大到即将进行的美国总统大选,小到宿舍提水事件。因为生活的本质,就是在进行一场游戏。博弈论的知识不仅能在学术界中光彩夺目,在其他领域例也得到充分地利用,在日常生活中我们可以凭借博弈论的思想来分析进而解决问题。博弈论是研究理性的行动者相互作用的形式理论,然而在生活中更多的游戏不仅仅是单人博弈,也是双人或多人的博弈。比如:商场谈判、政治斗争、恋爱结婚……都是这类博弈。以下例子就说明了这个问题。 情侣博弈: 某一天我觉得可能是女朋友的生日,但又不能肯定:如果是女朋友的生日的话,①我可以送一束花,女朋友会特别高兴,我的效用增加5个单位,②我不送花,但女朋友会埋怨你忘了她的生日,我的效用降低2个单位;如果不是女朋友的生日的话,①我可以送女朋友一束花,女朋友感到意外的惊喜,我的效用增加3个单位,②我不送花,结果生活同往常一样,可视为我的效用增加0单位。在这个博弈里,可以看到,“自然”可以有两种策略:确定今天是女朋友的生日或确定今天不是女朋友的生日,但不论“自然”采取何种策略,我的最好行动都是买花。买花是我的占优战略。博弈距阵如下(自然的得益皆为0): 自然 小偷和保安: 犯罪和防止犯罪是小偷和保安之间进行博弈的一场游戏。保安可以加强巡逻,或者休息。小偷可以采取作案、不作案两种策略。如果小偷知道保安休息, 他的最佳选择就是作案;如果保安加强巡逻,他最好还是不作案。对于保安,

如果他知道小偷想作案,他的最佳选择是加强巡逻,如果小偷采取不作案,自己最好去休息。当然,小偷和保安都不可能完全知晓对方将采取的行动,因此他们都将估计对方采取某种行动的概率,从而决定自己要采取的行动。结果是,他们将以一定的概率随机地采取行动,这叫“混合策略”。(假定小偷在保安休息时一定作案成功,在保安巡逻时作案一定会被抓住)如下图表示: 小偷 此矩阵可以表示,保安巡逻,小偷不作案,双方都没有收益也没有损失;保安巡逻,小偷作案,保安因抓到小偷受到上级领导的表彰,得到效用2单位,小偷被判刑丧失效用2单位;保安休息,小偷不作案,保安休息的很愉快得到效用2单位,小偷没有收益也没有损失;保安休息,小偷作案,保安因失职被处分而丧失效用1单位,小偷犯罪成功获得效用1单位。这个博弈是没有纳什均衡的。 电信价格: 根据我国电信业的实际情况,可以构造电信业价格战的博弈模型。假设次博弈参加者为电信运营商A与B,他们在电信某一领域展开竞争,一开始价格都为P0。A是中国电信老牌企业,实力雄厚,占据了绝大多数的市场份额,B中国联通则是刚刚成立不久,翅膀还没长硬,是政府为了打破垄断鼓励竞争而筹建起来的。正因为B是政府扶植起来鼓励竞争的,说以B得到了政府的一些优惠,其中就有B的接个可以比P0低5%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但是有一B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成影响。 这时候A该怎么做?不妨假定:

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

经典的囚徒困境

经典的囚徒困境 1950年,由就職於兰德公司的梅里尔·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式阐述,並命名为「囚徒困境」。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯,分别和二人见面,并向雙方提供以下相同的选择: ?若一人認罪並作证检控對方(相關術語稱「背叛」對方),而對方保持沉默,此人将即時獲释,沉默者将判監10年。 ?若二人都保持沉默(相關術語稱互相「合作」),则二人同樣判监半年。 ?若二人都互相检举(互相「背叛」),則二人同樣判監2年。用表格概述如下: 解說 如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,

此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方选择;而即使他们能交谈,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇: ?若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。 ?若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。 二人面對的情況一樣,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此,这場博弈中唯一可能达到的纳什均衡,就是雙方参与者都背叛對方,結果二人同樣服刑2年。 这場博弈的纳什均衡,顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,兩人都只會被判刑半年,总体利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛,结果二人判监均比合作為

相关文档