当前位置：文档库 › 从风险决策中的多次博弈到单次博弈：量变还是质变？

从风险决策中的多次博弈到单次博弈：量变还是质变？

从风险决策中的多次博弈到单次博弈：量变还

是质变？

孙红月/苏寅/周坤/李纾

2012-7-13 11:41:47 来源：《心理科学进展》(京)2011年10期

【作者简介】孙红月，中国科学院心理研究所行为科学重点实验室，北京100101，中国科学院研究生院，北京100049；苏寅，中国科学院心理研究所行为科学重点实验室，北京100101，中国科学院研究生院，北京100049；周坤，中国民航大学安全科学与工程学院，天津300300；李纾，中国科学院心理研究所行为科学重点实验室，E-mail：lishu@https://www.wendangku.net/doc/b07778311.html,，北京100101

【内容提要】诺贝尔经济学奖获得者Samuelson于1963年发现人们在单次和多次博弈条件下决策行为不一致。文章综述了两种博弈条件下人们决策行为的差异并质疑了这种差异的传统理论解释机制。描述或预测决策行为的风险决策理论其实只采用了一种评价法则——期望法则，始终没有跳出“最大化”的窠臼。基于实验证据，我们推测，多次博弈时人们遵守了期望法则，而单次博弈时人们所遵循的是非补偿性法则。从多次博弈到单次博弈，不单单是一种博弈次数上的变化(量变)，而是代表了从期望法则(补偿性法则)到非补偿性法则两种策略之间的转变(质变)。最后，文章介绍了单次、多次博弈问题在医疗、应急管理以及投资领域的体现，并呼吁更多的研究者关注单次、多次博弈问题。

【关键词】多次博弈/单次博弈/风险决策/期望法则

1、引言

我们生活在一个充满不确定性的社会，常常面临和概率有关的风险决策。有时我们面临的是只发生一次的风险事件，有时我们面临的是重复多次的风险事件。例如，去二手市场买车，假设买到的车性能不好的概率是1/5，当我们决定是否为自己买1辆车和是否为公司买100辆车时，可能会做出不同的决定。因为如果买1辆车，那么不管买到的车性能不好的概率是多少，我们都只能得到两种结果，一种是买到好车，另一种是买到性能不好的车。而如果买100辆车，1/5

则意味着100辆车里有20辆是性能不好的车。再如，假设某种药物治疗有1%的可能产生副作用，当医生决定是否将这种药物治疗实施于1个病人还是100个病人时，可能做出不同的决策。如果此药物治疗只在1个病人身上实施，就会有两种结果，一种是没有出现副作用，一种是出现副作用。如果此药物治疗在100

个病人身上实施，1%则意味着100个病人里有1个病人将遭受到副作用的伤害。生活中这样的例子屡见不鲜，那么只发生一次的风险事件和重复多次的风险事件究竟会对我们的决策产生怎样不同的影响呢？本文尝试就这个问题进行比较全面的述评。

2、规范性理论学家眼中的问题

在风险决策领域，规范性决策理论(normative decision theory)假定，人们会按照补偿性法则(compensatory rule)作决策，即根据一个风险选项的总价值或总效用(概率和可能结果的乘积之和)做出决策(Kahneman & Tversky, 1984)。其中，最有具有代表性和影响力的规范性决策理论是期望效用理论(expected utility theory)。该理论认为，当面对概率性事件时，人们应该选择具有最大期望效用(expected utility,简称EU，指结果的效用和概率的乘积)的一项(von Neuman & Morgenstern，1947)。因为期望效用是基于对总体结果的分析而来，所以期望效用理论所采用的是一种长远(long-run)的策略。研究发现，当风险事件只发生一次(single-play,译为单次博弈)时，人们并不会使用这个策略，当同一风险事件重复多次(multiple-play,译为多次博弈)时，人们却能很好地遵循这个策略。

诺贝尔经济学奖获得者Samuelson于1963年首次考察了人们在单次和多次博弈条件下的决策行为。一次午餐时，他向同事们提供了一个看似很有吸引力的掷硬币游戏，如果正面朝上，掷币者将获得$200，如果反面朝上，掷币者将损失$100。即，50%的概率获得$200，50%的概率损失$100。其中一个同事拒绝玩这个游戏，并表示如果让他玩100次的话，他才愿意接受这个游戏。这种貌似很合理的回答引起了Samuelson的关注，他认为这种拒绝一次而接受多次博弈的行为违背了期望效用理论。Samuelson在随后撰写的一篇专门论述这一现象的文章中，将这种偏爱重复多次博弈的行为称为“大数谬论”(a fallacy of large numbers)(Samuelson, 1963)。他证明，如果一个效用函数U(x)，拒绝了在任何原有财产水平上进行的博弈X，那么这个函数也将拒绝将此博弈重复任意次数后

的总博弈S[，n](S[，n]=∑[n][，i=1]X[，i])。即，假定其同事是按照期望效用最大化原则进行决策的人，既然他拒绝了只进行一次时的博弈，那么无论这个博弈重复多少次，他也不应该接受。Samuelson对于其同事在单次及多次博弈条件下的不一致决策现象，实际上并没有做出非常系统的论证。Tversky和

Bar-Hillel(1983)运用更规范的公理分析法(axiomatic analysis)推出，Samuelson 同事(Samuelson's colleague，以下简称SC)的行为模式明显违背了期望效用理论的传递性(transitivity)原则和优势(dominance)原则。既然SC 拒绝了只进行一次时的博弈，那么根据传递性原则和优势原则可以推导出，只进行一次时的博弈的效用大于重复任何次数的博弈的效用，所以他不应该接受重复100次的博弈。但随后有一些研究者认为，这种行为模式是符合期望效用理论的，并尝试通过变换效用函数，来使这种行为模式合理化(Lippman & Mamer, 1988; Ross, 1999)。无论这些争论孰是孰非，以上学者对这个问题的关注引发了更多的研究者开始探寻多次博弈与单次博弈之间的差异。

3、多次博弈与单次博弈差异的实验证据

之后的大量实验研究表明，人们在进行风险决策时，博弈次数的不同确实会导致人们做出不一样的决策，说明Samuelson同事的行为模式具有一定的普遍性。

3.1 多次博弈比单次博弈更遵循期望价值理论

最早关于风险决策的理论，是17世纪两位法国数学家Pascal和Fermat所提出的期望价值理论(expected value theory)，包括期望效用理论在内的规范性决策模型都是在其基础上发展而来。该理论认为，一种结果为(x[，1]，…，x[，n])和出现相应结果的可能性为(p[，1],…，p[，n])的风险选项的吸引力是由其期望价值(expected value，简称EV)EV=∑x[，i]p[，i]决定的(Machina，1987)。研究表明，人们在多次博弈时比单次博弈时更遵循补偿性法则，简单的期望价值理论就能够很好的预测人们的行为。

在多次博弈条件下，人们偏爱具有较大期望价值的混合博弈(既包含风险收益也包含风险损失的博弈)(DeKay & Kim, 2005; Keren, 1991; Klos. Weber, & Weber, 2005; Langer & Weber, 2001; Li, 2003; Montgomery & Adelbratt, 1982;

Redelmeier & Tversky, 1992; Wedell & Bckenholt, 1994)。Li(2003)给被试提供一种抽球游戏：一个罐子里装有100个球，其中88个是红色的，12个是黄色的。每一次将有一个球被随机地抽出。有两种玩法可供被试选择：一种是不论什么颜色的球被抽出，被试都将获得77元，即确定获得77元(EV=77元)；另一种是如果红色的球被抽出，被试将获得100元，如果黄色的球被抽出，被试将获得0元，即88%的概率获得100元，12%的概率获得0元(EV=88元)。结果发现，只允许抽球1次时，有51.5%的被试选择了EV较大的第二种玩法；允许抽球100次时，有75.8%的被试选择了第二种玩法。Montgomery和Adelbratt(1982)首先向被试解释EV的概念，然后给被试呈现17对选项(每个选项附有EV值)，要求被试在每对选项中选出一个偏爱的选项。结果发现，即使提供EV的信息，在单次博弈条件下被试也不会按照EV作决策，而在多次博弈条件下则会选择EV较大的选项。当呈现多次博弈所有可能的获益和损失的结果分布时，人们更加愿意接受多次博弈(Benartzi & Thaler, 1999; Redelmeier & Tversky, 1992)。Redelmeier和Tversky(1992)给被试呈现博弈——50%的概率获得$2000，50%的概率损失$500，只有43%的被试愿意接受这个博弈；当告诉被试这个博弈可以重复5次时，有63%的被试接受这个博弈；当给被试呈现5次博弈实际的结果分布时，83%的被试愿意接受这个博弈。上述研究大多基于选择(choice)任务，另有学者对单次、多次博弈条件下的判断(judgment)任务也进行了探讨。Colbert，Murry和Nieschwietz(2009)沿用Li(2003)的任务情境对单次、多次博弈条件下的判断行为(问被试愿意花多少钱玩以上提到的抽球游戏)进行了研究，发现在多次博弈条件下，人们的对抽球游戏的出价(判断)比在单次博弈条件下的出价更加符合EV,这与人们在完成选择任务时采取的策略相同。

3.2 单次博弈中的非理性现象在多次博弈中消失

在风险决策领域，自期望效用理论提出后，研究者先后发现了一系列违背一般性决策公理或原则的现象，如确定性效应(certainty effect)、偏爱反转(preference reversal)、框架效应(framing effect)现象等。但在多次博弈条件下，这些非理性现象减弱甚至消失了。

3.2.1 独立性原则

期望效用理论的一个基本假设是概率是线性的，因此独立性原则

(independence)被研究者普遍认为是风险决策的重要成分。然而，确定性效应的出现违背了独立性原则。确定性效应指相对于可能的结果，人们会高估确定的结果(Kahneman & Tversky, 1979)。在典型的确定性效应任务中，先给被试呈现一个确定的选项A和一个风险选项B(如选项A：确定获得3元；选项B：80%的概率获得4元，20%的概率获得0元)。之后再给被试呈现风险选项A'和风险选项B’，这两个风险选项是由选项A和选项B的概率都除以一个常数后得到的(如将选项A和选项B的概率同时都除以4后得到，选项A'：25%的概率获得3元；选项B’：20%的概率获得4元)。结果发现，在前一对选项中，大多数被试选择选项A，而在后一对选项中，大多数被试选择选项B’，这称为确定性效应。Keren和Wagenaar(1987)采用上述相同形式的实验材料，让被试分别在选项实施1次、10次和100次时做出选择，结果表明，在单次博弈条件下出现了经典的确定性效应，而在多次博弈条件下这种效应消失了。Barron和Erev(2003)的研究得到了同样的结果。

3.2.2 可传递性原则

偏爱反转问题证明人们的行为或违背了期望效用理论的传递性原则或违背了过程不变性(procedure invariance)原则。在典型的偏爱反转任务中，被试分别做一个选择任务和一个出价任务。选择任务要求被试在两个风险选项中选择一个所偏爱的选项(如A彩票：9/12的机会赢得110元及3/12的机会失去10元；B彩票：3/12的机会赢得920元及9/12的机会失去200元)；在出价任务中，要求被试对每个风险选项的价值进行评估(如上题中，要求被试给出愿意买A彩票和B彩票的价钱)。结果发现，在选择任务中，大多数人选择大概率的彩票A，而在出价任务中，大多数人愿意出更高的价钱购买小概率的彩票B。这就出现了偏爱反转现象。Wedell和Bockenholt(1990)发现，当告知被试风险选项可以重复实施10次和100次时，人们在选择及出价这两种任务下的偏爱一致性会比只实施1次时增强，偏爱反转现象随之减弱。

3.2.3 不变性原则

1972年度诺贝尔经济学奖得主Arrow(1982)认为，成为规范抉择理论所具备的基本条件之一是不变性(invariance)原则，即对一抉择问题所作相等的阐述应该引出相同的偏爱顺序。然而，框架效应的出现表明，对于同一个风险方案的二

择一决策会因为言语表述的改变而改变，具体表现为在收益框架下选择确定选项，在损失框架下选择风险选项(Kahneman & Tversky，1979)。孙红月、饶俪琳、周坤和李纾(2009)在关于应急预案的研究中，让被试分别在收益和损失两种条件下选择应急预案(一个预案的结果估算是确定的，另一个预案的结果估算是风险的)，当预案只实施1次时，被试表现出框架效应，而当预案被实施100次时，这种非理性效应亦消失了。此外，在多次博弈条件下，人们的模糊规避(ambiguity aversion)倾向也都会有所减弱(Liu & Colman, 2009)。

4、多次博弈和单次博弈差异的理论解释机制

4.1 以损失规避为主的解释

简单地从心理学角度来看，重复100次的博弈确实比只进行一次的博弈更具有吸引力，因为它的期望收益为$5000，并且损失的可能性非常小(小于1%)。Lopes(1981，1996)认为，对于单次博弈，不应该考虑规范性决策模型所倡导的长远的期望值，规范性决策模型是违背常识的。因此他呼吁，应该对规范性决策模型进行修正。在风险决策领域，由于规范性决策模型不能很好地解释和预测人们的决策行为，出现了侧重解释和预测决策者实际决策行为的各种描述性决策模型。其中，最具代表性的模型之一是Kahneman和Tversky于1979年提出的预期理论(prospect theory)。该理论通过引入一个非线性的权重函数对期望效用理论做了修正，决策时人们用该函数值与结果的效用相乘，选取乘积值较大的方案。损失规避(loss aversion)，来源于预期理论的价值函数，指损失和获益的心理效用并不等价，损失产生的负效用比客观上等量获益产生的正效用更大(Kahneman & Tversky, 1979)。SC最初就是用损失规避来解释自己的行为。他认为损失$100和获得$200相比较，感觉损失的会比较多(Samuelson，1963)。Aloysius(2007)用损失规避的概念来解释SC的行为并从根本上质疑了Samuelson以及Tversky和Bar-Hillel的分析方法。他认为，以上学者在进行分析时，将重复100次的博弈等同于100次先后进行的单次博弈，这和SC对问题的架构是不同的，他将100次博弈看成是一个整体，由于损失规避心理的存在，重复100次的博弈确实比只进行一次时具有更大的吸引力。因为对于单次博弈来说，有50%的可能性遭受损失，而对于100次博弈来说，有不到百分之一的可能性遭受损失。

进而有学者认为，SC在面对单次博弈时所表现出的损失规避是一种短视性损失规避(myopic loss aversion)(Benartzi & Thaler, 1999)，即只看到眼前的博弈而忽略以后遇到相同或者类似博弈的可能性，最后由于短视而表现出损失规避的倾向。类似地，Kahneman和Lovallo(1993)指出，Samuelson同事的决策框架是狭窄的(narrow framing)，如果偏爱多次博弈，就应该先接受单次博弈，因为很可能在以后遇到其余的博弈。同理，Samuelson提供的博弈是单个博弈还是作为一系列博弈当中的一个博弈，可能会使SC做出不同的决策(Moher & Koehler, 2010)。研究者进一步发现，即使当人们面对的博弈是多次博弈时，也容易由于短视的存在，倾向于只估计一次博弈的结果，而不会将多个单次博弈的结果整合在一起分析，最终因为损失规避使得多次博弈的吸引力有所减弱(Benartzi & Thaler, 1999)。

另外，还有一些解释侧重于将单次博弈和多次博弈的决策过程分为定性和定量两个阶段，如来自期望水平(aspiration level)的解释，即在系统地对博弈进行定量评价之前，先将博弈与期望水平进行定性比较(Wedell & Bckenholt, 1990)。如果真的存在这样一个阶段的话，那么多次博弈将更可能超过期望水平从而进入下一个整合的定量评价阶段，导致多次博弈和单次博弈出现不同。

4.2 从多次博弈到单次博弈：量变？质变？

仔细分析以上关于单次博弈和多次博弈之间差异的解释，我们可以看出，无论是来自期望效用理论的观点还是来自预期理论的观点，这些解释均假定人们在单次博弈和多次博弈两种条件下都遵循期望法则(补偿性法则)做决策。从这个意义上讲，这些解释并没有本质上的不同。然而，现有的实验证据(DeKay & Kim, 2005; Keren, 1991; Klos, Weber, & Weber, 2005; Langer & Weber, 2001; Li, 2003; Montgomery & Adelbratt, 1982; Redelmeier & Tversky, 1992; Wedell & Bckenholt, 1994)提示我们：期望法则也许只适用于多次博弈，而不适用于单次博弈。如果事实确实如此，那么对这个问题的解释会不会发生本质的变化呢？

应用于风险状态下的第一个规范性决策理论是期望价值理论。此后，迫于该理论不能预测及解释行为，人们不断地对风险状态下的决策模式进行修订。圣彼得堡悖论(St. Petersburg paradox)证明，如果人们的风险决策是某种期望值的最大化，那么这个期望值绝不是EV。而艾勒悖论(Allais paradox)又证明，如

果人们的风险决策还是某种期望值的最大化，那么这个期望值既不是EV也不是EU。然而，尽管在该领域的理论发展过程中，涌现了许多自认为不同的规范性或描述性决策模型，但是这些主流的决策模型实际上都只研究及采用了一种评价法则——期望法则(expectation rule)(李纾，2001；李纾等，2009)。他们预先假定被人们选中的方案一定是具备了某种“最大值”的方案，如果被选中的方案被证明不具备客观上的“最大值”，他们就通过对客观风险结果或者对结果的客观概率做适当地主观转化，继而证明被选中的方案是具备了主观上的“最大值”。所以，虽然这些主流的决策模型不断地被质疑，之后又不断地被修订，但却始终没有跳出“最大化”的窠臼。这些模型的真正分歧并不在于人们是否遵循了期望法则，而是具体遵循了哪个最大化规则(Li，1996)。在这一框架下，所有明显不合逻辑的非理性行为，也最终被解释为某种理性决策过程的结果。

实验证据表明，人们在单次和多次博弈条件下的决策行为表现出了本质的不同。在多次博弈时，人们更遵循期望法则作决策，简单的期望价值理论就足以预测被试的决策行为。而单次博弈时，人们的决策行为并没有和期望法则保持一致。Li(2003)发现，被试在单次博弈时并不遵循期望价值理论，而是遵循“齐当别”法则做决策。孙悦和李纾(2005)对澳门人风险知觉与赌博行为的研究表明，正确认识期望价值理论是一回事，而实际参与赌博又是另外一回事，期望价值理论并不会很好地指导人们的实践活动。汪祚军、欧创巍和李纾(2010)通过对决策过程反应时的考察证明，基于期望法则的整合模型不能满意地描述和解释人们的实际决策过程，而基于非期望法则的齐当别模型则能解释大部分实验结果。Rao等人(2011)运用神经影像学的手段探索了决策过程中的内在冲突。这项研究表明，风险决策并不像补偿性法则所描述的那样，是一个通过加权求和的方式给选项赋值的过程，而是一个伴随强烈冲突的非补偿决策过程。汪祚军和李纾(2012)采用眼动技术从决策过程视角对风险决策是否遵循补偿性法则进行了检验。结果表明，自主决策任务条件下的决策过程反应时及信息搜索模式均不同于期望价值迫选任务条件下的决策过程反应时及信息搜索模式，从而说明风险决策并不遵循补偿性法则。苏寅和李纾(2010)也采用眼动技术从信息加工过程的角度考察了人们在风险决策过程中的决策特征，发现在单次博弈条件下时，更多地出现了基于特征(attribute-based)的眼动轨迹，提供了风险决策使用非补偿性法则的证据，在多次博弈条件下，更多地出现了基于选项(option-based)的眼动轨迹，说明人们使用了补偿性法则做决策。

所有这些证据都表明，期望法则只适用于多次博弈，而单次博弈所遵循的是非补偿性法则，如满意(satisficing)法则或齐当别(equate-to-differentiate)法则。从多次博弈到单次博弈，不单单是一种博弈次数上的变化(量变)，而是代表了两种策略之间的转变(质变)。也许我们不应该再局限于在期望法则这个框架下研究多次博弈与单次博弈的差异。

5、单次、多次博弈问题在现实生活中的体现

5.1 医疗领域

20世纪90年代以来，一些研究者尝试将多次博弈的研究应用到医疗领域，因为医疗工作者不仅要为单个病人选择医疗方案，有时也要为患者群体选择医疗方案，那么为患者群体选择医疗方案则是一种多次博弈的形式。Redelmeier和Tversky(1990)发现，当分别为个人和群体选择医疗方案时，医疗工作者和学生被试都会做出不一致的决策。当医生决定是否为患者实施一项额外的血液检测时(该血液检测可能会检测出特殊病因，但要花费被试$20)，相比较于患者群体，医生更倾向于为单个患者实施该血液检测。同样，学生被试推测，医生更可能为单个有血液问题的患者使用一种有副作用的药物(该药物有85%的可能性将患者的寿命延长两年，有15%的可能性将患者的生命减少两年)。然而，随后的研究者都没有验证Redelmeier和Tversky(1990)的结果，而是发现个体和群体的医疗决策之间不存在差异，为群体选择治疗方案时，和为个体选择治疗方案的情况是一样的(DeKay, Hershey, Spranca, Ubel, & Asch, 2006; DeKay & Kim 2005; DeKay, et al. 2000; Hux, Levinton, & Naylor, 1994; Spranca, Minsk, & Baron, 1991)。所以，在以金钱为对象的博弈中人们所表现出的由于博弈次数不同导致的决策行为差异，并没有扩展到包含个体和群体决策的医疗领域。其中最广泛的解释认为，不同病人采取同一治疗方案而遭受的病痛或者生死不能相互抵消(fungibility)，而金钱的得失可以相互抵消，正是这种差异导致单次、多次博弈的研究结果在两个领域出现了不同(DeKay, 2010; DeKay, et al., 2006; DeKay & Kim, 2005)。

5.2 投资领域

投资行为是现实生活中的一种博弈形式，和多次博弈有着相似之处

(Benartzi & Thaler, 1999)。研究者将多次博弈的研究渗透到投资领域，相关的研究主要集中在几个方面：一是投资期限(Investment horizon)是否会影响人们的投资组合(investment portfolio)。一般而言，投资的时间越长，人们越愿意选择风险大但回报也大的投资方案(Dierkes, Erner, & Zeisberger, 2010)。二是评估期(evaluation period)是否会影响人们的风险投资。近年来的相关研究表明，投资者的评估期越长，即越倾向于评估整体结果而不是频繁地对投资绩效进行评估，他们会更愿意承担风险(Bellemare, Krause, Kroger, & Zhang, 2005; Benartzi & Thaler, 1999; Thaler, Tversky, Kahneman, & Schwartz, 1997)。Thaler等人(1997)首次对此现象提供了直接的实验证据。实验中要求被试假想自己是一名投资经理，现有两种期望价值为正的基金可供投资，一个是低风险基金，另一个是高风险股票。被试需要通过经验来了解这两种投资方式的风险和回报分布。结果发现，当向被试提供1个月、1年以及5年评估期的投资回报时，得到5年评估期投资回报信息的被试愿意将更多的钱用于高风险高回报的股票投资。在群体投资决策的研究中同样发现了评估期对投资决策的影响(Sutter，2007)；这种现象在专业的交易人员中也有所表现，甚至程度更大(Haigh & List, 2005)。

5.3 管理领域

在医疗管理中，医疗政策的制定是基于整体效果的分析，依赖一些规范的决策分析方法，通过将不同个体由于采取医疗干预措施所得到的收益和损失加合在一起而制定出来的。而医疗政策的实施往往针对的是单个病人，政策在实施中的风险并不像理论预期的那么小；医疗政策的制定者更关注的是患者群体的利益，从而制定一个“最大化”的方案，但是这对于患者本人或许并不是最优的方案(Asch & Hershey, 1995; Zikmund-Fisher, Sarr, & Fagerlin, Ubel, 2006)。由此学者指出，医疗政策的制定和临床实施之间存在差异，并质疑了一些影响甚广的决策分析方法，如成本效益分析法(cost-effectiveness analysis)以及作为决策分析基础的期望效用理论对于医疗政策制定的指导性(Asch & Hershey, 1995; Cohen, 1996)。类似地，在应急管理领域，预先制定的应急预案是统计意义上的最优方案，但在危机来临时，应急管理者所做出的决策则属于单次博弈。基于此，孙红月等人(2009)通过考察被试在正负两种框架下对6对应急预案的选择偏好，研究了应急预案制定和实施之间的行为差异。结果发现，人们可以根据多次博弈的结果制定出基于期望价值原则的最优预案，但并不会切实地将其应用

于单一的突发事件。在现实生活中，为了尽可能地减少由于政策不能很好地指导实践所产生的不良后果，政策制定和实施之间的差距应该引起相关部门的关注，这也将成为今后心理学以及管理等相关学科的一个重要研究方向。

6、研究展望

在风险决策的理论研究中，20世纪以来的主流经济学始终坚持“理性人”假设，认为人类具有稳定而持续的偏好，人们据此做出各种理性的行为决策。但从上述关于多次博弈的研究推论，从多次博弈到单次博弈，不单单是一种博弈次数上的变化(量变)，而是代表了从期望法则到非补偿性法则这两种策略之间的转变(质变)。在以后的研究中，研究者不应再将两种博弈形式都放在规范性决策理论的框架下，用期望法则去判定人们的行为是否合理，而是应从不同的角度来看待这两种博弈形式。若能认识到这点，将会更有助于我们对单次、多次博弈问题的理解。

近年来一些学者在决策与推理的研究中提出双系统(dual-process)作用模型，这或许能为解释单次和多次博弈的差异提供一个很好的视角。双系统作用模型，即基于直觉的启发式系统(heuristic system)和基于理性的分析系统(analytic system)(孙彦，李纾，殷晓莉， 2007；Smith & DeCoster, 2000; Trimmer, et al., 2008; Frankish, 2010)。启发式系统更多地依赖于直觉，并行加工且加工速度较快；分析系统更多地依赖于理性，串行加工且加工速度慢，主要基于规则进行。由此我们是否可以推测，人们在单次博弈时是在启发式系统的指导下进行的，而多次博弈时人们更多地使用了分析式系统？当前，脑成像技术的出现，为风险决策研究提供了新的研究视角和工具，有助于进一步探索人类决策行为背后的心理机制。研究者可以借助神经科学手段，从神经生理层面揭示导致单次、多次博弈行为差异的原因及作用机制，例如对双系统作用模型能否解释单次、多次博弈差异的检验。同时，由于单次博弈和多次博弈之间存在差异，在现实生活中我们应该尽量避免由于这种差异所带来的损失和失误，如以上提到的政策制定和实施之间的差距，希望更多的研究者将多次博弈问题应用于现实生活，发现并解决实际问题。

Samuelson为后人留下的这个极具挑战性的问题引发了学者将近半个世纪

的争论。但近年来，这方面研究有些阶段性停滞，希望借此机会呼吁国内更多的

研究者关注单次、多次博弈问题。

【参考文献】

[1]李纾.(2001).艾勒悖论(Allais Paradox)另释.心理学报，33(2)，176～181.

[2]李纾，毕研玲，梁竹苑，孙彦，汪祚军，郑蕊.(2009).无限理性还是有限理性？——齐当别抉择模型在经济行为中的应用.管理评论，21(5)，103～114.

[3]苏寅，李纾.(2010，10).从一次到多次，风险决策的眼动研究，第十三届全国心理学学术大会分组报告论文，上海.

[4]孙红月，饶俪琳，周坤，李纾(2009，11).最优应急预案：制定和实施的本质差异.第十二届全国心理学学术大会分组报告论文，济南.

[5]孙彦，李纾，殷晓莉.(2007).决策与推理的双系统——启发式系统和分析系统.心理科学进展，15(5)，721～845.

[6]孙悦，李纾.(2005).澳门人的风险知觉与赌博行为.心理学报，37，260～267.

[7]汪祚军，李纾.(2012).对整合模型和占优启发式模型的检验：基于信息加工过程的眼动研究证据，心理学报，印刷中.

[8]汪祚军，欧创巍，李纾.(2010).整合模型还是占优启发式模型？从齐当别模型视角进行的检验.心理学报，42(8)，821～833.

[9]Aloysius, J. A.(2007). Decision making in the short and long run: Repeated gambles and rationality. British Journal of Mathematical and Statistical Psychology, 60(1),61～69.

[10]Arrow, K. J.(1982). Risk perception in psychology and economics. Economic Inquiry, 20(1), 1～9.

[11]Asch, D. A., & Hershey, J. C.(1995). Why some health policies don't make sense at the bedside. Annals of Internal Medicine, 122, 846～850.

[12]Barron, G., & Erev, I.(2003). Small feedback-based decisions and their limited correspondence to description-based decisions. Journal of Behavioral Decision Making, 16, 215～233.

[13]Bellemare, C., Krause, M., Kroger, S., & Zhang, C.(2005). Myopic loss aversion: Information feedback vs. investment flexibility. Economics Letters, 87(3), 319～324.

[14]Benartzi, S., & Thaler, R. H.(1999). Risk aversion or myopia? Choices in repeated gambles and retirement investments. Management Science, 45, 364～381.

[15]Cohen, B. J.(1996). Is expected utility theory normative for medical decision making. Medical Decision Making, 16,1～6.

[16]Colbert，G., Murray D., & Nieschwietz R.(2009). The use of expected value in pricing judgments. Journal of Risk Research, 12, 199～208.

[17]DeKay, M. L.(2010)Are medical outcomes fungible? A survey of voters, medical administrators, and Physicians. Medical Decision Making(online), DOI:10.1177/0272989X10373146

[18]DeKay, M. L., Hershey, J. C., Spranca, M. D., Ubel, P. A., & Asch,

D. A.(2006). Are medical treatments for individuals and groups like single-play and multiple-play gambles? Judgment and Decision Making, 1(2),

134～145.

[19]DeKay, M. L., & Kim, T. G.(2005). When things don't add up. Psychological Science, 16, 667～672.

[20]DeKay, M. L., Nickerson, C. A. E., Ubel, P. A., Hershey, J. C., Spranca, M. D., & Asch, D. A.(2000). Further explorations of medical decisions for individuals and for groups. Medical Decision Making, 20, 39～44.

[21]Dierkes, M., Erner, C., & Zeisberger, S.(2010). Investment horizon and the attractiveness of investment strategies: A behavioral approach. Journal of Banking & Finance, 34(5),1032～1046.

[22]Frankish, K.(2010). Dual-process and dual-system theories of reasoning. Philosophy Compass, 5, 914～926.

[23]Haigh, M. S., & List, J. A.(2005). Do professional traders exhibit myopic loss aversion? An experimental analysis. Journal of Finance, 60, 523～534.

[24]Hux, J. E., Levinton, C. M., & Naylor, C. D.(1994).Prescribing propensity: Influence of life-expectancy gains and drug costs. Journal of General Internal Medicine, 9,195～201.

[25]Kahneman, D., & Lovallo, D.(1993). Timid choices and bold forecasts: A cognitive perspective on risk taking. Management Science, 39, 17～31.

[26]Kahneman, D., & Tversky, A.(1979). Prospect theory: An analysis of decision under risk. Econometrica, 47,263～291.

[27]Kahneman, D., & Tversky, A.(1984). Choice, values, and frames.

American Psychologist, 39(4), 341～350.

[28]Keren, G.(1991). Additional tests of utility theory in unique and repeated gambles. Journal of Behavioral Decision Making, 4, 297～304.

[29]Keren, G., & Wagenaar, W. A.(1987). Violation of utility theory in unique and repeated gambles. Journal of Experimental Psychology: Learning, Memory and Cognition, 13, 387～391.

[30]Klos, A., Weber, E. U., & Weber, M.(2005). Investment decisions and time horizon: Risk perception and risk behavior in repeated gambles. Management Science, 51,1777～1790.

[31]Langer, T., & Weber, M.(2001). Prospect theory, mental accounting, and differences in aggregated and segregated evaluation of lottery portfolios. Management Science, 47,716～733.

[32]Li, S.(1996). What is the price for utilizing deductive reasoning?

A reply to generalized expectation maximizers. Journal of Economic Behavior and Organization, 29(2),355～358.

[33]Li, S.(2003). The role of expected value illustrated in decision-making under risk: Single-play vs. multiple-play, Journal of Risk Research, 6(2), 113～124.

[34]Lippman, S. A., & Mamer, J. W.(1988). When many wrongs make a right. Probability in the Engineering and Information Sciences, 2, 115～127.

[35]Liu, H. H., & Colman, A. M.(2009). Ambiguity aversion in the long run: Repeated decisions under risk and uncertainty. Journal of Economic Psychology, 30, 277～284.

[36]Lopes, L. L.(1981). Decision making in the short run. Journal of

Experimental Psychology: Human Learning and Memory, 7(5), 377～385.

[37]Lopes, L. L.(1996). When time is of the essence: Averaging, aspiration, and the short run. Organizational Behavior and Human Decision Processes, 65, 179～189.

[38]Machina, M. J.(1987). Choice under uncertainty: Problems solved and unsolved. The Journal of Economic Perspectives, 1(1), 121～154.

[39]Moher, E., & Koehler, D. J.(2010). Bracketing effects on risk tolerance: Generalizability and underlying mechanisms. Judgment and Decision Making, 5(5),339～346.

[40]Montgomery, H., & Adelbratt, T.(1982). Gambling decisions and information about expected value. Organizational Behavior and Human Performance, 29,39～57.

[41]Rao, L.-L., Zhou, Y., Xu, L.-J., Liang, Z.-Y., Jiang, T.-Z.,& Li, S.(2011). Are risky choices actually guided by a compensatory process? New insights from fMRI. PLoS One, 6(3), e14756.

[42]Redelmeier, D. A., & Tversky, A.(1990). Discrepancy between medical decisions for individual patients and for groups. New England Journal of Medicine, 322,1162～1164.

[43]Redelmeier, D. A., & Tversky, A.(1992). On the framing of multiple prospects. Psychological Science, 3, 191～193.

[44]Ross, S. A.(1999). Adding risks: Samuelson's fallacy of large numbers revisited. Journal of Financial and Quantitative Analysis, 34(3), 323～339.

[45]Samuelson, P. A.(1963). Risk and uncertainty: A fallacy of large

numbers. Scientia, 98, 108～113.

[46]Smith, E. R., & DeCoster, J.(2000). Dual-process models in social and cognitive psychology: Conceptual integration and links to underlying memory systems. Personality and Social Psychology Review, 4, 108～131.

[47]Spranca, M., Minsk, E., & Baron, J.(1991). Omission and commission in judgment and choice. Journal of Experimental Social Psychology, 27, 76～105.

[48]Sutter, M.(2007). Are teams prone to myopic loss aversion? An experimental study on individual versus team investment behavior. Economics Letters, 97, 128～132.

[49]Thaler, R. H., Tversky, A., Kahneman, D., & Schwartz, A.(1997). The effect of myopia and loss aversion on risk taking: An experimental test. The Quarterly Journal of Economics, 112(2), 647～661.

[50]Trimmer, P. C., Houston, A. I., Marshalll, J. A. R., Bogacz,R., Paul, E. S., Mendl, M. T., et al.(2008). Mammalian choices: Combining fast-but-inaccurate and slow-but-accurate decision-making systems. Proceedings of the Royal Society B, 275, 2353～2361.

[51]Tversky, A., & Bar-Hillel, M.(1983). Risk: The long and the short. Journal of Experimental Psychology: Learning, Memory, and Cognition, 9, 713～717.

[52]Von Neuman, J., & Morgenstern, O.(1947). Theory of games and economic behavior. Princeton, NJ: Princeton University Press.

[53]Wedell, D. H., & Bckenholt, U.(1990). Moderation of preference reversals in the long run. Journal of Experimental Psychology: Human Perception and Performance, 16, 429～438.

[54]Wedell, D. H., & Bckenholt, U.(1994). Contemplating single versus multiple encounters of a risky prospect. American Journal of Psychology, 107, 499～518.

[55]Zikmund-Fisher, B. J., Sarr, B., Fagerlin, A., & Ubel, P. A.(2006).

A matter of perspective: Choosing for others differs from choosing for yourself in making treatment decisions. Journal of General Internal Medicine, 21, 618～622.^