文档库 最新最全的文档下载
当前位置:文档库 › CH9统计决策-两则趣味贝叶斯统计案例

CH9统计决策-两则趣味贝叶斯统计案例

CH9统计决策-两则趣味贝叶斯统计案例
CH9统计决策-两则趣味贝叶斯统计案例

两则趣味贝叶斯统计案例

趣味案例一

在1787到1788年,也就是纽约州带头鼓动通过新的美国宪法期间,美国第四任总统詹姆士·麦迪逊和开国政治家亚历山大·汉密尔顿都写了许多文章支持通过宪法。但这些文章都是以署名“联邦主义者”匿名发表的。19世纪初,麦迪逊和汉密尔顿两人开始确认各自的著作,但其中有12篇一直颇具争议,就像笼罩着一层面纱,无法以真面目示人。那么如何用统计方法进行分析和识别呢?

类似于《红楼梦》某些章节作者考证中的曹雪芹和高鹗之争,我们当然可以用多元统计分析中的聚类分析进行论证,但在当时,聚类方法还没有得到很好的发展。而且麦迪逊和汉密尔顿在已有著作中的平均句长几乎完全相同,这使得这一能反映写作风格特征的数据失效了。直到1964年,美国统计学家莫斯特勒和华莱士转而从用词习惯上来找出这两位作者的有区别性的风格特征,运用贝叶斯定理判定了《联邦主义论文集》中这些署名有争议的文章的作者。他们找出了几百个无“特定内容”的英文单词,如“if”、“while”、“because”、“over”、“upon”、“whilst”、“as”、“and”等。这些单词在句子里只有语法上的意义,本身并没有什么特定的含义,其使用主要取决于作者的语言习惯。对这两位作者的其他已有确定性著作进行统计分析,结果发现大约有30个虚词的使用频率是不同的。例如,汉密尔顿在他已有的18篇文章中,有14篇使用了“enough”一词;而麦迪逊在他的14篇文章中根本未使用“enough”。汉密尔顿喜欢用“while”,而麦迪逊总是用“whilst”。麦迪逊使用“upon”这个词的频率是每千字平均0.23次,而汉密尔顿对这个词的使用频率非常高,每千字平均3.24次。在12篇署名有争议的文章里,有11篇根本没有用“upon”这个词,而在剩下的那一篇文章中,平均每千字出现1.1次。

需要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各的参数,只根据他们的论文来估计参数值,可能是错误的,参数的确切值应当来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。如此一来,制约麦迪逊和汉密尔顿使用这些虚词的参数本身也有参数,称之为“超参数”。由于英语语言总是随着时间和地域的变化而变化,除了用18世纪的北美作品,还可以搜集其他地区和其他时期的英语文献,来估计这些超参数的参数,称之为“超参数—超参数”。通过重复使用贝叶斯定理,就能决定这些参数的分布,结果发现那位署名“联邦主义者”的作者的真正身份是美国第四任总统麦迪逊。这样就了结了这一考据学上长期悬而未决的公案。两位统计学家所使用的贝叶斯方法也得到了学术界的好评。

趣味案例二

1981年3月30日,一个大学退学学生Hinckley企图对里根总统行刺。他打伤了里根、里根的新闻秘书以及两个保安人员。在1982年审判他时,Hinckley以精神病为理由作为其无罪的辩护。在18个医师中作证的医师是Daniel R.Weinberger,他告诉法院当给被诊断为精神分裂症的人以CAT扫描(计算机辅助层析扫描)时,扫描显示30%的案例为脑萎缩,而给正常人以CAT扫描时,只有2%的扫描显示脑萎缩。Hinckley的辩护律师试图拿Hinckley 的CAT扫描结果为证据,争辩说因为Hinckley的扫描展示了脑萎缩,他极有可能患有精神病,从而免予受到法院的起诉。

让我们尝试用贝叶斯方法对Hinckley是否患有精神病作出判断。一般地,在美国精神

分裂症的发病率大约为1.5%。

设{}C A T B =扫描显示脑萎缩,

{}1A =做扫描的人患有精神病,{}2A =做扫描的人没有精神病

根据上文的叙述可知,()10.015P A =,()10.3P B A =,()20.02

P B A =, 所以()()21110.0150.985P A P A =-=-=。

代入贝叶斯公式得,

()()()()()

111210.0150.30.186

0.0150.30.9850.02j j j P A P B A P A B P A P B A =??===?+??∑

这意味着即使Hinckley 的扫描展示了脑萎缩,他也只有18.6%的可能性患有精神病,因此CAT 扫描无法作为其无罪的证据。

数学第一章统计案例测试1新人教A版选修1 2

高中新课标选修(1-2)统计案例测试题1 一、选择题 1.下列属于相关现象的是() A.利息与利率 B.居民收入与储蓄存款 C.电视机产量与苹果产量 D.某种商品的销售额与销售价格 答案:B 2.如果有95%的把握说事件A和B有关,那么具体算出的数据满足() A.23.841K?B.23.841K? C.26.635K?D.26.635K? 答案:A 3.如图所示,图中有5组数据,去掉组数据后(填字母代),剩下的4组数据的线性相关性最大() A.EB.CC.DD.A 答案:A 4.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结 果(单位:人) 不患肺癌患肺癌不吸烟 7775 42 7817 吸烟 2099 49 2148 合计 9874 91

9 965 根据表中数据,你认为吸烟与患肺癌有关的把握有() A.90% B.95% C.99% D.100% 答案:C 5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表: 晚上白天合计 男婴 24 31 55 女婴 8 26 34 合计 32 57 89 你认为婴儿的性别与出生时间有关系的把握为() A.80% B.90% C.95% D.99% 答案:B 6.已知有线性相关关系的两个变量建立的回归直线方程为yabx??,方程中的回归系数b() A.可以小于0 B.只能大于0 C.可以为0 D.只能小于0 答案:A 7.每一吨铸铁成本c y(元)与铸件废品率x%建立的回归方程568c yx??,下列说法正确的是() A.废品率每增加1%,成本每吨增加64元 B.废品率每增加1%,成本每吨增加8% C.废品率每增加1%,成本每吨增加8元 D.如果废品率增加1%,则每吨成本为56元 答案:C 8.下列说法中正确的有:①若0r?,则x增大时,y也相应增大;②若0r?,则x增

贝叶斯统计方法(可编辑修改word版)

贝叶斯方法 贝叶斯分类器是一种比较有潜力的数据挖掘工具,它本质上是一种分类手段,但是它的优势不仅仅在于高分类准确率,更重要的是,它会通过训练集学习一个因果关系图(有向无环图)。如在医学领域,贝叶斯分类器可以辅助医生判断病情,并给出各症状影响关系,这样医生就可以有重点的分析病情给出更全面的诊断。进一步来说,在面对未知问题的情况下,可以从该因果关系图入手分析,而贝叶斯分类器此时充当的是一种辅助分析问题领域的工具。如果我们能够提出一种准确率很高的分类模型,那么无论是辅助诊疗还是辅助分析的作用都会非常大甚至起主导作用,可见贝叶斯分类器的研究是非常有意义的。 与五花八门的贝叶斯分类器构造方法相比,其工作原理就相对简单很多。我们甚至可以把它归结为一个如下所示的公式: 选取其中后验概率最大的c,即分类结果,可用如下公式表示

贝叶斯统计的应用范围很广,如计算机科学中的“统计模式识别”、勘探专家所采用的概率推理、计量经济中的贝叶斯推断、经济理论中的贝叶斯模型等。 上述公式本质上是由两部分构成的:贝叶斯分类模型和贝叶斯公式。下面介绍贝叶斯分类器工作流程: 1.学习训练集,存储计算条件概率所需的属性组合个数。 2.使用1 中存储的数据,计算构造模型所需的互信息和条件互信息。 3.使用2 种计算的互信息和条件互信息,按照定义的构造规则,逐步构建出贝叶斯分类模型。 4.传入测试实例 5.根据贝叶斯分类模型的结构和贝叶斯公式计算后验概率分布。 6.选取其中后验概率最大的类c,即预测结果。 一、第一部分中给出了7 个定义。 定义1 给定事件组,若其中一个事件发生,而其他事件不发生,则称这些事件互不相容。 定义2 若两个事件不能同时发生,且每次试验必有一个发生,则称这些事件相互对立。 定义3 若定某事件未发生,而其对立事件发生,则称该事件失败 定义4 若某事件发生或失败,则称该事件确定。 定义5 任何事件的概率等于其发生的期望价值与其发生所得到

案例统计公式(绝对精华)

统计案例 一、回归分析 1. 线性回归方程???y bx a =+的求法 (1)求变量x 的平均值,即1231 ()n x x x x x n =+++???+ (2)求变量y 的平均值,即1231 ()n y y y y y n = +++???+ (3)求变量x 的系数?b ,即1 2 1 ()() ?() n i i i n i i x x y y b x x ==--=-∑∑(题目给出,不用记忆) 1 2 1()() ?() n i i i n i i x x y y b x x ==--=-∑∑ 1 1 1 1 2 2 1 1 1 2n n n n i i i i i i i i n n n i i i i i x y x y xy x y x xx x =======--+= -+∑∑∑∑∑∑∑1 22 21 2n i i i n i i x y nx y nx y nx y x nx nx ==--+= -+∑∑12 21 n i i i n i i x y nx y x nx ==-= -∑∑(理解记忆) (其中1 1 n n i i i x x nx ====∑∑,1 1 n n i i i y y ny ====∑∑,() ,x y 称为样本点中心) (4)求常数?a ,即??a y bx =- (5)写出回归方程???y bx a =+(?a ,?b 的意义:以?a 为基数,x 每增加1个单位,y 相应地平均增加?b 个单位) 注意:若?0b >则正相关,若?0b <则负相关. 2. 相关系数 假设两个随机变量的取值分别是()11,x y ,()22,x y ,……,(),n n x y ,则变量间线性相关系数的计算公式如下: ()() n n i i i i x x y y x y nx y r ---= = ∑∑ 相关系数r 的性质: (1)当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关;当0r =时,表明

第一章《统计案例》练习

----------专业最好文档,专业为你服务,急你所急,供你所需------------- §1.1 独立性检验 1.当χ2>2.706时,就有________的把握认为“x 与y 有关系”. 2.分类变量X 和Y .(填序号) ①ad -bc 越小,说明X 与Y 的关系越弱; ②ad -bc 越大,说明X 与Y 的关系越强; ③(ad -bc )2越大,说明X 与Y 的关系越强; ④(ad -bc )2越接近于0,说明X 与Y 的关系越强. 3.通过随机询问110 χ2=110×(40×30-20×20) 60×50×60×50 ≈7.8,得到的正确结论是________. ①在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”; ②在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”; ③有99%以上的把握认为“爱好该项运动与性别有关”; ④有99%以上的把握认为“爱好该项运动与性别无关”. 4.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸 则有________的把握确定吸烟量与年龄有关. 5.下列说法正确的是________.(填序号) ①对事件A 与B 的检验无关,即两个事件互不影响;

----------专业最好文档,专业为你服务,急你所急,供你所需------------- ②事件A 与B 关系越密切,χ2就越大; ③χ2的大小是判断事件A 与B 是否相关的惟一数据; ④若判定两事件A 与B 有关,则A 发生B 一定发生. 6 设H 0:主修统计专业与性别无关,则 χ2的值约为________,从而得出结论有 把握认为主修统计专业与性别有关系,这种判断出错的可能性为________. 7.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的 零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: (1)分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填写2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

统计学案例——集值统计分析

《统计学》案例——集值统计分析 集值统计方法在项目风险概率估计中的应用 1、问题的提出 通过识别某软件项目的9个风险因素:需求风险A1、资源风险A2、设计风险A3、开发风险A4、接口风险A5、管理风险A6、测试风险A7、使用风险A8、保障风险A9。现对某软件项目风险发生概率值进行估计。 2、数据的收集 请专家根据估计概率参考说明对每一个项目风险因素发生概率给出一个大致范围,,以期得到相对客观的概率估计值。风险发生概率的参考说明如下表所示。 表:风险发生概率的参考说明表 如下表表风险因素栏,请5位相关专家对各风险因素发生的概率进行估计,估计数值如表数据栏所示。 表:某软件项目风险概率专家评估数值表

3、方法的确定 对数据进行集值统计计算其中估计数值均为区间估计值,这样可以最大限度 包含专家估计时的思维模式,涵盖专家最真实的估计判断,可以使得估计结果更加客观合理,从而风险分析的结果更趋于真实科学。假设共有n 位专家,每位专 家对风险概率大小的判断是一个区间估计值,记为[] k k p p 21,(k 表示第k 位专家), 根据风险概率值的计算方法对每一个风险因素均有: [()()][] ∑∑==- --=n k k k k k n k p p p p p 1 1221 2 2 1 /21 按此公式每一个风险因素的概率综合估计值填写在该行最后一列,最终计算结果如表中所示。进而对每一风险因素概率估计数值进行可信性检验,,即每一行数据按公式: [][] ∑∑=-=--=n k k k n k k p p p p g 1 12312/)(31 表:某软件项目风险概率专家评估数值表

第一章 统计案例 复习题

第一章 统计案例 复习题 一、选择题 1.下列属于相关现象的是( ) A.利息与利率 B.居民收入与储蓄存款 C.电视机产量与苹果产量 D.某种商品的销售额与销售价格 2.如果有95%的把握说事件A 和B 有关,那么具体算出的数据满足( ) A.2 3.841K > B.2 3.841K < C.2 6.635K > D.2 6.635K < 3.下列变量之间:①人的身高与年龄、产品的成本与生产数量;②商品的销售额与广告费; ③家庭的支出与收入.其中不是函数关系的有( ) A.0个 B.1个 C.2个 D.3个 4.当2 3.841K >时,认为事件A 与事件B ( ) A.有95%的把握有关 B.有99%的把握有关 C.没有理由说它们有关 D.不确定 5.已知回归直线方程 y bx a =+,其中3a =且样本点中心为(1 2),,则回归直线方程为( ) A.3y x =+ B.23y x =-+ C.3y x =-+ D.3y x =- 6.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了300名学生,得到如下列联表: 你认为性别与是否喜欢数学课程之间有关系的把握有( ) A.0 B.95% C.99% D.100% 7.在回归直线方程 y a bx =+中,回归系数b 表示( ) A.当0x =时,y 的平均值 B.x 变动一个单位时,y 的实际变动量 C.y 变动一个单位时,x 的平均变动量 D.x 变动一个单位时,y 的平均变动量 8.对于回归分析,下列说法错误的是( ) A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B.线性相关系数可以是正的,也可以是负的 C.回归分析中,如果21r =,说明x 与y 之间完全相关 D.样本相关系数(11) r ∈-, 9. 在画两个变量的散点图时,下面哪个叙述是正确的( ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上(D)选择两个变量中任意一个变量在y 轴上 10、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右. 11、两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( ) A.模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.25 12、在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R 2 13、工人月工资y (元)依劳动生产率x (千元)变化的回归直线方程为?6090y x =+,下列判断正确的是( ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资d 的90元 14、对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是( ) A . k 越大," X 与Y 有关系”可信程度越小; B . k 越小," X 与Y 有关系”可信程度 越小; C . k 越接近于0," X 与Y 无关”程度越小 D . k 越大," X 与Y 无关”程度越大 15、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )

统计分析案例趣味研究

《统计分析》几个有趣问题研究 资料一消失的厢型车 纽约长岛有一位叫麦纳马拉的车商,在1985至1991年间,向通用汽车公司借贷了超过60亿美元。仅在1990年12月,他就借了4.25亿,购买了17000辆通用厢型车,交由印第安纳州一家公司来改装,号称要销售到海外。因为他的信用良好,所以通用汽车欢欢喜喜的借钱给他。我们应该相信麦纳马拉的话吗? 分析结果:我们不应该相信麦纳马拉的话,他是个骗子。 理由:首先,在1985那个年代,整个厢型车改装行业,一个月差不多改装17000辆,麦纳马拉的话相当于宣称他一个人就买下了全美整个月的数量,这明显不符合事实;其次,这种车在1990年只有1.35%外销,称一个月要买17000辆车来外销,也是不合情理的;最后,即使和厢型车的全部产量相比,这些数据也值得怀疑,雪佛兰1990年全年才生产100167辆厢型车。这些数据足以证明麦纳马拉的话不可以相信。 资料三老年大军来了 1976年出版的《科学》期刊某期中一篇文章的作者提出∶“在美国,65岁以上的人口现有共1000万,到公元2000年时会达到3000万,而且会占美国人口的25%,是前所未有的高比率。”警钟响起了∶老年人会在四分之一世纪里变成三倍,会构成全体美国人口的四分之一。 事实果真如此吗? 分析结果:事实与期刊中的文章所说的不一致。 理由:我们可以先进行一个简单的计算,3000万人占总人口数的25%,则2000年的总人口应该是3000/0.25=1.2亿,而美国人口在1975年已经是2.16亿了。再查找资料可发现以下事实:1975年,美国65岁以上的人口是2240万,而不是1000万,占总人口的比率为10.37%,到2000年,美国总人口约2.5亿,3000万占总人口的比率为13%。人的寿命越来越长,所以老年人的数目会有持续增加的趋势,但是,在25年之间,老年人口比重从10%增加到13%,这比《科学》期刊中作者说的25%低多了。所以事实并不如此。

第一章统计案例单元检测题及答案

第一章统计案例 命题人:卧龙寺中学鲁向阳审题人:唐军宁 第I卷 说明:本试卷分第I卷(选择题)和第II卷(非选择题)两部分,共150分,时间90分钟 一、选择题:(每小题5分,共计60分) 1.下列结论正确的是() ①函数关系是一种确定性关系;②相关关系是一种非确定性关系; ③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④ 2.年劳动生产率x(千元)和工人工资y(元)之间回归方程为y=10+70x,这意味着年劳动生产率每提高1千元时,工人工资平均() A.增加70元B.减少70元C.增加80元D.减少80元 3.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则 回归直线方程为() A.y=1.23x+4 B.y=1.23x+5 C.y=1.23x+0.08 D.y=0.08x+1.23 4.高二第二学期期中考试,按照甲、乙两个班级学生数学考试成绩优秀和不优秀统计后,得到班级与成绩列联表如下: 则随机变量2K的观测值约为() A.0.60 B.0.828 C.2.712 D.6.004 5.下列属于相关现象的是() A.利息与利率C.电视机产量与苹果产量 B.居民收入与储蓄存款D.某种商品的销售额与销售价格 6.下列关系中是函数关系的是() A.等边三角形的边长和周长关系C.电脑的销售额和利润的关系B.玉米的产量和施肥量的关系 D.日光灯的产量和单位生产成本关系7. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93。用这个模型预测这个孩子10岁时的身高,则正确的叙述是() A.身高一定是145.83cm C.身高在145.83cm以下 B.身高在145.83cm以上D.身高在145.83cm左右 8. 变量y与x之间的回归方程表示() A. y与x之间的函数关系 B. y与x之间的不确定性关系 C. y与x之间的真实关系 D. y与x之间的真实关系达到最大限度的吻合

统计案例分析典型例题

统计案例分析及典型例题 §抽样方法 1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度 2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案①②③ 3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案3,9,18 4.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= . 答案80 例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解抽签法: 第一步:将18名志愿者编号,编号为1,2,3, (18) 第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 基础自测

第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法: 第一步:将18名志愿者编号,编号为01,02,03, (18) 第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读; 第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09. 第四步:找出以上号码对应的志愿者,就是志愿小组的成员. 例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k= 10 0001=100将总体均分为10段,每段含100个工人. (5)从第一段即为0001号到0100号中随机抽取一个号l. (6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程. 解 应采取分层抽样的方法. 3分 过程如下: (1)将3万人分为五层,其中一个乡镇为一层. 5分 (2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300× 15 2 =40(人); 300×155=100(人);300×15 2=40(人); 300× 15 3=60(人), 10分 因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. 12分 (3)将300人组到一起即得到一个样本. 14分

消费者购买决策的贝叶斯统计分析

消费者购买决策的贝叶斯统计分析 科学技术大规模进步,导致了更加激烈的市场竞争,消费者的偏好和需求也变得丰富多样。为了更有效地满足目标市场的需求,企业需要全面分析消费者的购买决策行为,认识目标市场消费者的需求,从而更有效地进行市场细分,更加精确地定位目标市场。关于消费者的购买决策问题,从购前决策和购后满意度视角分析,主要解决了过度离散、无法进行个体参数估计和小样本等问题。本文从消费者购前决策的总体参数估计、购前决策的个体参数估计以及购后顾客满意度三个方面,利用贝叶斯理论和方法,对消费者购买决策进行理论和应用的研究。 理论部分主要进行以下研究:第一,利用贝叶斯独特的理论优势,有效地解决了数据获取困难或者存在过度离散等问题,通过消费者购前决策总体参数估计的贝叶斯logit模型分析,有效优化传统理论模型。第二,针对实际消费者购前决策个体参数无法估计的问题构建了分层贝叶斯随机效应模型,有效地解决了个体消费者数据不足的问题,避免了传统研究方法由于自由度过低而无法进行个体参数最小二乘估计的情况,同时在建模过程中使用一个连续的总体分布来描述个体消费者之间的偏好差异性,对消费者偏好行为研究中的不确定性进行综合评估。第三,在小样本的条件下,通过结构方程模型的构建,使用贝叶斯方法对顾客满意度的影响因素进行了研究,并利用基于多级评分的贝叶斯估计得到了顾客满意度的最终得分。第四,详细介绍了贝叶斯方法和多层贝叶斯方法在消费者购买决策研究中的应用基础,使更多的研究人员和实践者认识到贝叶斯方法的独特优势,同时将贝叶斯理论应用到实际消费者购买决策中,实现了理论与实际的结合,对贝叶斯理论在消费者购买决策领域的推广起到了一定作用。 在应用研究部分,使用贝叶斯和分层贝叶斯模型方法对实际消费者购买数据进行了实证分析,有效解决在企业制定市场营销策略所遇到的数据过度离散、无法进行个体参数估计和小样本等问题,进一步完善了国内消费者购买决策的研究方法。在消费者购前决策总体参数估计的实证研究中,根据消费者策略、成本策略、便利策略和沟通策略的4C营销组合对咖啡杯公司开展全方位市场营销活动进行了阐述;在消费者购前决策总体参数和个体参数同时估计的实证研究中,构建了分层贝叶斯随机效应模型中,不仅得到了酸奶各属性的平均效用分值和人口特征变量对效应分值的影响,而且还获得个体消费者的酸奶效用分值估计,从而

高中数学选修1-2第一章统计案例测试题带详细解答

选修1-2第一章、统计案例测试 一、选择题 1.已知x与y之间的一组数据: x0123 y1357 则y与x的线性回归方程为必过点( ) A.(2,2) B. (1.5 ,4) C.(1.5 ,0) D.(1,2) 【答案】B 【解析】 试题分析:由数据可知,,∴线性回归方程为必过点(1.5,4) 考点:本题考查了线性回归直线方程的性质 点评:解决此类问题常常用到线性回归直线方程恒过定点这一结论,属基础题 2.年劳动生产率(千元)和工人工资(元)之间回归方程为,这意味着年劳动生产率每提高1千元时,工人工资平均 A.增加70元B.减少70元C.增加80元D.减少80元 【答案】A 【解析】 试题分析:由题意,年劳动生产率(千元)和工人工资(元)之间回归方程为, 故当增加1时,要增加70元, ∴劳动生产率每提高1千元时,工资平均提高70元, 故A正确. 考点:线性回归方程. 点评: 本题考查线性回归方程的运用,正确理解线性回归方程是关键.3.已知某回归方程为:,则当解释变量增加1个单位时,预报变量平均:()

A、增加3个单位 B、增加个单位 C、减少3个单位 D、减少个单位 【答案】C 【解析】 解释变量即回归方程里的自变量,由回归方程知预报变量减少3个单位4.变量与相对应的一组数据为(10, 1), (11.3, 2), (11.8, 3), (12.5, 4), (13, 5);变量与相对应的一组数据为(10,5), (11.3, 4), (11.8, 3), (12.5, 2), (13, 1),表示变量与之间的线性相关系数,表示变量与之间的线性相关系数,则 A. B. C. D. 【答案】C 【解析】解:∵变量X与Y相对应的一组数据为(10,1),(11.3,2), (11.8,3),(12.5,4),(13,5), . X =(10+11.3+11.8+12.5+13) 5 =11.72 . Y =(1+2+3+4+5) 5 =3 ∴这组数据的相关系数是r=7.2 19.172 =0.3755, 变量U与V相对应的一组数据为(10,5),(11.3,4), (11.8,3),(12.5,2),(13,1) . U =(5+4+3+2+1) 5 =3, ∴这组数据的相关系数是-0.3755, ∴第一组数据的相关系数大于零,第二组数据的相关系数小于零, 故选C. 5.统计中有一个非常有用的统计量 ,用它的大小可以确定在多大程度上可以认为“两个分类变量有关系”,下表是反映甲、乙两个平行班(甲班A老师教, 乙班B老师教)进行某次数学考试,按学生考试及格与不及格统计成绩后的2×2列联表.

统计学案例集

统计学教学案例集统计学精品课建设小组 2004年11月

【案例一】全国电视观众抽样调查抽样方案 一、调查目的、范围和对象 1.1 调查目的 准确获取全国电视观众群体规模、构成以及分布情况;获取这些观众的收视习惯,对电视频道和栏目的选择倾向、收视人数、收视率与喜爱程度,为改进电视频道和栏目、开展电视观众行为研究提供新的依据。 1.2 调查范围 全国31个省、自治区、直辖市(港澳台除外)中所有电视信号覆盖区域。 1.3 调查对象 全国城乡家庭户中的13岁以上可视居民以及4-12岁的儿童。包括有户籍的正式住户也包括所有临时的或其他的住户,只要已在本居(村)委会内居住满6个月或预计居住6个月以上,都包括在内。不包括住在军营内的现役军人、集体户及无固定住所的人口。 二、抽样方案设计的原则与特点 2.1 设计原则 抽样设计按照科学、效率、便利的原则。首先,作为一项全国性抽样调查,整体方案必须是严格的概率抽样,要求样本对全国及某些指定的城市或地区有代表性。其次,抽样方案必须保证有较高的效率,即在相同样本量的条件下,方案设计应使调查精度尽可能高,也即目标量估计的抽样误差尽可能小。第三,方案必须有较强的可操作性,不仅便于具体抽样的实施,也要求便于后期的数据处理。 2.2 需要考虑的具体问题、特殊要求及相应的处理方法 2.2.1 城乡区分 城市与农村的电视观众的收视习惯与爱好有很大的区别。理所当然地应分别研究,

以便于对比。最方便的处理是将他们作为两个研究域进行独立抽样,但代价是,这样做的样本点数量较大,调查的地域较为分散,相应的费用也就较高。另一种处理方式是在第一阶抽样中不考虑区分城乡,统一抽取抽样单元(例如区、县),在其后的抽样中再区分城、乡。这样做的优点是样本点相对集中,但数据处理较为复杂。综合考虑各种因素,本方案采用第二种处理方式。 在样本区、县中,以居委会的数据代表城市;以村委会的数据代表农村。2.2.2 抽样方案的类型与抽样单元的确定 全国性抽样必须采用多阶抽样,而多阶抽样中设计的关键是各阶抽样单元的选择,其中尤以第一阶抽样单元最为重要。本项调查除个别直辖市及城市外,不要求对省、自治区进行推断,从而可不考虑样本对省的代表性。在这种情况下,选择区、县作为初级抽样单元最为适宜。因为全国区、县的总数量很大,区、县样本量也会比较大,因而第一阶的抽样误差比较小。另外对区、县的分层也可分得更为精细。 本抽样方案采用分层五阶抽样。各阶抽样单元确定为: 第一阶抽样:区(地级市以上城市的市辖区)、县(包括县级市等); 第二阶抽样:街道、乡、镇; 第三阶抽样:居委会、村委会; 第四阶抽样:家庭户; 第五阶抽样:个人。 为提高抽样效率,减少抽样误差, 在第一阶抽样中对区、县采用按地域及类别分层。在每一层内前三阶抽样均采用按与人口成正比的不等概率系统抽样(PPS系统抽样),而第四阶抽样采用等概率系统抽样,即等距抽样,第五阶抽样采用简单随机抽样。 2.2.3 自我代表层的设立 根据要求,本次调查需要对北京、上海两个直辖市以及广州、成都、长沙与西安四个省会城市进行独立分析,因而在处理上将这些城市(包括下辖的所有区、县)每个都作为单独的一层处理。为方便起见,以下把这样的层称为自我代表层。考虑到在这样处理后,全国其他区县在分层中的一些具体问题以及各地的特殊情况,将天津市也作为自我代表层处理。另外,鉴于西藏情况特殊,所属区县与其它省(自治区)的差别很大,因此也将它作为自我代表层处理。这样自我代表层共有8个,包括以下城市与地区:

教学大纲_贝叶斯统计(双语)

《贝叶斯统计(双语)》教学大纲 课程编号:120872B 课程类型:□通识教育必修课□通识教育选修课 □专业必修课□√专业选修课 □学科基础课 总学时:32 讲课学时:32实验(上机)学时:0 学分:2 适用对象:经济统计学 先修课程:微积分、概率论与数理统计学 毕业要求: 1.应用专业知识,解决数据分析问题 2.可以建立统计模型,获得有效结论 3.掌握统计软件及常用数据库工具的使用 4.关注国际统计应用的新进展 5.基于数据结论,提出决策咨询建议 6.具有不断学习的意识 一、课程的教学目标 贝叶斯统计是上世纪50年代后,才迅速发展起来的一门统计理论。目前,在欧美等西方国家,贝叶斯统计已经成为了与经典统计学派并驾齐驱的当今两大统计学派之一;随着贝叶斯理论和方法的不断发展和完善,以及相应的计算软件的研制,贝叶斯方法在实践中获得了日趋广泛的应用;特别是,贝叶斯决策问题在统计应用中占有越来越重要的地位。在商业经济预测、政府宏观经济管理、国防工业中对武器装备系统可靠性评估、生物医学研究;知识发现和数据挖掘技术等都获得了广泛应用。

本课程通过贝叶斯统计的教学使学习过传统的数理统计课程的学生了解贝叶斯统计的基本思想和基本观点,了解贝叶斯统计与传统的数理统计在理论和处理方法上的区别,了解贝叶斯统计的最新进展,能够系统的掌握贝叶斯统计的基本理论、基本方法,特别是贝叶斯统计极具特色的一些处理方法,引进一个效用函数(utility function)并选择使期望效用最大的最优决策,这样就把贝叶斯的统计思想扩展到在不确定时的决策问题。很好的将统计学与最优化的思想方法和技术很好的进行了结合。贝叶斯统计理论和方法技术的学习,不仅能够提高学生分析和解决实际问题的能力,还能够更进一步提高对经典数理统计的深入理解。 二、教学基本要求 根据贝叶斯统计课程的教学内容,本课程将重点介绍贝叶斯统计推断理论,贝叶斯决策理论。并且注重贝叶斯统计处理方法和基本观点与传统数理统计相应内容对比的讲授方式。注重案例教学,安排学生课后查阅文献资料,以及课堂研讨等方式,了解贝叶斯统计理论和应用最新成果及前沿研究进展。对最新贝叶斯网络和贝叶斯统计的方法除了传统讲授方式外,适当的安排上机实验,了解贝叶斯统计相关软件的使用方法。课程的考核方式:期末开卷+ 论文方式,卷面60%,平时和论文40%。 三、各教学环节学时分配 以表格方式表现各章节的学时分配,表格如下: 教学课时分配

高中数学选修1-2第一章统计案例测试题带详细解答

选修1-2第一章、统计案例测试 一、选择题 1.已知x 与y 之间的一组数据: 则y 与x 的线性回归方程为∧ ∧ ∧ +=a x b y 必过点( ) A.(2,2) B. (1.5 ,4) C.(1.5 ,0) D.(1,2) 【答案】B 【解析】 为∧ ∧ ∧ +=a x b y 必过点(1.5,4) 考点:本题考查了线性回归直线方程的性质 2.年劳动生产率x (千元)和工人工资y (元)之间回归方程为1070y x =+,这意味着年劳动生产率每提高1千元时,工人工资平均 A.增加70元 B.减少70元 C.增加80元 D.减少80元 【答案】A 【解析】 试题分析:由题意,年劳动生产率x (千元)和工人工资y (元)之间回归方程为 1070y x =+, 故当x 增加1时,y 要增加70元, ∴劳动生产率每提高1千元时,工资平均提高70元, 故A正确. 考点:线性回归方程. 点评: 本题考查线性回归方程的运用,正确理解线性回归方程是关键. 3.已知某回归方程为:??23y x =-,则当解释变量增加1个单位时,预报变量平均:( ) A 、增加3个单位 B C 、减少3个单位 D 、 【答案】C 【解析】 解释变量即回归方程里的自变量x ?,由回归方程知预报变量y ?减少3个单位 4.变量X 与Y 相对应的一组数据为(10, 1), (11.3, 2), (11.8, 3), (12.5, 4), (13, 5);变量U 与 V 相对应的一组数据为(10,5), (11.3, 4), (11.8, 3), (12.5, 2), (13, 1),1r 表示变量Y 与X 之 间的线性相关系数,2r 表示变量V 与U 之间的线性相关系数,则 A .012<

两则趣味贝叶斯统计案例

两则趣味贝叶斯统计案例 趣味案例一 在1787—1788年,也就是纽约州带头鼓动通过新的美国宪法期间,美国第四任总统詹姆士·麦迪逊和开国政治家亚历山大·汉密尔顿都写了许多文章支持通过宪法。但这些文章都是以署名“联邦主义者”匿名发表的。19世纪初,麦迪逊和汉密尔顿两人开始确认各自的著作,但其中有12篇一直颇具争议,就像笼罩着一层面纱,无法以真面目示人。那么如何用统计方法进行分析和识别呢? 类似于《红楼梦》某些章节作者考证中的曹雪芹和高鹗之争,我们当然可以用多元统计分析中的聚类分析进行论证,但在当时,聚类方法还没有得到很好的发展。而且麦迪逊和汉密尔顿在已有著作中的平均句长几乎完全相同,这使得这一能反映写作风格特征的数据失效了。直到1964年,美国统计学家莫斯特勒和华莱士转而从用词习惯上来找出这两位作者的有区别性的风格特征,运用贝叶斯定理判定了《联邦主义论文集》中这些署名有争议的文章的作者。他们找出了几百个无“特定内容”的英文单词,如“if”“while”“because”“over”“upon”“whilst”“as”“and”等。这些单词在句子里只有语法上的意义,本身并没有什么特定的含义,其使用主要取决于作者的语言习惯。对这两位作者的其他已有确定性著作进行统计分析,结果发现大约有30个虚词的使用频率是不同的。例如,汉密尔顿在他已有的18篇文章中,有14篇使用了“enough”一词;而麦迪

逊在他的14篇文章中根本未使用“enough”。汉密尔顿喜欢用“while”,而麦迪逊总是用“whilst”。麦迪逊使用“upon”这个词的频率是每千字平均0.23次,而汉密尔顿对这个词的使用频率非常高,每千字平均3.24次。在12篇署名有争议的文章里,有11篇根本没有用“upon”这个词,而在剩下的那一篇文章中,平均每千字出现1.1次。 需要解决的问题是:这些文章中用词的分布形态,是来自与麦迪逊相联的概率分布呢?还是来自与汉密尔顿相联的概率分布?这些分布各有各的参数,只根据他们的论文来估计参数值,可能是错误的,参数的确切值应当来自于描述18世纪晚期所有北美洲有教养的人用英文写作时用字习惯的参数分布。如此一来,制约麦迪逊和汉密尔顿使用这些虚词的参数本身也有参数,称之为“超参数”。由于英语语言总是随着时间和地域的变化而变化,除了用18世纪的北美作品,还可以搜集其他地区和其他时期的英语文献,来估计这些超参数的参数,称之为“超参数—超参数”。通过重复使用贝叶斯定理,就能决定这些参数的分布,结果发现那位署名“联邦主义者”的作者的真正身份是美国第四任总统麦迪逊。这样就了结了这一考据学上长期悬而未决的公案。两位统计学家所使用的贝叶斯方法也得到了学术界的好评。 趣味案例二 1981年3月30日,一个大学退学学生Hinckley企图对里根总统行刺。他打伤了里根、里根的新闻秘书以及两个保安人员。在1982年审判他时,Hinckley以精神病为理由作为其无罪的辩护。在18个医师中作证的医师是Daniel R.Weinberger,他告诉法院当给被诊断为

贝叶斯统计与经典统计异同

1 贝叶斯统计与经典统计的异同 曹正 最近初步接触了在与经典统计的争论中逐渐发展起来的贝叶斯统计。贝叶斯派不同于频 率派的地方在于他们愿意作出不是基于数据的假定,也就是说他们的观点来自何处并没有严 格的限定。我觉得Bayes 统计的思想非常有意思,根据课堂上老师的指导,我清楚了Bayes 的基本观点:1.认为未知参数是一个随机变量,而非常量。2.在得到样本以前,用一个先验分 布来刻画关于未知参数的信息。3. Bayes 的方法是用数据,也就是样本,来调整先验分布,得 到一个后验分布。4.任何统计问题都应由后验分布出发。为了更好的理解两种统计思想,我查 阅了一些参考文献,整理出以下一些结论: 以往,经典统计方法占据着统计学的主导地位,但是,贝叶斯方法正在国外迅速发展并得 到日益广泛的应用,可以说“二十一世纪的统计学是贝叶斯的时代”。 假设检验问题是统计学的一类重要问题,以下我们从这个角度对两大学派的假设检验思想 进行一些比较,以揭示两种思想的区别与联系,并着重探讨贝叶斯方法的优势。在经典统计中处理假设检验问题,用的是反证的思想进行推断,即:在认定一次实验中小 概率事件不会出现的前提下,若观察到的事件是0 H 为真时的小概率事件,则

拒绝0 H 。具体的 步骤是:1.建立原假设0 1 H ∈Θ vs 备择假设 1 2 H ∈Θ ;2.选择检验统计量T = T(x),使其在 原假设0 H 为真时概率分布是已知的,这在经典方法中是最困难的一步。3.对给定的显著水平α , 确定拒绝域,使犯第一类错误的概率不超过α 。4.当样本观测值落入拒绝域W 时,就拒绝原假 设0 H ,接受备择假设1 H ;否则就保留原假设。 2 而在Bayes 统计中,处理假设检验问题是直截了当的,依据后验概率的大小进行推断。在 获得后验分布π (θ | x)后,即可计算两个假设 0 H 和1 H 的后验概率0 α 和1 α ,然后比较两者的 大小,当后验概率比(或称后验机会比) 0 α / 1 α > 1时接受 0 H ;当0 α / 1 α < 1时,接受 1 H ;当 0 α / 1 α ≈ 1时,不宜做判断,还需进一步抽样或者进一步搜集先验信息。很明显,它选择了后验 概率较大的假设。 由上叙述,我们可以看到两种思想的联系与分歧:在经典统计学中,参数被看作未知常数, 不存在0 H 和1 H 的概率,给出的是0 P(x | H 真),其中x代表样本信息。在贝叶斯方法中,参 数被看成随机变量,在参数空间内直接讨论样本x 下0 H 和1 H 的后验概率,给出的是0 P(H 真 | x)和 0 P(H 不真| x)。 下面我们通过一个例子对两种假设检验思想进行一些比较。 例:以随机变量θ 代表某人群中个体的智商真值,i θ 为第i 个个体的智商真值,随机变量 i X 代表第i 个个体的智商测验得分,若该人群的期望智商为? ,则第i 个个体在一次智商测 验中的得分可以表示为:ij i ij i ij X =θ + e = ? + e + e ,其中i e 为第i 个个体的自然变异,ij e 为 第i 个个体第j 次测量的测量误差。根据以往积累的资料,已知在某年龄的儿童的智商真值 θ ~ N(100,225),个体智商测验得分 ~ ( ,100) * X N θ 。现在一名该年龄的儿童智商测验得 分为115,问:(1)该儿童智商真值是否高于同龄儿童的平均水平?(2)若取* θ 在(a,b)为正常, 问该儿童智商是否属于正常? Ⅰ. 用经典统计方法解答 对第一问,建立检验问题: 0 H : 100 * θ ≤ vs 1 H : 100 * θ > ,按照经典统计学方法, 若取α = 0.05,则拒绝域为 * 1 {x : x 100 u } {x : x 116.45} α σ ≥ + = ≥ 。尚不能认为该儿童智商

相关文档
相关文档 最新文档