当前位置：文档库 › 统计学第9章--列联分析

统计学第9章--列联分析

第9章列联分析

9.1 分类数据与列联表

例：某集团公司下属四个分公司。现该集团欲进行一项改革，由于涉及到各分公司的利益，希望对各分公司职工的态度有所了解。所以从四个分公司中随机选取420名员工进行调查，结果如下表所示：

关于改革方法的调查结果

9.1.1 列联表的构造

列联表：是由两个以上的变量进行交叉分类的频数分布表。

每个单元：反应两方面的信息

行R：态度变量行合计：RT

列C：单位变量列合计：CT

?列联表：24?列联表

R C

9.1.2 列联表的分布

1 观察值的分布

总合计（样本容量）：N 百分比：

2 期望值的分布

期望值：

CT N

? 9.1.3 观察值与期望值频数对比分布表

9.2 拟合优度检验

9.2.1 思路：

如果各分公司员工对改革方案的态度一致

则各分公司员工赞成或反对该方案的比例应该相同即1234ππππ===

其中i π为第i 个分公司赞成改革方案的比例

那么，对比分布表中相应的观察值与期望值就应该非常接近

9.2.2 检验统计量：2χ

设0f 为观察值频数

e f 为期望值频数

0()e e

f f f χ-=∑ 9.2.3 判断准则

当2χ大于某临界值时，拒绝态度一致的原假设——右单侧检验

即22

αχχ>时，拒绝原假设

自由度(1)(1)R C =--

完成上面的例题解：

01234:H ππππ=== 各分公司员工对这项改革的态度一致 1:H 上面等式不全相等各分公司员工对这项改革的态度不一致

2χ计算表

0()e e

f f f χ-=∑=3.0319

自由度(1)(1)R C =--=3

0.1α=，查表得：2

0.1

(3) 6.251χ= 由于3.0319<6.251，所以不能拒绝原假设，即认为四个分公司员工对这项改革的态度是一致的。

例：从总体中随机抽取200n =的样本，调查后按不同属性归类，得到如下结果：

1234528,56,48,36,32n n n n n =====

依据以往经验，各类别在总体中的比例分别为：

123450.1,0.2,0.3,0.2,0.2πππππ=====

请以0.1α=的显著性水平检验，说明现在的情况与经验数据相比是否发生了显著变化。解：

012345:0.1,0.2,0.3,0.2,0.2H πππππ===== 没有发生显著变化 1:H 上面等式不全相等发生了显著变化 12000.120e f =?=，22000.240e f =?=，32000.360e f =?=， 42000.240e f =?=，52000.240e f =?=，

()()()()()2

()282056404860364032402040

e e

f f f χ-=-----=

=∑

自由度=5-1=4

2 0.1(4)7.779

χ=

由于14>7.779，所以不能接受原假设，即认为现在的情况与经验数据相比已经发生了显著变化。

9.3 独立性检验

适用：两个分类变量之间是否存在联系

例：一种原料来自三个不同的地区，原料质量被分为三个不同等级。从这批原料中随机抽取500件进行检验，结果如下表所示

要求检验各个地区与原料的质量之间是否存在依赖关系

解：

H地区与原料等级之间是独立的（不存在依赖关系）

H地区与原料等级之间是不独立的（存在依赖关系）

期望值的计算：

以52为例

设A=样本来自于甲地区则()140/500

P A=

B=样本属于一级原料则()162/500

P B=

若地区与原料等级独立，则有140162

()500500

P AB =

即来自于甲地区又属于一级品的原料频数应为140162

500500500

一般化：e RT CT RT CT

f N N N N

?=?

检验统计量：2

0()e e

f f f χ-=∑

代入数据得：

1401621711625260()5005001401621711625005001891507450019.82189150500

e e

f f f χ??????-- ? ?-????==++

????

?- ?

??+=?∑L

自由度(1)(1)R C =--=4

0.05α=，查表得：2

0.05

(4)9.448χ= 由于19.82>9.448，所以拒绝原假设，即认为这些原料的产地与等级之间存在依赖关系。

比较：独立性检验与一致性检验抽取样本的方法不同

一致性检验：在各类别中分别抽取独立性检验：先抽取，再分类

计算期望值的理论不同

9.42χ检验的期望值准则

例：下表是某个应用2χ检验问题的观察值与期望值情况，0.05

α=，请检验原假设是否成立

解：

H拟合的好

H拟合的不好2

χ计算表

自由度=7-1=6

2 0.05(6)12.592

χ=

因为14.008>12.592，所以拒绝原假设，认为数据拟合的不好。

χ检验的期望值准则

如果只有两个单元，每个单元的期望频数必须是5或者5以上；如果有两个以上单元，若20%的单元期望频数小于5，则不能引用2χ检验。

改进方法：把期望频数小于5的单元进行合并。

自由度=5-1=4

2 0.05(4)9.448

χ=

因为9.448>7.133，所以不能拒绝原假设，认为数据拟合的好。

9.5 列联表中的相关测量

检验结果不独立的情况下，两者的相关程度如何

9.5.1 ?相关系数

其中，2

0()e e

f f f χ-=∑

n ：列联表中的总频数，样本容量

想法：两个变量越独立，则0e f f 与越接近，?越接近于0

独立完全相关完全相关 0?=，相互独立

1?=，完全相关()22?

一般情况下，(0,1)?∈，越接近于1，相关性越强。

局限性

当列联表的行或列大于2时，随着行或列的增加，?相关系数会随之增加且没有上限，对两个变量相关程度的测量就不够清晰了。所以适用于描述22?列联表最常用的一种相关系数

9.5.2 列联相关系数——c 相关系数

c =

说明：

0c =，相互独立

[]0,1c ∈

c 相关系数的可能最大值依赖于列联表的行数与列数，且随着行数或

列数的增大而增大。所以行数、列数不相等的列联表的c 相关系数不能比较

9.5.3 V 相关系数

V =

[]

0,1V ∈ 0V =，相互独立 1V =，完全相关

例：原材料品质等级与产地的问题。计算三个相关系数解：由前面可知

219.82χ= 所以

0.199?===

0.195c =

0.141V =

三个相关系数都不大，说明原料的品质等级虽然与产地有关，但关

联程度并不大。

统计学课后练习题答案人大第四版

第三章节:数据的图表展示 (1) 第四章节:数据的概括性度量 (15) 第六章节:统计量及其抽样分布 (26) 第七章节:参数估计....................................................... (28) 第八章节:假设检验........................................................ (38) 第九章节:列联分析........................................................ (41) 第十章节:方差分析........................................................ (43) 3．1 为评价家电行业售后服务的质量，随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为：A．好；B．较好；C一般；D．较差；E.差。调查结果如下： B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C E E A B D D C A D B C C A E D C B C B C E D B C C B C 要求： (1)指出上面的数据属于什么类型。顺序数据 (2)用Excel制作一张频数分布表。用数据分析——直方图制作：接收频率 E16 D17 C32 B21 A14 (3)绘制一张条形图，反映评价等级的分布。用数据分析——直方图制作： (4)绘制评价等级的帕累托图。逆序排序后，制作累计频数分布表：

应用统计学试题和答案分析

六、计算题：（要求写出计算公式、过程，结果保留两位小数，共4题，每题10分） 1、某快餐店对顾客的平均花费进行抽样调查，随机抽取了49名顾客构成一个简单随机样本，调查结果为：样本平均花费为元，标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区间；（φ（2）=）49=n 是大样本，由中心极限定理知，样本均值的极限分布为正态分布，故可用正态分布对总体均值进行区间估计。已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据，得该快餐店顾客的总体平均花费数额%的置信区间为（，） 3 要求：①、利用最小二乘法求出估计的回归方程；②、计算判定系数R 。附：10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题解 ① 计算估计的回归方程： ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为：y ) =+x ② 计算判定系数： 4 计算下列指数：①拉氏加权产量指数；②帕氏单位成本总指数。 4题解： ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题（每小题1分，共10题） 1、我国人口普查的调查对象是，调查单位是。 2、___ 频数密度 =频数÷组距，它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用饼图条图图来显示。 4、某百货公司连续几天的销售额如下：257、276、297、252、238、310、240、236、265，则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元，2005年3季度完成的GDP=36亿元，则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%，职工人数增加了2%，则该企业工资总额增长了 % 。 7、对回归系数的显着性检验，通常采用的是 t 检验。 8、设置信水平=1-α，检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲＞σ乙，x 甲＞x 乙，由此可推断 ( )