文档库 最新最全的文档下载
当前位置:文档库 › 卡方检验

卡方检验

卡方检验
卡方检验

佛山科学技术学院

实训报告(七)

课程名称《心理统计学与SPSS应用》实训项目卡方检验

专业班级_____12应用心理学2班____姓名_____欧展泓______学号____2012934227_________

指导老师黄晓旭成绩_______________日期______2013.10____________

____________________________________________________________________

实训总结的内容:一、实训目的;二、实训内容;三、实训过程;四、实训体会、收获

一、目的和要求:

1.使学生掌握分析样本分布与理想分布差异显著性水平的统计操作技能。

2.使学生掌握分析两列分类数据分布特征差异显著性水平的统计操作技能。

二、主要内容:

1.运用卡方检验分析一个定类数据样本的分布特征与理想分布之间的拟合度;

2.运用二项分布检验、K-S检验分析一个定类数据样本的分布特征;

3.运用卡方检验分析两个定类数据样本的分布特征是否存在显著性差异;

三、实训过程:

1、教师指导分析实训作业的要求;

2、教师演示定类数据拟合度检验的操作方法;

3、教师演示二项分布、K-S检验的操作方法;

4、教师演示多个样本卡方检验的操作方法

5、学生独立完成实训作业。

四、实训记录

第一部分定类数据拟合度检验(即定类数据单变量分布特征分析)

例1:在过去5年中,州立大学有750名女生和1250名男生申请攻读心理学研究生,其中25名女生,55名男生申请成功。请问申请成功者的性别比例与理应通过申请的男女生比例之间是否存在差异。

解:研究中的变量为性别。由于采用频次计算,在SPSS中需先做个案加权才能进行卡方检验。

性别观察数期望数卡方检验

女25 30 卡方=1.333

男55 50 df=1

总数80 Sig.=0.248

结论:

1、依据课本472页第13题建立数据,完成统计分析。

结论:这名老师的评定与全校老师的评定存在显著差异。 第二部分:单变量分布特征分析的其他情况

例二:对于二分数据变量,除了使用卡方检验,还可以使用二项式检验。比如:大学生的性别比例理论上应是1:1,现在12心理的男生37人,女生32人,难道心理学专业男生人数就会多于女生吗?两种方式都试试。

性别 观察数 期望数 卡方检验 二项式检验

观察比例 检验比例 Sig.

32

34.5

卡方=0.362a

0.54

0.50

0.630

男 37 34.5 df=1

0.46 总数 69

69 Sig.=0.547 1.00

结论与分析:

心理学专业男女生比例不存在显著差异,拟合度高。

例三:对于定距数据变量,可以采用卡方检验分析其分布特征,如473页。

IQ 组 观察数 期望数 卡方检验

135-139 5 3.0 卡方

=12.534 df=12 Sig.=0.404

130-134 7 4.0 125-129 9 9.0 120-124 13 13.0 115-119 15 21.0 110-114 22 27.0

105-109 27 30.0

100-104 30 31.0

95-99 28 28.0

90-94 25 22.0 85-89 20 15.0 80-84 14 9.0 75-79 5 8.0

总数

220

结论:该IQ 分布符合正态分布,被试的IQ 分数和理应通过的IQ 分数不存在显著性差异,拟合度高。

例四:采用卡方检验需要制作样本数据分组频次表和理论频次表,这个过程比较繁琐,我们可以直接采用K-S 检验完成样本数据分布与正态分布模型的拟合度检验。利用这个工具还可以进行均匀分布、泊松分布、指数分布的拟合度检验。 请检验一下我们测量所得的积极因子分更接近哪种分布。

正态分布 均匀分布 泊松分布 指数分布

Kolmogorov-Smirnov Z 0.951 1.153 0.933 4.212

Sig. 0.327 0.140 0.349 0.000

结论:积极因子分更接近泊松分布,在正态分布、均匀分布和指数分布上都不存在显著性差异。

第三部分:独立性检验(即多个类型数据样本的分布特征差异检验)

多个类型数据样本的分布特征差异检验用于双变量关系研究,当自变量和因变量都是类型数据时采用。

例五:请根据课本472页第9题数据,分析民主、共和两党的选民收入水平分布是否一致。 由于采用的是频次,采用SPSS 计算卡方前需要先做个案加权。

收入水平 民主党 共和党 合计 卡方检验 低收入 41 9 50 卡方=27.861

a

df=3 Sig.=0.0

00

中低收入 45 15 60

中高收入 38 42 80 高收入 26 34 60 合计 150 100 250

结论:民主党和共和党选民的收入水平存在显著性差异,民主党选民收入水平在低收入和中低收入居多,共和党选民收入水平在中高收入和高收入居多。

2、请依据课本472页第11题建立数据表,完成统计要求。 性别 A B C D E 卡方检验 男 12 15 14 5 4 卡方=18.000 df=4 Sig.= 0.001

女 4 5 14 15 12 合计 16 20 28 20 16 结论:助教朱里奥在评定成绩时男女比例存在显著性差异,即存在性别偏见,男生分数在C 级以下为多,女生分数在C 级以上为多。

3、请分析购买频率对人们购买服装时的关注点有何影响。(使用原始数据,不用加权)

购买频率 舒适 外观 合计 卡方检验

频繁 4 18 22 卡方=8.976a

df=1

不频繁

21

15

36

总计

25 33 58

Sig.=0.003

结论:购买频率与人们选购服装时的关注点存在显著性差异,注重外观且购买频率不高的人居多,注重舒适度的人们购买频率相似。

3、请分析不同性别大学生网购的支付方式有何不同。

性别 支付宝 网银 其他 合计 卡方检验

女 4 20 8 32 卡方=19.607a df=2 Sig.=0.000

21

11

1

33

总计

25 31 9 65

结论:不同性别大学生网购的支付方式存在显著性差异,女生选择网银居多,男生选择支付宝居多。

四、实训体会(所得与困惑)

通过这次实训,我学会了运用卡方检验分析一个定类数据样本的分布特征与理想分布之间的拟合度,运用二项分布检验、K-S 检验分析一个定类数据样本的分布特征,运用卡方检验分析两个定类数据样本的分布特征是否存在显著性差异等等。但是我还是有点搞不懂地方,就是定类数据拟合度检验方面有点不熟,略为不懂。

最新卡方检验表

文化程度识字量X2 P 100个以下100个上 3.44 0.100 高中以上16 13 高中以下0 3 X=4.74 X=6.399 保育员高级操作技能考核复习提纲

一、简答题(每题10分,共30分) 1. 请简述幼儿园日常消毒的内容有哪些? (10分) 常用物品清洁消毒、物体表面清洁消毒、空气清洁消毒、手清洁消毒、垃圾及排泄物处理。 ... 2. 请简要阐述保育员全日观察的内容有哪些?(10分) 如发热答:观察幼儿精神状况,面色、食欲,大便性质、次数和睡眠等。幼儿发热时:观察其精神状态、面色、呼吸及其他伴随症状如:呕吐、头痛、皮疹等。 3. 请简要阐述急救的原则有哪些?(10分) 4. 请简述培养婴幼儿文明进餐习惯的注意事项。(10分) 答:进餐定时定位,饮食定量,专心进餐,不偏食,注意饮食卫生,学习餐桌文明。 5. 请简要阐述照料体弱儿进餐的原则有哪些?(10分) (1)区分体弱儿与正常儿 (2)根据体弱儿的特点进行个别照顾; (3)循序渐进地养成体弱儿的良好饮食习惯 (4)照顾体弱儿的进进餐需要,但不强迫体弱儿进餐。 6. 请简要阐述如何培养婴幼儿的良好睡眠习惯?(10分) ?培养婴幼儿独自入睡的习惯 ?培养婴幼儿按时睡眠和按时起床的习惯 ?培养婴幼儿正确的睡眠姿势 7. 请简述组织婴幼儿盥洗的原则有哪些?(10分) ?强调盥洗的纪律要求,卫生要求以及注意事项 ?对盥洗的组织应该有计划性 ?全面照顾,及时督促,仔细检查,达到清洁自身同时对他们有教育作用 ?培养婴幼儿自理能力 ?尽量减少婴幼儿的等待时间 ?培养婴幼儿良好的盥洗习惯 ?组织形式灵活 8. 请简要阐述组织婴幼儿盥洗的方法。(10分) 9. 请简要阐述对肥胖儿进餐的照顾方法有哪些?(10分) ?限制进食量

第七章 列联表分析

第七章列联表分析 7.1 列联表(Crosstabs)分析的过程 7.2 列联表的实例分析 7.1 列联表 (Crosstabs) 分析的过程 列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。 列联表分析的功能可以通过下述操作来实现。 图7-1 列联表分析对话框 1.打开列联表分析对话框 执行下述操作: Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。 2.确定列联分析的变量 从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。 3.选择统计分析内容 单击statistics 按钮,打开statistics 对话框,如图7-2 所示。

图7-2statistics 对话框 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。 (3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。 1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。 3)Lambda:λ系数。 4)Uncertainty Coefficient:不定系数。 (4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。 1)Gramma:Gramma 等级相关系数。 2)Somers’d:Somers 等级相关d 系数。 3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。 4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。 (5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。 4.确定列联表内单元格值的选项 单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。

非参数统计列联表卡方检验

非参数统计期末大作业 一、Wilcoxon符号秩检验 某个公司为了争夺竞争对手的市场,决定多公司重新定位进行宣传。在广告创意中,预计广告投放后会产生效果。一组不看广告组和一组看广告,抽取16位被 调查者,让起给产品打分。现有数据如下 不看广告62 83 96 99 71 60 97 100 看广告87 92 90 86 94 95 82 91 分析广告效应是否显著。 1、手算 建立假设: H0:广告效应不显著 H1:广告效应显著 不看广告组记为x,看广告组记为y。 X Y D=x-y |D| |D|的秩D的符号 62 87 -25 25 7 - 83 92 -9 9 2.5 - 96 90 6 6 1 + 99 86 13 13 4 + 71 94 -23 23 6 - 60 95 -35 35 8 - 97 82 15 15 5 + 100 91 9 9 2.5 + 由表可知: T+=1+4+5+2.5=12.5 T-=7+2.5+6+8=23.5 根据n=8,T+和T-中较大者T-=23.5,查表得,T+的右尾概率为0.230到0.273,在显著性水平下,P值显然较大,故没有理由拒绝原假设,表明广 告效应不显著。

2、Spss 在spss中输入八组数据(数据1): 选择非参数检验中的两个相关样本检验 对话框中选择Wilcoxon,输出如下结果(输出1): Ranks N Mean Rank Sum of Ranks 看广告- 不看广告Negative Ranks 4a 3.12 12.50

Positive Ranks 4b 5.88 23.50 Ties 0c Total 8 a. 看广告< 不看广告 b. 看广告> 不看广告 c. 看广告= 不看广告 由上表,负秩为4,正秩也为4,同分的情况为0,总共8。负秩和为12.5,正秩和为23.5,与手算结果一致 Test Statistics b 看广告- 不看广 告 Z -.771a Asymp. Sig. (2-tailed) .441 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test 由上表,Z为负,说明是以负秩为基础计算的结果,其相应的双侧渐进显著性结果为0.441,明显大于0.05,因此在的显著性水平下,没有理由拒绝原假设,即表明广告效应不显著,与手算的结论一致。 3、R语言(R语言1) 输入语句: x=c(62,83,96,99,71,60,97,100) y=c(87,92,90,86,94,95,82,91) wilcox.test(x,y,exact=F,cor=F) 输出结果: Wilcoxon rank sum test data: x and y W = 33, p-value = 0.9164 alternative hypothesis: true location shift is not equal to 0 由输出结果可知,P=0.9164,远大于 =0.05,因此没有理由拒绝原假设,即广告效应并不显著,与以上结果一致。

卡方检验临界值表

自由度 0.50 0.25 0.10 0.05 0.03 0.01 10.455 1.323 2.706 3.841 5.024 6.6352 1.386 2.773 4.605 5.9917.3789.2103 2.366 4.108 6.2517.8159.34811.3454 3.357 5.3857.7799.48811.14313.2775 4.351 6.6269.23611.07012.83315.0866 5.3487.84110.64512.59214.44916.8127 6.3469.03712.01714.06716.01318.47587.34410.21913.36215.50717.53520.09098.34311.38914.68416.91919.02321.666109.34212.54915.98718.30720.48323.2091110.34113.70117.27519.67521.92024.7251211.34014.84518.54921.02623.33726.2171312.34015.98419.81222.36224.73627.6881413.33917.11721.06423.68526.11929.1411514.33918.24522.30724.99627.48830.5781615.33819.36923.54226.29628.84532.0001716.33820.48924.76927.58730.19133.4091817.33821.60525.98928.86931.52634.8051918.33822.71827.20430.14432.85236.1912019.33723.82828.41231.41034.17037.5662120.33724.93529.61532.67135.47938.9322221.33726.03930.81333.92436.78140.2892322.33727.14132.00735.17238.07641.6382423.33728.24133.19636.41539.36442.9802524.33729.33934.38237.65240.64644.3142625.33630.43535.56338.88541.92345.6422726.33631.52836.74140.11343.19546.9632827.33632.62037.91641.33744.46148.2782928.33633.71139.08742.55745.72249.5883029.33634.80040.25643.77346.97950.8923130.33635.88741.42244.98548.23252.1913231.33636.97342.58546.19449.48053.4863332.33638.05843.74547.40050.72554.7763433.33639.14144.90348.60251.96656.0613534.33640.22346.05949.80253.20357.3423635.33641.30447.21250.99854.43758.6193736.33642.38348.36352.19255.66859.8933837.33543.46249.51353.38456.89661.1623938.33544.53950.66054.57258.12062.4284039.33545.61651.80555.75859.34263.6914140.33546.69252.94956.94260.56164.9504241.33547.76654.09058.12461.77766.2064342.33548.84055.23059.30462.99067.45944 43.33549.91356.36960.48164.20168.710 显著性水平(a )卡方检验临界值表

卡方检验

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

第7章卡方检验

卡方检验(Chi-square test) stat9@https://www.wendangku.net/doc/6e10507581.html,

检验(Chi-square test)是现代统计学的创始人 K. Pearson 提出的一种具有广泛用途的统计方法。 该检验可用于两个及多个率(或者构成比)之间的比较,分类资料的关联度分析,拟合优度检验等。 2

一、卡方检验的基本思想 首先介绍一个抽样分布:卡方分布 ?属连续型分布 ?可加性是其基本性质 ?唯一参数,即自由度

(1) 自由度为1的χ2 分布 若Z N ~(,),01则Z 2 的分布称为自由度为1的χ2分布. (Chi-square distribution),记为χ()12或χ2 1(). 图形: 0246810 0.0 0.1 0.2 0.3 2 2 2 0.05(1)0.05/2 2 2 2 0.01(1) 0.01/2 3.84(1.96)6.63(2.5758)Z Z χχ ======

(2) νZ Z Z ,...,,21互相独立,均服从N (,)01, 则22221...νZ Z Z +++的分布称自由度为 ν的χ2 分布, 记为χν()2或)(2νχ,或简记为χ2 . ● 图形: ● 自由度ν很大时,2 () νχ近似地服从正态分布.有 2()2 (),22Z ννχνχννν -=服从均数为,方差为的正态分布

0.0 0.10.20.3 0.40.50 3 6 912 1518 ?¨·??μ ×Y ·?×?óé?è£?1 ×?óé?è£?2×?óé?è£?3×?óé?è£?6 2 /) 12/(2 2 22 )2/(21 )(χνχνχ--??? ? ??Γ= e f 3.84 7.81 12.59 P =0.05的临界值 χ2分布(Chi-square distribution )

卡方检验法

记数数据统计法—卡方检验法 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况: 卡方检验能检验单个多项分类名义型变量各分类间的实际观测次数与理论次数之间是否一致的问题,这里的观测次数是根据样本数据得多的实计数,理论次数则是根据理论或经验得到的期望次数。这一类检验称为拟合性检验。

卡方检验临界值表

卡方检验临界值表 自由度显著性水平(a) 0.500.250.100.050.030.01 10.4551.3232.7063.8415.0246.635 2 1.3862.7734.6055.9917.3789.210 3 2.3664.1086.2517.8159.34811.345 4 3.3575.3857.7799.48811.14313.277 5 4.3516.6269.23611.07012.83315.086 6 5.3487.84110.64512.59214.44916.812 7 6.3469.03712.01714.06716.01318.475 87.34410.21913.36215.50717.53520.090 98.34311.38914.68416.91919.02321.666 109.34212.54915.98718.30720.48323.209 1110.34113.70117.27519.67521.92024.725 1211.34014.84518.54921.02623.33726.217 1312.34015.98419.81222.36224.73627.688 1413.33917.11721.06423.68526.11929.141 1514.33918.24522.30724.99627.48830.578 1615.33819.36923.54226.29628.84532.000 1716.33820.48924.76927.58730.19133.409 1817.33821.60525.98928.86931.52634.805 1918.33822.71827.20430.14432.85236.191 2019.33723.82828.41231.41034.17037.566 2120.33724.93529.61532.67135.47938.932 2221.33726.03930.81333.92436.78140.289 2322.33727.14132.00735.17238.07641.638 2423.33728.24133.19636.41539.36442.980 2524.33729.33934.38237.65240.64644.314 2625.33630.43535.56338.88541.92345.642 2726.33631.52836.74140.11343.19546.963 2827.33632.62037.91641.33744.46148.278 2928.33633.71139.08742.55745.72249.588 3029.33634.80040.25643.77346.97950.892 3130.33635.88741.42244.98548.23252.191 3231.33636.97342.58546.19449.48053.486

统计方法卡方检验

卡方统计量 卡方检验用途: 可以对两个率或构成比以及多个率或构成比间的差异做统计学检验 第一节. 四格表资料的χ2检验 例8.1 为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果见表8.1,问铅中毒病人和对照人群的尿棕色素阳性率有无差别? 表8.1 两组人群尿棕色素阳性率比较 组别阳性数阴性数合计阳性率% 病人29(18.74) 7(17.26) 36 80.56 对照9(19.26)28(17.74) 37 24.32 合计38 35 73 52.05 卡方检验的基本思想 表1中29、7、9、28是构成四格表资料的四个基本格子的数字,其余行合计和列合计以及总的合计都可以根据该四个数字推算出来,故该类资料被称为四格表资料 四格表卡方检验的步骤 以例8.1为例 1.建立假设: H0:π1 = π2 H1:π1≠π2 α=0.05 四格表的四格子里的数字是实际数,在表1中四个数字旁边括号中的四个数字为理论数,其含义是当无效假设成立的时候,理论上两组人群各有多少阳性和阴性的人数。 若H0:π1=π2成立→p1=p2=p 即假设两组间阳性率无差别,阳性率都是等于合计的52.05%,那么 铅中毒病人36人,则理论上有 36 ╳52.05%=18.74人为阳性; 对照组37人,则理论上有 37 ╳52.05%=19.26人为阳性。 故每个实际数所对应的理论数算法是,该实际数对应的行和乘列和再除以总的N样本含量。 即TRC=nR nC / n 2.计算理论数 第1行1列: T11=36×38/73= 18.74 依次类推T12 = 17.26 T21 = 19.26 T22 = 17.74 四格表中理论数的两大特征: (1)理论频数表的构成相同,即不但各行构成比相同,而且各列构成比也相同; (2)各个基本格子实际数与理论数的差别(绝对值)相同。 一、卡方检验基本公式

卡方检验临界值表

卡方检验临界值表 自由度显著性水平(a ) 0.50 0.25 0.10 0.05 0.03 0.01 1 0.455 1.323 2.706 3.841 5.024 6.635 2 1.386 2.77 3 4.605 5.991 7.378 9.210 3 2.366 4.108 6.251 7.815 9.348 11.345 4 3.357 5.38 5 7.779 9.488 11.143 13.277 5 4.351 6.62 6 9.236 11.070 12.833 15.086 6 5.348 7.841 10.645 12.592 14.449 16.812 7 6.346 9.037 12.017 14.067 16.013 18.475 8 7.344 10.219 13.362 15.507 17.535 20.090 9 8.343 11.389 14.684 16.919 19.023 21.666 10 9.342 12.549 15.987 18.307 20.483 23.209 11 10.341 13.701 17.275 19.675 21.920 24.725 12 11.340 14.845 18.549 21.026 23.337 26.217 13 12.340 15.984 19.812 22.362 24.736 27.688 14 13.339 17.117 21.064 23.685 26.119 29.141 15 14.339 18.245 22.307 24.996 27.488 30.578 16 15.338 19.369 23.542 26.296 28.845 32.000 17 16.338 20.489 24.769 27.587 30.191 33.409 18 17.338 21.605 25.989 28.869 31.526 34.805 19 18.338 22.718 27.204 30.144 32.852 36.191 20 19.337 23.828 28.412 31.410 34.170 37.566 21 20.337 24.935 29.615 32.671 35.479 38.932 22 21.337 26.039 30.813 33.924 36.781 40.289 23 22.337 27.141 32.007 35.172 38.076 41.638 24 23.337 28.241 33.196 36.415 39.364 42.980 25 24.337 29.339 34.382 37.652 40.646 44.314 26 25.336 30.435 35.563 38.885 41.923 45.642 27 26.336 31.528 36.741 40.113 43.195 46.963 28 27.336 32.620 37.916 41.337 44.461 48.278 29 28.336 33.711 39.087 42.557 45.722 49.588 30 29.336 34.800 40.256 43.773 46.979 50.892 31 30.336 35.887 41.422 44.985 48.232 52.191 32 31.336 36.973 42.585 46.194 49.480 53.486

如何用excel数据表计算卡方检验的p值

如何用EXCEL的统计函数进行统计卡方检验(χ2) 卡方(χ2)常用以检验两个或两个以上样本率或构成比之间差别的显著性分析,用以说明两类属性现象之间是否存在一定的关系。 卡方检验常采用四格表,如图5-4-18所示,比较的A、B两组数据分别用a、b、c、d表示,a为A组的阳性例数,b 为A组的阴性例数,c为B组的阳性例数,d为B组的阴性例数。 用EXCEL进行卡方检验时,数据的输入方式按实际值和理论值分别输入四个单元格,如图5-4-18所示。 (1)比较的A、B两组数据分别用a、b、c、d表示。a=52,为A组的阳性例数;b=19,为A组的阴性例数;c=39,为B组的阳性例数;d=3,为B组的阴性例数。根据公式计算理论值T11、T12、、T21和T22。将实际值和理论值分别输入如图所示的四个单元格(图5-4-19)。 选择表的一空白单元格,存放概率p值的计算结果,将鼠标器移至工具栏的“fx”处,鼠标器左键点击工具栏的“fx”快捷键,打开函数选择框。 (2)在函数选择框的“函数分类”栏选择“统计”项,然后在“函数名”栏内选择“CHITEST”函数,用鼠标器点击“确定”按钮,打开数据输入框(图5-4-20)。 (3)在“Actual_range”项的输入框内输入实际值(a、b、c、d)的起始单元格和结束单元格的行列号,在“Expected_range”项的输入框内输入理论值(T11、T12、T21、T22)的起始单元格和结束单元格的行列号,起始单元格和结束单元格的行列号之间用“:”分隔(图5-4-20)。 在数据输入完毕后,p值的计算结果立即显示。用鼠标器点击“确定”按钮,观察计算结果。 图5-4-18 四格表图5-4-19 四格表数据输入

卡方检验

第十二章假设测定I V:卡方测定 (The Chi Square Test) 壹、本单元目标 1、举例说明卡方测定适用的情况。 2、解释双变项交叉表(bivariate table)的结构,以及如何将独立性 (independence)的概念应用到交叉表的期待次数(expected frequencies)与观察次数(observed frequencies)之间的关系上。 3、说明如何将假设测定的逻辑运用在交叉表的分析上。 4、以五个假设测定的步骤说明卡方测定,以及正确的解释测定的结 果。 5、说明卡方测定的限制,以及统计显著性与实质重要性的差异。 贰、简介 本章要介绍的Chi Square (χ2) test(卡方测定)大概是社会科学研究中,最常看到的一种假设测定方法。这是因为此测定方法相当容易符合假设测定第一个步骤─基本假定设定─的要求。此测定方法是两个名目尺度变项间之假设测定的方法。因此在level of measurement 的要求方面是最基本的nominal level of measurement。这名目尺度变项不限于是二分的,也可适用在其它尺度测量的变项上。而χ2test 也是一种无参数的测定,因此在基本假定部分,我们无须知道母群体之分配特性(distribution-free)。χ2之抽样分配是一种已知之理论分配,就叫χ2分配。(所谓Chi Square是χ这个希腊字母的发音加上「平方(square)」的英文)。 这种可以相当容易符合基本假定要求的无参数测定方法,可以让我们在做拒绝虚无假设的决策时,比较有信心。这是因为做假设测定时,如果在基本假定设定(测定的第一个步骤)中的任一要求或虚无假设(测定的第二个步骤)是错误时,我们就可拒绝虚无假设。但在无参数测定方法的情况下,我们比较容易符合基本假定的要求,因此可专注在判断虚无假设是否为错误,决策的结果也比较有信心。 参、双变项交叉表 卡方测定的进行要用到双变项交叉表。此交叉表同时呈现出两个不同变项间次数分配的情况。因此,双变项交叉表可用来探索这两个变项间是否有明显的关系存在。例如,以下是表示性别与教育程度间关系的一个双变项的交叉表:

8.2 多个独立样本R×C列联表资料的卡方检验

第八章c 2 检验 二、多个独立样本R×C列联表资料的c 2 检验

表 8-5 三种不同治疗方法治疗慢性支气管炎的疗效组别 有效 无效 合计 有效率% A 药 35 5 40 87.50 B 药 20 10 30 66.67 C 药 7 25 32 21.88 合计62 40 102 60.78 (24.31) ( ) A T T c - = ? 2 22 2 11 (1)32.74 R C i j i j i j A n n m c == =-= ?? 2.1 频率的比较

表 8-5 三种不同治疗方法治疗慢性支气管炎的疗效 组别 有效 无效 合计 有效率% A 药 35 5 40 87.50 B 药 20 10 30 66.67 C 药 7 25 32 21.88 合计62 40 102 60.78 2.1 多个独立样本频率的比较 (24.31) ( ) A T T c - = ? 2 22 2 11 (1)32.74 R C i j i j i j A n n m c == =-= ?? c 2 (A, B ) =4.419,P =0.036,P ’=0.108

2.2 独立样本频率的比较 表 8-6 儿童急性白血病患者与成年人急性白血病患者的血型分布 分组A 型 B 型 O 型 AB 型合计 儿童30 38 32 12 112 成人19 30 19 9 77 合计49 68 51 21 189 c 2 0.75,3 =1.21,P >0.75 2 2 11 (1)0.695 R C i j i j i j A n n m c == =- = ??

记数数据统计法卡方检验法.

记数数据统计法卡方检验法 第八章记数数据统计法一卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、......... , 教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟

合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。

第八章卡方检验#(精选.)

第八章 2 χ 检验 一、教学大纲要求 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 二、教学内容精要 (一) 2 χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。

卡方检验

作业2 卡方测验 (一)1.资料:P144习题7.4。 2.数据说明:大麦杂交F2代芒性状表型有钩芒、长芒、短芒三种,测验三种性状是否符 合9:3:4比例。 3.结果。 FREQ 过程 检验 gouxing 频数百分比百分比 --------------------------------------- 钩芒 348 56.13 56.25 长芒 115 18.55 18.75 短芒 157 25.32 25.00 指定比例的 卡方检验 ------------------------- 卡方 0.0409 自由度 2 渐近的 Pr >卡方 0.9798 精确的 Pr >= 卡方 0.9797 样本大小 = 620 4.分析。 H0:三种性状符合9:3:4;H A:不符合。显著水平:α=0.05 υ=2 χ20.05,2=5.99>χ2.因此接受无效假设,无显著差异。 5.程序代码。 optionps=32767ls=255nocenter; data xiti7_4; x 'F:'; x 'cd "F:\"'; infile 'xiti7_4.csv' dsd; inputgouxing$ zhushu; run; procfreq data=xiti7_4 order=data; weightzhushu; tablesgouxing/nocumtestp=(56.2518.7525);/*ratio of 9:3:4*/ exactpchi; run; (二)1.资料:P144习题7.6。

2.数据说明:某杂交组F2得到四种表型,B_C_,B_cc,bbC_,bbcc。判断四种表型实际 观察次数是否符合9:3:3:1的比例,判断是连锁遗传还是独立遗传。 3.结果。 FREQ 过程 检验 biaoxing 频数百分比百分比 ---------------------------------------- B-C- 132 58.41 56.25 B-cc 42 18.58 18.75 bbC- 38 16.81 18.75 bbcc 14 6.19 6.25 指定比例的 卡方检验 ------------------------- 卡方 0.6431 自由度 3 渐近的 Pr >卡方 0.8865 精确的 Pr >= 卡方 0.8915 样本大小 = 226 4.分析。 H0:四种表型符合9:3:3:1;H A:不符合。显著水平:α=0.05 υ=3 χ20.05,3=7.815>χ2.因此接受无效假设,无显著差异。 5.程序代码。 optionps=32767 ls=255 nocenter; data xiti7_6; filenamedatafile 'F:\xiti7_6.csv'; infiledatafilefirstobs=9 dsd; lengthbiaoxing $4; inputbiaoxing $ guanchacishu; run; proc freq data=xiti7_6 order=data; weightguanchacishu; tablesbiaoxing / nocumtestp=(56.25 18.75 18.75 6.25);/*ratio of 9:3:3:1*/ exactpchi; run;

相关文档