第四章 非参数检验
(Nonparametric Tests 菜单)
☞ 本章学习内容
3.1 非参数检验概述
3。2 卡方检验(Chi Square) 3。3 二项分布检验(Binomial)
3.4 单样本K-S 检验(1 Sample K —S Tests
) 3。
5 单样本变量值随机性检验(Runs )
3.6 两独立样本非参数检验(2 independent Samples )
3。7 多独立样本非参数检验(K independent Samples ) 3。7 两相关样本非参数检验(2 Related Samples)
3.8 多相关样本非参数检验(K Related Samples)
☞ 具体内容
3。1 非参数检验概述
非参数检验是统计推断的一个重要组成部分,它与参数检验共同构成统计推断的基本内容。
参数检验是在假定知道总体分布形式的情况下,对总体分布的某些参数,如均值、方差等进行推断检验。但是,在现实生活中,由于种种原因,人们往往无法对总体的分布形态作简单的假定,但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下,利用样本数据对总体的分布形态或分布参数进行推断。
3。2 卡方检验(Chi-Square )
总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H 0:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。
单样本
医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多,其他日期则基本相当,比例近似为2.8:1:1:1:1:1:1。现收集到样本数据168个,据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav"。
具体操作如下:
Analyze →Nonparametric Tests → Chi-Square ,打开卡方检验对话框,如下图。
心脏病猝死日期
5553.5 1.52319.1 3.91819.1-1.11119.1-8.12619.1 6.92019.1.91519.1-4.1
168
1234567Total
Observ ed N Expected N
R esidual
Test Statistics
7.757
6.256
Chi-Square a df
Asym p. S ig.
心脏病猝死日期
0 cells (.0%) hav e expected frequencies less than 5. The m inim um expected cell frequency is 19.1.
a. 可以看出,由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设,可以认为样本来自的总体分布于指定的理论分布无显著差异,即:心脏病人猝死人数与日期的关系基本是2.8:1:1:
2
1
3
3.3 二项分布检验(Binomial )
现实生活中有很多数据的取值是两类的,例如人群可以分成男性和女性,产品可以分为合格和不合格,学生可以分为三好学生和非三号学生等等.这时,如果某一类情况出现的概率是P ,则另一类出现的概率就是1-P ,这种分布成为二项分布。若说卡方检验是对单个因素多项分类(多重比例)进行检验,那么二项分布检验就是对单个因素的两项进行检验。
实例分析:
检验一种抗生素对于某种细菌的作用,看有效时间超过12小时的比例是否超过85%,为此进行了试验,结果如文件“抗菌时间.sav ”。
从题中可以知道,等价于有效时间不超过12小时的比例为15%,因此,设分布比例为0。15:0.85,H 0:P=0.15。
具体操作如下:Analyze →Nonparametric Tests → Binomial ,打开二项分布检验对话框。
Binomial Test
<= 124.20.15
.352
> 12
16.8020
1.00
Group 1Group 2Total
小时
Category N
Observed Prop.
Test Prop.
Exact Sig.(1-tailed)
可以看出,由于检验结果中的P 值为0。352,大于显著性水平0。05,因此不能拒绝“抗菌有效时间不高于12小时的比例为15%”的零假设。
习题1:
2分割点值
1
3检验比例
4
Dichotomy n.两分, 二分法, 分裂
Define dichotomy ,定义二分。其中:
get from data 适用于变量数据都是二值数据的情况;
cut point :如不是二值数据,则可输入一个具体值,即将数据分为两类:≤该值的为一类; 该值的为另一类。 Test proportion :检验比例,默认为0.5
见文件“抛掷硬币结果binomial.sav"。检验抛掷硬币结果(1为正面,0为反面)的比例大体相等。 3.4 单样本K-S 检验(1 Sample K-S Tests )
若说前两种主要是对单样本的分布比例(多项或两项)的检验,那么单样本K(柯尔莫哥,Kolmogorov)—S (斯米诺夫,Smirnov )检验是利用样本数据推断总体是否服从某一理论分布,包括正态分布、均匀分布、指数分布、泊松分布。其零假设是H 0:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。其中应用最多的是正态分布检验。
实例分析:
某条大街在一年内的交通事故按周次分为七类进行统计,见文件“交通事故周次分布。sav ”。试问事故的发生是否与星期几有关?(a=0.05)
我们作的零假设为H 0:每天发生交通事故次数为均匀分布。
步骤:Analyze →Nonparametric Tests → 1 Sample K-S Tests ,打开单样本K —S 检验对话框。
One-Sample Kolm ogorov-Smirnov Test
7712.229.171-.229.605.858
N
Minimum Maxim um Uniform Parameters a,b
Absolute Positiv e Negative
Most E xtreme Differences
Kolmogorov -Sm irnov Z Asym p. S ig. (2-tailed)
事故数
Test distribution is Uniform .a. Calculated from data.
b.
单样本k —:渐进的显著性概率为0.858,远远大于0。05这一给定的显著性水平值,因此没有理由拒绝原假设,即认为每天发生交通事故次数为均匀分布,也就是说事故的发生与星期几无关.
习题2:
见word 文档:练习2。
2
1
3
3。5 单样本变量值随机性检验(游程检验,Runs )
单样本变量值随机性检验是对某一变量的变量值是否为随机性出现进行检验。
例如: 某厂质检员需要设计一个抽样方法,已保证质量检查的可靠。生产线上抽取的产品检查结果可简单地分为两类:有毛病、无毛病.一般来说,如果有毛病的产品是成群出现,则每天应频繁抽取小样本,以保证估计可靠;如果有毛病的产品随机出现,则每天以间隔较长地抽取大样本,就可以得到一个比较好的估计。现随机抽取了30个产品,毛病编码为0,好的编码为1,按抽取顺序,结果为:
0000111111001111110001111111
问:该生产线上的产品检验,应采取何种方式?
设H 0:有毛病的产品随机产生。打开文件“有毛病产品出现的随机性。sav ”.
步骤:Analyze →Nonparametric Tests → runs Test ,打开单样本变量值随机性检验对话框。
Runs Test
1.00304-3.811.000
Test Value a Total Cases Num ber of Runs Z
Asym p. Sig. (2-tailed)x
User-specified.
a.
结果显示:渐进观察显著性水平为0。000,这相对于a=0.05来说,是一个极小的值,因而数据不支持原假设,而是成群产生,因此,应该每天频繁抽取小样本检验,以保证质量检查的可靠性.
习题3:
在投掷硬币后,出现了由1和0(1代表正面,0代表反面)组成的数据序列为:1011011010011000101010000111,试判断,硬币的正反面出现是否是随机的? 3.6 两独立样本非参数检验(2 independent Samples)
两独立样本的非参数检验是在对总体分布不甚了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异。
2
1
3
SPSS提供了四种用于两独立样本的非参数检验方法。在此只以曼—惠特尼-U检验为例讲述。
实例分析:
美国某汽车协会每月编制一个顾客满意度指数,旨在测量顾客对新型汽车满意程度,此指
我们建立的H0:美国产汽车与进口汽车的顾客满意指数相同.另外,我们还需对国产或进口资料进行重新编码(recode)以分出组别。
打开文件“汽车满意度评比。sav”.
步骤1:transform recode into different variables,会弹出如下对话框。
之后会看到文件中生成新的变量“国产”,如下图。
步骤2:Analyze→Nonparametric Tests→ 2 independent Samples,打开两独立样本检验对话框.
Ranks
7 6.2143.503 3.83
11.50
10
国产01Total
顾客满意度指数
N
Mean Rank
Sum of Ranks
Test Statistics b
5.50011.500-1.143.253
.267
a
Mann-Whitney U Wilcoxon W Z
Asym p. Sig. (2-tailed)Ex act Sig. [2*(1-tailed Sig.)]
顾客满意度指数
Not corrected for ties.
a. Grouping V ariable : 国产
b.
可以看出,相应的渐进显著性检验值为0.253,大于给定的a 值,因此,没有理由拒绝原假
设,即认为顾客对美国产的新型汽车和进口汽车的满意指数没有显著性差异.
习题4:
某工厂用两种不同的工艺生产用一种产品,现在需要检验它们的使用寿命是否存在显著差异。具体数据如下:(单位:百小时)
甲种工艺:675,682,692,679,669,661,693
乙种工艺:662,649,672,663,650,651,646,652 用1表示甲,用2表示乙. 3。7 两相关样本非参数检验(2 Related Samples )
两相关样本的非参数检验是在对总体分布不甚了解的情况下,通过分析样本数据,推断样本来自的两个相关总体的分布是否存在显著差异.
SPSS 提供了三种用于两相关样本的非参数检验方法。在此只以普通符号法(sign )为例讲述.
实例分析:
考察广告对某商品的每日销量是否起作用。广告前后每日销售量见文件“广告对某商品的每日销量是否起作用.sav"。我们设H 0:广告前与广告后每日销量相同.
步骤:Analyze →Nonparametric Tests → 2 Related Samples ,打开两相关样本检验对话框.
Frequencies
210315
Negativ e Differences a
Positiv e Differences b Ties c Total
广告后 - 广告前
N
广告后 < 广告前a. 广告后 > 广告前b. 广告后 = 广告前
c.
Test Statistics b
.039a
Exact Sig. (2-tailed)广告后 - 广告前
Binomial distribution used.
a. Sign Test
b.
Sig 值为0.039,小于a 值0。05,所以调查结果不支持H 0,广告前后每日销量有显著的差异。我们认定广告对该种商品的促销还是起作用的.
习题5:
见word文档“习题5”。
3.8 多独立样本非参数检验(K independent Samples)
在参数检验中,检验多个样本是否来自均值相同的总体,采用的是方差分析法。运用方差分析的F检验的假定前提条件是:样本是从正态分布的总体中抽选的,且总体具有相同的方差。当这些条件不能满足时,就需要采用非参数检验方法了。
针对多个独立样本的非参数检验,SPSS通过K independent Samples的子过程来完成,且提供了三种具体方法,在此以K-W—H方法(克鲁斯卡尔—瓦里斯)为例。
实例分析:
假设某公司有三种方法供员工执行某生产任务使用。为检验这三种方法之间有无差异,设计了两个方案.
方案1:先随机抽取6名员工,其中的每一名员工都使用方法1,然后再随机抽取6名员工,这6名都使用方法2。最后在抽取6名,他们都使用方法3。具体完成任务时间(分钟)见下表。
方案2:随机抽取6名员工,每一名员工都使用这三种方法执行该任务。6名员工完成任务时间(分钟)见下表。
可以看出,方案1 是3个独立样本,我们使用K-W-H方法来对其进行检验。
首先建立零假设H0:三种方法之间没有差异。
打开文件“例7—9(Kruskal—Wallis)。sav”
步骤:Analyze→Nonparametric Tests→ K independent Samples,打开多独立样本检验对话框.
Ranks
610.506 5.17612.83
18
方法类型方法一方法二方法三Total
所用时间
N
Mean Rank
Test Statistics a,b
6.503
2.039
Chi-Square df
Asy m p. Sig.
所用时间
Krusk al Wallis Test
a. Grou ping V ariab le: 方法类型
b.
P 值为0.039,小于a 值0。05,所以有理由拒绝H 0,即认为三种方法之间完成该生产任务所
用时间存在着显著性差异.
习题6:
假设要比较北京、上海、天津、广州四城市周岁儿童的身高,试分析各总体的分布是否存在显著性差异。于是在四个城市随机抽取样本,得到以下20个数据.
北京:79,75,78,76,72 上海:72,71,74,74,73 天津:76,78,78,77,75 广州:70,72,71,71,69 3。9 多相关样本非参数检验(K Related Samples )
另外,还可以看出,方案2 是3个相关样本,我们使用Friedman 方法来对其进行检验. 首先建立零假设H 0:三种方法之间没有差异。
打开文件“例 7-9(Friedman )。sav"
注意:可以看出此文件中的变量和刚才不同:独立样本中不同样本可以在一个变量中体现,而在相关样本文件中,不同样本各自建立不同的变量。
步骤:Analyze →Nonparametric Tests → K Related Samples ,打开多相关样本检验对话框。
Ranks
2.001.172.83
v ar001v ar002v ar003
Mean Rank
Test Statistics
a
68.333
2.016
N
C hi-Square df
Asy mp. Sig.Friedman Test
a.
P 值为0.016,小于a 值0。05,所以有理由拒绝H 0,即认为三种方法之间完成该生产任务所用时间存在着显著性差异。
假设检验(二)——非参数检验 假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。 非参数检验法与参数检验法相比,特点可以归纳如下: (1)非参数检验一般不需要严格的前提假设; (2)非参数检验特别适用于顺序资料; (3)非参数检验很适用于小样本,并且计算简单; (4)非参数检验法最大的不足是没能充分利用数据资料的全部信息; (5)非参数检验法目前还不能用于处理因素间的交互作用。 非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。 一.2 χ检验 2χ检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何 假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。 2χ检验的方法主要包括适合性检验和独立性检验。 (一)2 χ检验概述 2χ是实得数据与理论数据偏离程度的指标。其基本公式为: ∑-=e e f f f 2 02 )(χ (公式11—9) 式中,0f 为实际观察次数,e f 为理论次数。 分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2 χ。观察公式可发现,如果实际观察
第四章 非参数检验 (Nonparametric Tests 菜单) ☞ 本章学习内容 3.1 非参数检验概述 3。2 卡方检验(Chi Square) 3。3 二项分布检验(Binomial) 3.4 单样本K-S 检验(1 Sample K —S Tests ) 3。 5 单样本变量值随机性检验(Runs ) 3.6 两独立样本非参数检验(2 independent Samples ) 3。7 多独立样本非参数检验(K independent Samples ) 3。7 两相关样本非参数检验(2 Related Samples) 3.8 多相关样本非参数检验(K Related Samples) ☞ 具体内容 3。1 非参数检验概述 非参数检验是统计推断的一个重要组成部分,它与参数检验共同构成统计推断的基本内容。 参数检验是在假定知道总体分布形式的情况下,对总体分布的某些参数,如均值、方差等进行推断检验。但是,在现实生活中,由于种种原因,人们往往无法对总体的分布形态作简单的假定,但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下,利用样本数据对总体的分布形态或分布参数进行推断。 3。2 卡方检验(Chi-Square ) 总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H 0:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。 单样本
医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多,其他日期则基本相当,比例近似为2.8:1:1:1:1:1:1。现收集到样本数据168个,据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav"。 具体操作如下: Analyze →Nonparametric Tests → Chi-Square ,打开卡方检验对话框,如下图。 心脏病猝死日期 5553.5 1.52319.1 3.91819.1-1.11119.1-8.12619.1 6.92019.1.91519.1-4.1 168 1234567Total Observ ed N Expected N R esidual Test Statistics 7.757 6.256 Chi-Square a df Asym p. S ig. 心脏病猝死日期 0 cells (.0%) hav e expected frequencies less than 5. The m inim um expected cell frequency is 19.1. a. 可以看出,由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设,可以认为样本来自的总体分布于指定的理论分布无显著差异,即:心脏病人猝死人数与日期的关系基本是2.8:1:1: 2 1 3
非参数检验 非参数检验是一种利用数据的分布情况,来判断总体参数是否存在差异的统计学方法。它通过对样本数据进行排序、秩次差分等计算,不依赖于总体的任何分布假设,从而有效 地避免了假设检验的潜在问题。 非参数检验是一种不依赖于正态分布等总体分布假设的统计方法。它常用于处理那些 无法明确表达总体分布的数据,例如顺序等级或名目类别等数据。非参数检验能够帮助研 究者在不了解总体分布情况的情况下,对样本数据所代表的总体参数进行有效估计和推 断。 为什么要使用非参数检验? 通常情况下,研究者在进行实验或调查时,只能获得小规模样本数据,无法获得完整 的总体数据。而传统的参数检验方法可能会假设总体分布具有特定形态的分布假设,这在 某些情况下可能会导致假设检验的错误推断。因此,非参数检验成为了一个更为可靠的方法,它不需要任何对总体分布的预设,可以适用于各种数据类型的场景。 在以下情况下,非参数检验的使用是非常适合的: 1. 样本数据不属于正态分布。 2. 样本数据中包含异常值。 3. 样本数据中存在较大的离散差异。 4. 样本规模较小,总体参数无法得到明确描述。 在非参数检验的应用中,根据所比较的数据类型和检验目的的不同,可以经常使用以 下几种检验方法: 1. Wilcoxon符号秩检验:用于检验有序对数据是否存在显著性差异。 2. Mann-Whitney U检验(也称为Wilcoxon秩和检验):用于比较两个独立样本之间的差异。 3. Kruskal-Wallis H检验:用于比较多个独立样本之间的差异。 5. McNemar检验:用于比较配对样本之间的差异。 以上非参数检验方法的应用范围非常广泛,不同场景中的应用也有所不同。 结论
第十一章 非参数检验 在社会研究中我们经常要采用定序尺度,但直到现在,我们都还没有机会讨 论涉及到定序尺度的显著性检验。本章要讲述某些用于定序尺度的双样本检验。 与以前所讲的检验不同,使用这类方法不需要对总体分布作任何事先的假定(例 如正态总体)。同时从检验的内容来说,也不是检验总体分布的某些参数(例如均 值、成数、方差等),而是检验总体某些有关的性质,所以称为非参数检验。非 参数检验,泛指“对分布类型已知的总体进行参数检验”之外的所有检验方法。 与均值差等检验比较,非参数检验有什么优点呢?在对均值差进行t 检验 时,不仅要有定距尺度的假定,还要有正态总体的假定。当然,对于大样本,正 态总体的假定可以放松。但正是对于小样本,这种假定最容易出问题。因此,在 满足下面两条件之一时,我们期望用非参数检验代替均值差检验:①没有根据采 用定距尺度,但可以安排数据的顺序(即秩);②样本小且不能假定具有正态分 布。由于非参数检验不能充分利用全部现有的资料信息。因此,如果有根据采用 定距尺度,并且如果对于小样本能够假定其具有正态性,或对大样本能够放松对 正态性假定的要求,一般宁愿使用均值差检验,而不用非参数检验。 非参数检验,无需做出经典统计所必要的关于分布的任何假设。唯一需要 的假设是:全部数据或数据对都出自相同的基本总体,且取样是随机的、相互独 立的。基于这种原因,非参数检验又称为分布自由(或无分布)检验。“无分布” 不是指总体真的无分布,而是指虽有时对总体分布一无所知,但仍可以进行分析。 不仅如此,这些很容易理解的方法还可以用于处理等级的资料和定性的信息。 很显然,如果把从一个正态总体中抽取的数据用分布自由来处理,其效果肯 定不如相应的参数检验有力。我们一般用下述指标来确定非参数检验的“效率” 。 式中的n 0和n 分别是两种检验保证实现给定的检验力所需的样本容量。如 果说某种非参数检验的检验效率为95%,就意味着这种非参数检验在使用100 个数据时的效力等于t 检验(在正确模型条件下)使用95个数据的效力。 检验力又称检验势,它是用1―β或[1―(犯第二类错误的概率)] 来定义的。
非参数检验(卡方检验),实验报告 评分 大理大学实验报告 课程名称 生物医学统计分析 实验名称 非参数检验( 卡方检验) 专业班级 姓 名 学 号 实验日期 实验地点 20xx—20xx 学年度第 2 学期一、 实验目得对分类资料进行卡方检验。 二、实验环境 1 、硬件配置:处理器:Intel(R) Core(TM) i5-4210U CPU 1、7GHz 1、7GHz 安装内存(RAM):4、00GB 系统类型:64 位操作系统 2 、软件环境:IBM SPSS
Statistics 19、0 软件 三、实验内容(包括本实验要完成得实验问题及需要得相关知识简单概述) (1) 课本第六章得例6、1-6、5 运行一遍,注意理解结果; (2)然后将实验指导书得例1-4 运行一遍,注意理解结果。 四、实验结果与分析 (包括实验原理、数据得准备、运行过程分析、源程序(代码)、图形图象界面等) 例例6 、1 表1 灭螨A A 与灭螨B B 杀灭大蜂螨效果得交叉制表 效果合计杀灭未杀灭组别灭螨A 32 12 44 灭螨B 14 22 36 合计46 34 80 分析: 表1就是灭螨A与灭螨B杀灭大蜂螨效果得样本分类得频数分析表,即交叉列联表。 表2 卡方检验 X2 值df 渐进Sig、(双侧) 精确Sig、(双侧) 精确Sig、(单侧) Pearson 卡方9、277a 1 、002 连续校正b 7、944 1 、005 似然比9、419 1 、002 Fisher 得精确检验 、003 、002 有效案例中得N 80 a、0 单元格(、0%) 得期望计数少于5。最小期望计数为
第八节非参数检验的SPSS操作 前面一章介绍的二项分布的比率检验、配合度检验——卡方检验和1-Sample K-S检验等都属于非参数检验。这一节我们主要结合前面参数假设检验一章讲过的t检验以及方差分析一章讲过的方差分析,来进一步分析,当参数检验的前提条件不满足时,两个样本和多个样本平均数差异的SPSS 操作方法。 一、两个独立样本的差异显著性检验 两独立样本的的差异显著性检验只有在满足如下条件时才能进行T检验:变量为正态分布的连续测量数据。若数据不满足这样的条件,强行进行T检验容易造成错误的结论。在数据不能满足这种参数检验的条件下,我们可以选择非参数检验方法进行。与两独立样本差异显著性检验相对应的方法可以在SPSS主菜单Analyze / Nonparametric Tests / 2 Independent Samples…中得到。 1.数据 采用本章第一节中例2的数据(数据文件“9-4-1.sav”),具体介绍操作过程。 2.理论分析 对于数据文件9-4-1.sav中的数据,目的是检验男女生之间注意稳定性是否存在显著差异,注意稳定性测量的结果虽然是测量数据但是从总体上来看不满足正态分布的前提假设,另外不同性别的学生可以看成是两组独立的样本,因此对上述资料的检验可以用非参数的独立样本的检验方法。 2.操作过程 (1)在SPSS主菜单中选择Analyze / Nonparametric Tests / 2 Independent Samples…得到两个独立样本非参数检验的主对话框(图9-1),把因变量atten选入到检验变量表列(Test Independent-Sample Tests)中去,把gender选到分组变量(Grouping Variable)中,并单击Define Groups…,在随后打开的对话框中分别键入1与2,单击Continue回到主对话框如图9-1所示。在Test Type中有四个可选项,其中最常用的是第一种方法Mann-Whitney U(又称秩和检验法)。
非参数统计课程实验报告 姓名:樊凡 学号:20XX2461 成绩: 指导老师:徐建文 Wilcoxon 秩检验方法及其应用 【内容提要】 本实验要求掌握Wilcoxon 秩检验方法和步骤:掌握对两独立样本数据的秩和检验方法;理解Wilcoxon 秩检验方法的基本原理;在R软件环境下编写相关程序;用实际例子说明Wilcoxon方法的具体步骤。 【Wilcoxon 秩检验方法定义】 威尔科克森符号秩检验是威尔科克森于1945年提出的。该方法是在成对观测数据的符号检验基础上发展起来的,比传统的单独用正负号的检验更加有效。它适用于T检验中的成对比较,但并不要求成对数据之差di服从正态分布,只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体。 【Wilcoxon 秩检验方法步骤】 正负符号检验和威尔科克森符号秩检验,都可看作是就成对观察值而进行的参数方式的T检验的代用品,非参数检
验具有无需对总体分布作假定的优点,而就成对观察值作的参数方式的T检验,必须假定有关的差别总体服从正态分布。该方法具体步骤如下: 第一步:求出成对观测数据的差di,并将di的绝对值按大小顺序编上等级。 第二步:等级编号完成以后恢复正负号,分别求出正等级之和T+和负等级之和T-,选择T+和T-中较小的一个作为威尔科克森检验统计量T。第三步;作出判断。 根据显著性水平α查附表,得到临界值Tα,若T<Tα,则拒绝原假设H0。当观测值不少于20对时,统计量T的均值和方差分别为: (n为成对观测的个数) (近似服从标准正态分布) 若Z<-Zα(单侧)或Z<-Zα/2(双侧),则拒绝H0。 【实验环境】 Windows XP;R软件 【实验方案设计】 为研究我国上市公司公报对股价是否有显著影响。现从上 海证券交易所的上市公司随机抽取10家,观察其20XX 年年终财务报告公布前后三日的平均股价 结果如下表: 20XX
第二讲非参数检验 1.实验目的 1.了解非参数假设检验基本思想; 2.会用SAS软件中的proc npar1way过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS软件建立数据集,并进行统计分析; 2.掌握proc npar1way过程进行非参数假设检验的基本步骤; 3.掌握proc freq过程进行列联表的独立性检验的基本步骤。 3.实验基本原理 3.1 符号检验 两种方法的处理效果无显著性差异 令 统计量 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对照方法,则的值应明显偏大。因此,若对给定的置信水平,有,则拒绝。 为真时,(1)服从二项分布。拒绝域为: (2)由中心极限定理可知,当的零分布趋于标准正态分布。
拒绝域为: 3.2 Wilcoxon秩和检验 (1)单边假设检验 两种方法的处理效果无显著性差异 as :新方法优于对照方法。 用于检验的统计量为: 若对给定的置信水平,有,则拒绝。且的分布列为: 根据观测结果计算的观测值,计算检验的p值: 然后将值与显著水平作比较,若,则拒绝,否则接受。 (2)双边假设检验 给定的显著水平应该满足: 仅由上式还不能唯一确定,当我们对两种方法谁优谁劣不得而知时,通常取 若利用p值进行检验,设,计算概率值 由对称性可知,检验的p值为上述两概率中小于1/2的那一个的2倍。例如