当前位置：文档库 › 第四章非参数检验-上课材料

第四章非参数检验-上课材料

第四章非参数检验

（Nonparametric Tests 菜单）

☞ 本章学习内容

3.1 非参数检验概述

3。2 卡方检验（Chi Square) 3。3 二项分布检验(Binomial)

3.4 单样本K-S 检验（1 Sample K —S Tests

） 3。

5 单样本变量值随机性检验（Runs ）

3.6 两独立样本非参数检验（2 independent Samples ）

3。7 多独立样本非参数检验(K independent Samples ） 3。7 两相关样本非参数检验（2 Related Samples)

3.8 多相关样本非参数检验（K Related Samples)

☞ 具体内容

3。1 非参数检验概述

非参数检验是统计推断的一个重要组成部分，它与参数检验共同构成统计推断的基本内容。

参数检验是在假定知道总体分布形式的情况下，对总体分布的某些参数,如均值、方差等进行推断检验。但是，在现实生活中,由于种种原因，人们往往无法对总体的分布形态作简单的假定，但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下，利用样本数据对总体的分布形态或分布参数进行推断。

3。2 卡方检验(Chi-Square ）

总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H 0：样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。

单样本

医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多，其他日期则基本相当，比例近似为2.8:1：1：1：1：1：1。现收集到样本数据168个，据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav"。

具体操作如下：

Analyze →Nonparametric Tests → Chi-Square ，打开卡方检验对话框，如下图。

心脏病猝死日期

5553.5 1.52319.1 3.91819.1-1.11119.1-8.12619.1 6.92019.1.91519.1-4.1

168

1234567Total

Observ ed N Expected N

R esidual

Test Statistics

7.757

6.256

Chi-Square a df

Asym p. S ig.

心脏病猝死日期

0 cells (.0%) hav e expected frequencies less than 5. The m inim um expected cell frequency is 19.1.

a. 可以看出，由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设，可以认为样本来自的总体分布于指定的理论分布无显著差异，即：心脏病人猝死人数与日期的关系基本是2.8：1:1：

3.3 二项分布检验（Binomial ）

现实生活中有很多数据的取值是两类的，例如人群可以分成男性和女性，产品可以分为合格和不合格,学生可以分为三好学生和非三号学生等等.这时,如果某一类情况出现的概率是P ，则另一类出现的概率就是1-P ，这种分布成为二项分布。若说卡方检验是对单个因素多项分类（多重比例）进行检验，那么二项分布检验就是对单个因素的两项进行检验。

实例分析：

检验一种抗生素对于某种细菌的作用,看有效时间超过12小时的比例是否超过85%，为此进行了试验,结果如文件“抗菌时间.sav ”。

从题中可以知道,等价于有效时间不超过12小时的比例为15％，因此，设分布比例为0。15：0.85，H 0：P=0.15。

具体操作如下:Analyze →Nonparametric Tests → Binomial ，打开二项分布检验对话框。

Binomial Test

<= 124.20.15

.352

> 12

16.8020

1.00

Group 1Group 2Total

小时

Category N

Observed Prop.

Test Prop.

Exact Sig.(1-tailed)

可以看出，由于检验结果中的P 值为0。352，大于显著性水平0。05,因此不能拒绝“抗菌有效时间不高于12小时的比例为15％”的零假设。

习题1：

2分割点值

3检验比例

Dichotomy n.两分, 二分法, 分裂

Define dichotomy ，定义二分。其中：

get from data 适用于变量数据都是二值数据的情况；

cut point ：如不是二值数据，则可输入一个具体值，即将数据分为两类：≤该值的为一类；该值的为另一类。 Test proportion ：检验比例，默认为0.5

见文件“抛掷硬币结果binomial.sav"。检验抛掷硬币结果(1为正面，0为反面）的比例大体相等。 3.4 单样本K-S 检验(1 Sample K-S Tests ）

若说前两种主要是对单样本的分布比例(多项或两项）的检验，那么单样本K(柯尔莫哥,Kolmogorov)—S （斯米诺夫，Smirnov ）检验是利用样本数据推断总体是否服从某一理论分布，包括正态分布、均匀分布、指数分布、泊松分布。其零假设是H 0：样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。其中应用最多的是正态分布检验。

实例分析：

某条大街在一年内的交通事故按周次分为七类进行统计，见文件“交通事故周次分布。sav ”。试问事故的发生是否与星期几有关？（a=0.05）

我们作的零假设为H 0：每天发生交通事故次数为均匀分布。

步骤:Analyze →Nonparametric Tests → 1 Sample K-S Tests ，打开单样本K —S 检验对话框。

One-Sample Kolm ogorov-Smirnov Test

7712.229.171-.229.605.858

Minimum Maxim um Uniform Parameters a,b

Absolute Positiv e Negative

Most E xtreme Differences

Kolmogorov -Sm irnov Z Asym p. S ig. (2-tailed)

事故数

Test distribution is Uniform .a. Calculated from data.

单样本k —:渐进的显著性概率为0.858,远远大于0。05这一给定的显著性水平值，因此没有理由拒绝原假设，即认为每天发生交通事故次数为均匀分布,也就是说事故的发生与星期几无关.

习题2:

见word 文档：练习2。

3。5 单样本变量值随机性检验（游程检验，Runs ）

单样本变量值随机性检验是对某一变量的变量值是否为随机性出现进行检验。

例如：某厂质检员需要设计一个抽样方法，已保证质量检查的可靠。生产线上抽取的产品检查结果可简单地分为两类：有毛病、无毛病.一般来说,如果有毛病的产品是成群出现，则每天应频繁抽取小样本，以保证估计可靠；如果有毛病的产品随机出现,则每天以间隔较长地抽取大样本，就可以得到一个比较好的估计。现随机抽取了30个产品,毛病编码为0，好的编码为1，按抽取顺序，结果为：

0000111111001111110001111111

问：该生产线上的产品检验，应采取何种方式？

设H 0：有毛病的产品随机产生。打开文件“有毛病产品出现的随机性。sav ”.

步骤：Analyze →Nonparametric Tests → runs Test ，打开单样本变量值随机性检验对话框。

Runs Test

1.00304-3.811.000

Test Value a Total Cases Num ber of Runs Z

Asym p. Sig. (2-tailed)x

User-specified.

结果显示：渐进观察显著性水平为0。000，这相对于a=0.05来说，是一个极小的值，因而数据不支持原假设,而是成群产生，因此，应该每天频繁抽取小样本检验,以保证质量检查的可靠性.

习题3：

在投掷硬币后，出现了由1和0（1代表正面,0代表反面）组成的数据序列为：1011011010011000101010000111，试判断，硬币的正反面出现是否是随机的? 3.6 两独立样本非参数检验(2 independent Samples)

两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异。

SPSS提供了四种用于两独立样本的非参数检验方法。在此只以曼—惠特尼-U检验为例讲述。

实例分析:

美国某汽车协会每月编制一个顾客满意度指数，旨在测量顾客对新型汽车满意程度，此指

我们建立的H0：美国产汽车与进口汽车的顾客满意指数相同.另外，我们还需对国产或进口资料进行重新编码(recode)以分出组别。

打开文件“汽车满意度评比。sav”.

步骤1：transform recode into different variables，会弹出如下对话框。

之后会看到文件中生成新的变量“国产”，如下图。

步骤2:Analyze→Nonparametric Tests→ 2 independent Samples，打开两独立样本检验对话框.

Ranks

7 6.2143.503 3.83

11.50

国产01Total

顾客满意度指数

Mean Rank

Sum of Ranks

Test Statistics b

5.50011.500-1.143.253

.267

Mann-Whitney U Wilcoxon W Z

Asym p. Sig. (2-tailed)Ex act Sig. [2*(1-tailed Sig.)]

顾客满意度指数

Not corrected for ties.

a. Grouping V ariable : 国产

可以看出，相应的渐进显著性检验值为0.253，大于给定的a 值，因此,没有理由拒绝原假

设，即认为顾客对美国产的新型汽车和进口汽车的满意指数没有显著性差异.

习题4：

某工厂用两种不同的工艺生产用一种产品，现在需要检验它们的使用寿命是否存在显著差异。具体数据如下:（单位：百小时)

甲种工艺：675,682，692，679,669，661,693

乙种工艺：662，649，672，663,650，651，646，652 用1表示甲，用2表示乙. 3。7 两相关样本非参数检验（2 Related Samples ）

两相关样本的非参数检验是在对总体分布不甚了解的情况下，通过分析样本数据，推断样本来自的两个相关总体的分布是否存在显著差异.

SPSS 提供了三种用于两相关样本的非参数检验方法。在此只以普通符号法（sign ）为例讲述.

实例分析：

考察广告对某商品的每日销量是否起作用。广告前后每日销售量见文件“广告对某商品的每日销量是否起作用.sav"。我们设H 0:广告前与广告后每日销量相同.

步骤:Analyze →Nonparametric Tests → 2 Related Samples ，打开两相关样本检验对话框.

Frequencies

210315

Negativ e Differences a

Positiv e Differences b Ties c Total

广告后 - 广告前

广告后 < 广告前a. 广告后 > 广告前b. 广告后 = 广告前

Test Statistics b

.039a

Exact Sig. (2-tailed)广告后 - 广告前

Binomial distribution used.

a. Sign Test

Sig 值为0.039，小于a 值0。05，所以调查结果不支持H 0，广告前后每日销量有显著的差异。我们认定广告对该种商品的促销还是起作用的.

习题5：

见word文档“习题5”。

3.8 多独立样本非参数检验(K independent Samples)

在参数检验中,检验多个样本是否来自均值相同的总体，采用的是方差分析法。运用方差分析的F检验的假定前提条件是:样本是从正态分布的总体中抽选的，且总体具有相同的方差。当这些条件不能满足时，就需要采用非参数检验方法了。

针对多个独立样本的非参数检验，SPSS通过K independent Samples的子过程来完成，且提供了三种具体方法，在此以K-W—H方法（克鲁斯卡尔—瓦里斯）为例。

实例分析：

假设某公司有三种方法供员工执行某生产任务使用。为检验这三种方法之间有无差异，设计了两个方案.

方案1：先随机抽取6名员工，其中的每一名员工都使用方法1，然后再随机抽取6名员工，这6名都使用方法2。最后在抽取6名，他们都使用方法3。具体完成任务时间（分钟）见下表。

方案2：随机抽取6名员工,每一名员工都使用这三种方法执行该任务。6名员工完成任务时间（分钟)见下表。

可以看出，方案1 是3个独立样本,我们使用K-W-H方法来对其进行检验。

首先建立零假设H0：三种方法之间没有差异。

打开文件“例7—9（Kruskal—Wallis)。sav”

步骤:Analyze→Nonparametric Tests→ K independent Samples，打开多独立样本检验对话框.

Ranks

610.506 5.17612.83

方法类型方法一方法二方法三Total

所用时间

Mean Rank

Test Statistics a,b

6.503

2.039

Chi-Square df

Asy m p. Sig.

所用时间

Krusk al Wallis Test

a. Grou ping V ariab le: 方法类型

P 值为0.039，小于a 值0。05，所以有理由拒绝H 0,即认为三种方法之间完成该生产任务所

用时间存在着显著性差异.

习题6：

假设要比较北京、上海、天津、广州四城市周岁儿童的身高，试分析各总体的分布是否存在显著性差异。于是在四个城市随机抽取样本，得到以下20个数据.

北京:79，75,78，76，72 上海：72，71，74，74，73 天津：76,78,78，77,75 广州：70，72，71，71,69 3。9 多相关样本非参数检验（K Related Samples ）

另外，还可以看出，方案2 是3个相关样本，我们使用Friedman 方法来对其进行检验. 首先建立零假设H 0：三种方法之间没有差异。

打开文件“例 7-9（Friedman ）。sav"

注意：可以看出此文件中的变量和刚才不同：独立样本中不同样本可以在一个变量中体现,而在相关样本文件中，不同样本各自建立不同的变量。

步骤:Analyze →Nonparametric Tests → K Related Samples ，打开多相关样本检验对话框。

Ranks

2.001.172.83

v ar001v ar002v ar003

Mean Rank

Test Statistics

68.333

2.016

C hi-Square df

Asy mp. Sig.Friedman Test

P 值为0.016，小于a 值0。05，所以有理由拒绝H 0，即认为三种方法之间完成该生产任务所用时间存在着显著性差异。

假设检验——非参数检验

假设检验（二）——非参数检验假设检验的统计方法，从其统计假设的角度可分为两类：参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验，都是参数检验。它们的共同特点是总体分布正态，并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而，在实践中我们常常会遇到一些问题的总体分布并不明确，或者总体参数的假设条件不成立，不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法，即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。非参数检验法与参数检验法相比，特点可以归纳如下：（1）非参数检验一般不需要严格的前提假设；（2）非参数检验特别适用于顺序资料；（3）非参数检验很适用于小样本，并且计算简单；（4）非参数检验法最大的不足是没能充分利用数据资料的全部信息；（5）非参数检验法目前还不能用于处理因素间的交互作用。非参数检验的方法很多，分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。一．2 χ检验 2χ检验主要用于对按属性分类的计数资料的分析，对于数据资料本身的分布形态不作任何假设，所以从一定的意义上来讲，它是一种检验计数数据分布状态的最常用的非参数检验方法。 2χ检验的方法主要包括适合性检验和独立性检验。（一）2 χ检验概述 2χ是实得数据与理论数据偏离程度的指标。其基本公式为： ∑-=e e f f f 2 02 )(χ (公式11—9) 式中，0f 为实际观察次数，e f 为理论次数。分析公式可知，把实际观测次数和依据某种假设所期望的次数（或理论次数）的差数平方，除以理论次数，求出比值，再将n 个比值相加，其和就是2 χ。观察公式可发现，如果实际观察

第四章非参数检验-上课材料

第四章非参数检验（Nonparametric Tests 菜单） ☞ 本章学习内容 3.1 非参数检验概述 3。2 卡方检验（Chi Square) 3。3 二项分布检验(Binomial) 3.4 单样本K-S 检验（1 Sample K —S Tests ） 3。 5 单样本变量值随机性检验（Runs ） 3.6 两独立样本非参数检验（2 independent Samples ） 3。7 多独立样本非参数检验(K independent Samples ） 3。7 两相关样本非参数检验（2 Related Samples) 3.8 多相关样本非参数检验（K Related Samples) ☞ 具体内容 3。1 非参数检验概述非参数检验是统计推断的一个重要组成部分，它与参数检验共同构成统计推断的基本内容。参数检验是在假定知道总体分布形式的情况下，对总体分布的某些参数,如均值、方差等进行推断检验。但是，在现实生活中,由于种种原因，人们往往无法对总体的分布形态作简单的假定，但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下，利用样本数据对总体的分布形态或分布参数进行推断。 3。2 卡方检验(Chi-Square ）总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H 0：样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。单样本

医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多，其他日期则基本相当，比例近似为2.8:1：1：1：1：1：1。现收集到样本数据168个，据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav"。具体操作如下： Analyze →Nonparametric Tests → Chi-Square ，打开卡方检验对话框，如下图。心脏病猝死日期 5553.5 1.52319.1 3.91819.1-1.11119.1-8.12619.1 6.92019.1.91519.1-4.1 168 1234567Total Observ ed N Expected N R esidual Test Statistics 7.757 6.256 Chi-Square a df Asym p. S ig. 心脏病猝死日期 0 cells (.0%) hav e expected frequencies less than 5. The m inim um expected cell frequency is 19.1. a. 可以看出，由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设，可以认为样本来自的总体分布于指定的理论分布无显著差异，即：心脏病人猝死人数与日期的关系基本是2.8：1:1： 2 1 3

非参数检验

非参数检验非参数检验是一种利用数据的分布情况，来判断总体参数是否存在差异的统计学方法。它通过对样本数据进行排序、秩次差分等计算，不依赖于总体的任何分布假设，从而有效地避免了假设检验的潜在问题。非参数检验是一种不依赖于正态分布等总体分布假设的统计方法。它常用于处理那些无法明确表达总体分布的数据，例如顺序等级或名目类别等数据。非参数检验能够帮助研究者在不了解总体分布情况的情况下，对样本数据所代表的总体参数进行有效估计和推断。为什么要使用非参数检验？通常情况下，研究者在进行实验或调查时，只能获得小规模样本数据，无法获得完整的总体数据。而传统的参数检验方法可能会假设总体分布具有特定形态的分布假设，这在某些情况下可能会导致假设检验的错误推断。因此，非参数检验成为了一个更为可靠的方法，它不需要任何对总体分布的预设，可以适用于各种数据类型的场景。在以下情况下，非参数检验的使用是非常适合的： 1. 样本数据不属于正态分布。 2. 样本数据中包含异常值。 3. 样本数据中存在较大的离散差异。 4. 样本规模较小，总体参数无法得到明确描述。在非参数检验的应用中，根据所比较的数据类型和检验目的的不同，可以经常使用以下几种检验方法： 1. Wilcoxon符号秩检验：用于检验有序对数据是否存在显著性差异。 2. Mann-Whitney U检验（也称为Wilcoxon秩和检验）：用于比较两个独立样本之间的差异。 3. Kruskal-Wallis H检验：用于比较多个独立样本之间的差异。 5. McNemar检验：用于比较配对样本之间的差异。以上非参数检验方法的应用范围非常广泛，不同场景中的应用也有所不同。结论

非参数检验

第十一章非参数检验在社会研究中我们经常要采用定序尺度，但直到现在，我们都还没有机会讨论涉及到定序尺度的显著性检验。本章要讲述某些用于定序尺度的双样本检验。与以前所讲的检验不同，使用这类方法不需要对总体分布作任何事先的假定(例如正态总体)。同时从检验的内容来说，也不是检验总体分布的某些参数(例如均值、成数、方差等)，而是检验总体某些有关的性质，所以称为非参数检验。非参数检验，泛指“对分布类型已知的总体进行参数检验”之外的所有检验方法。与均值差等检验比较，非参数检验有什么优点呢？在对均值差进行t 检验时，不仅要有定距尺度的假定，还要有正态总体的假定。当然，对于大样本，正态总体的假定可以放松。但正是对于小样本，这种假定最容易出问题。因此，在满足下面两条件之一时，我们期望用非参数检验代替均值差检验：①没有根据采用定距尺度，但可以安排数据的顺序（即秩）；②样本小且不能假定具有正态分布。由于非参数检验不能充分利用全部现有的资料信息。因此，如果有根据采用定距尺度，并且如果对于小样本能够假定其具有正态性，或对大样本能够放松对正态性假定的要求，一般宁愿使用均值差检验，而不用非参数检验。非参数检验，无需做出经典统计所必要的关于分布的任何假设。唯一需要的假设是：全部数据或数据对都出自相同的基本总体，且取样是随机的、相互独立的。基于这种原因，非参数检验又称为分布自由(或无分布)检验。“无分布” 不是指总体真的无分布，而是指虽有时对总体分布一无所知，但仍可以进行分析。不仅如此，这些很容易理解的方法还可以用于处理等级的资料和定性的信息。很显然，如果把从一个正态总体中抽取的数据用分布自由来处理，其效果肯定不如相应的参数检验有力。我们一般用下述指标来确定非参数检验的“效率” 。式中的n 0和n 分别是两种检验保证实现给定的检验力所需的样本容量。如果说某种非参数检验的检验效率为95％，就意味着这种非参数检验在使用100 个数据时的效力等于t 检验(在正确模型条件下)使用95个数据的效力。检验力又称检验势，它是用1―β或[1―（犯第二类错误的概率）] 来定义的。

非参数检验(卡方检验),实验报告

非参数检验(卡方检验),实验报告评分大理大学实验报告课程名称生物医学统计分析实验名称非参数检验( 卡方检验) 专业班级姓名学号实验日期实验地点 20xx—20xx 学年度第 2 学期一、实验目得对分类资料进行卡方检验。二、实验环境 1 、硬件配置:处理器:Intel(R) Core(TM) i5-4210U CPU 1、7GHz 1、7GHz 安装内存(RAM):4、00GB 系统类型:64 位操作系统 2 、软件环境:IBM SPSS

Statistics 19、0 软件三、实验内容(包括本实验要完成得实验问题及需要得相关知识简单概述) （1）课本第六章得例6、1-6、5 运行一遍,注意理解结果; （2）然后将实验指导书得例1-4 运行一遍,注意理解结果。四、实验结果与分析 (包括实验原理、数据得准备、运行过程分析、源程序(代码)、图形图象界面等) 例例6 、1 表1 灭螨A A 与灭螨B B 杀灭大蜂螨效果得交叉制表效果合计杀灭未杀灭组别灭螨A 32 12 44 灭螨B 14 22 36 合计46 34 80 分析: 表1就是灭螨A与灭螨B杀灭大蜂螨效果得样本分类得频数分析表,即交叉列联表。表2 卡方检验 X2 值df 渐进Sig、(双侧) 精确Sig、(双侧) 精确Sig、(单侧) Pearson 卡方9、277a 1 、002 连续校正b 7、944 1 、005 似然比9、419 1 、002 Fisher 得精确检验、003 、002 有效案例中得N 80 a、0 单元格(、0%) 得期望计数少于5。最小期望计数为

非参数检验的SPSS操作

第八节非参数检验的SPSS操作前面一章介绍的二项分布的比率检验、配合度检验——卡方检验和1-Sample K-S检验等都属于非参数检验。这一节我们主要结合前面参数假设检验一章讲过的t检验以及方差分析一章讲过的方差分析，来进一步分析，当参数检验的前提条件不满足时，两个样本和多个样本平均数差异的SPSS 操作方法。一、两个独立样本的差异显著性检验两独立样本的的差异显著性检验只有在满足如下条件时才能进行T检验：变量为正态分布的连续测量数据。若数据不满足这样的条件，强行进行T检验容易造成错误的结论。在数据不能满足这种参数检验的条件下，我们可以选择非参数检验方法进行。与两独立样本差异显著性检验相对应的方法可以在SPSS主菜单Analyze / Nonparametric Tests / 2 Independent Samples…中得到。 1．数据采用本章第一节中例2的数据（数据文件“9-4-1.sav”），具体介绍操作过程。 2．理论分析对于数据文件9-4-1.sav中的数据，目的是检验男女生之间注意稳定性是否存在显著差异，注意稳定性测量的结果虽然是测量数据但是从总体上来看不满足正态分布的前提假设，另外不同性别的学生可以看成是两组独立的样本，因此对上述资料的检验可以用非参数的独立样本的检验方法。 2．操作过程（1）在SPSS主菜单中选择Analyze / Nonparametric Tests / 2 Independent Samples…得到两个独立样本非参数检验的主对话框（图9-1），把因变量atten选入到检验变量表列（Test Independent-Sample Tests）中去，把gender选到分组变量（Grouping Variable）中，并单击Define Groups…,在随后打开的对话框中分别键入1与2，单击Continue回到主对话框如图9-1所示。在Test Type中有四个可选项，其中最常用的是第一种方法Mann-Whitney U（又称秩和检验法）。

非参数统计课程实验报告

非参数统计课程实验报告姓名：樊凡学号：20XX2461 成绩：指导老师：徐建文 Wilcoxon 秩检验方法及其应用【内容提要】本实验要求掌握Wilcoxon 秩检验方法和步骤：掌握对两独立样本数据的秩和检验方法；理解Wilcoxon 秩检验方法的基本原理；在R软件环境下编写相关程序；用实际例子说明Wilcoxon方法的具体步骤。【Wilcoxon 秩检验方法定义】威尔科克森符号秩检验是威尔科克森于1945年提出的。该方法是在成对观测数据的符号检验基础上发展起来的，比传统的单独用正负号的检验更加有效。它适用于T检验中的成对比较，但并不要求成对数据之差di服从正态分布，只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体。【Wilcoxon 秩检验方法步骤】正负符号检验和威尔科克森符号秩检验，都可看作是就成对观察值而进行的参数方式的T检验的代用品，非参数检

验具有无需对总体分布作假定的优点，而就成对观察值作的参数方式的T检验，必须假定有关的差别总体服从正态分布。该方法具体步骤如下：第一步：求出成对观测数据的差di，并将di的绝对值按大小顺序编上等级。第二步：等级编号完成以后恢复正负号，分别求出正等级之和T+和负等级之和T-，选择T+和T-中较小的一个作为威尔科克森检验统计量T。第三步；作出判断。根据显著性水平α查附表，得到临界值Tα，若T＜Tα，则拒绝原假设H0。当观测值不少于20对时，统计量T的均值和方差分别为： (n为成对观测的个数) (近似服从标准正态分布) 若Z＜-Zα(单侧)或Z＜-Zα/2(双侧)，则拒绝H0。【实验环境】 Windows XP；R软件【实验方案设计】为研究我国上市公司公报对股价是否有显著影响。现从上海证券交易所的上市公司随机抽取10家，观察其20XX 年年终财务报告公布前后三日的平均股价结果如下表： 20XX

第二讲-非参数统计检验

第二讲非参数检验 1.实验目的 1.了解非参数假设检验基本思想； 2.会用SAS软件中的proc npar1way过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS软件建立数据集，并进行统计分析； 2.掌握proc npar1way过程进行非参数假设检验的基本步骤； 3.掌握proc freq过程进行列联表的独立性检验的基本步骤。 3.实验基本原理 3.1 符号检验两种方法的处理效果无显著性差异令统计量表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对照方法，则的值应明显偏大。因此，若对给定的置信水平，有，则拒绝。为真时，（1）服从二项分布。拒绝域为：（2）由中心极限定理可知，当的零分布趋于标准正态分布。

拒绝域为： 3.2 Wilcoxon秩和检验（1）单边假设检验两种方法的处理效果无显著性差异 as ：新方法优于对照方法。用于检验的统计量为：若对给定的置信水平，有，则拒绝。且的分布列为：根据观测结果计算的观测值，计算检验的p值：然后将值与显著水平作比较，若，则拒绝，否则接受。（2）双边假设检验给定的显著水平应该满足：仅由上式还不能唯一确定，当我们对两种方法谁优谁劣不得而知时，通常取若利用p值进行检验，设,计算概率值由对称性可知，检验的p值为上述两概率中小于1/2的那一个的2倍。例如

则。求出p值后，若p

单样本的非参数检验

单样本的非参数检验非参数检验是在总体分布未知或知道甚少的情况下，利用样本数据对总体分布进行推断的方法。总体分布的卡方检验是一种对总体分布进行检验的极为典型的非参数检验方法。如医学家研究心脏病人猝死人数与日期的关系时发现，一周之中，星期一心脏病人猝死较多，其他日子则基本相当，各天的近似比例为 2.8:1:1:1:1:1:1。现在收集到的心脏病人死亡日期的样本数据，需要推断总体分布是否与上述理论分布吻合。在这类问题中变量是离散型数据，对该类型变量的总体分布检验往往采用卡方检验方法。二项分布检验 SPSS的二项分布检验是要通过样本数据检验样本来自的总体是否服从指定概率值为p 的二项分布。其零假设是样本来自的总体与指定的二项分布无显著性差异。在现实生活中有很多数据的取值是二值得，例如，人群可以分为男女；产品可分为合格与不合格等等。通常将这样的二值分为1和0表示。如果进行若干次相同的实验，则两类（1或0）出现的次数通常用离散型随机变量X来描述，其所服从的分布即为所谓的0—1分布。如果随机变量X取1的概率设为p，则随机变量X为0的概率为1-p。进一步，如果将上述实验重复n次并将1成功的次数看坐一个随机变量，则改随机变量所服从的概率分布称为二项分布。单样本K----S检验该方法能够利用样本数据推断样本来自的总体是否与某一理论分布有显著差异，是一种拟合优度的检验方法，适合于探索连续型随机变量的分布。例如：收集了一批周岁儿童身高的样本数据，需要利用样本数据推断周岁儿童总体的身高是否与正态分布有显著性差异。单样本K----S检验的零假设是，样本来自的总体与指定的理论分布无显著性差异。在SPSS的理论分布主要包括正态分布，均匀分布指数分布和泊松分布等。变量值随机性检验变量值随机性检验通过对样本变量值的分析，实现对总体变量值出现是否随机进行检验。如在投硬币时，如果以1表示正面，0表示反面。在进行了若干次投币后，将会得到一个以1,0组成的变量值序列，这时可能会分析“硬币出现正反面是否是随机的”这样问题。随机值随机性检验的零假设是总体中的变量值出现时随机的。变量值随机性检验的重要依据是游程（r）。所谓游程是变量值序列中连续出现相同值得次数。（游程太大或太小都将表明变量取值存在不随机的现象）。 SPSS单样本变量值随机性检验中，利用游程数构造检验统计量。游程是一个具有独特抽样分布的统计量。如果设n1为出现1 的个数，n2为出现0的个数，当n1和n2较大时，游程的抽样分布的均值u=（2*n1*n2）/(n1+n2)，方差为ϭ={2*n1*n2*（2*n1*n2*-n1-n2）}/{(n 1+n2)*(n1+n2)*(n1+n2—1)}，在大样本中，游程近似服从正态分布，即Z统计量=（r—u）/ϭ。

非参数检验

非参数检验表10-4两组患者生存时间（月）无淋巴细胞转移秩次有淋巴细胞转移秩次125258271229123812 4217462146245629603034364048n1=10n2=14124.54. 54.54.5789101112.512.51415161718192021222324 T1=162T2=1383.确定P值，作出推断条件：n1≤10，n2-n1≤10时，查表法（附表9）本例，n1= 10，n2-n1=4，双侧检验，?=0.05，查表得T0.05,4=91～159T ＝T1＝162在界值范围之外，P<0 .05，按α=0.05水准，拒绝H0，差异有统计学意义，即可以认为两组患者的平均生存时间不同。例10-4：44例健康人与24例慢性气管炎病人痰液嗜酸性粒细胞数的测量值（×106/L），问健康人与慢性气管炎病人痰液嗜酸性粒细胞数有无差别？当n1，n2-n 1超出了T界值表范围时，使用正态近似检验。嗜酸性粒细胞（1）例数统一编秩例数较小组秩和（6）=35健康人（2）病人（3）秩次范围（4）平均秩次（5）-5111-168.593.5+181017-4430.5 305.0++16345-6354162.0+++5064-68660.0合计4424———— T1=560.5表10-5两组人痰嗜酸性粒细胞的秩和计算第十章非参数检验预防医学教研室程宁宁引言【例】为观察血浆置换法治疗出凝血功能异常的临床疗效,某医师治疗了11例出凝血功能异常患者，置换前后各患者的凝血酶原时间见表11-1。该医师采用两样本均数比较的t检验，结果t=2.40，P<0.05，差异有统计学意义，由此认为血浆置换治疗前后凝血酶原时间有差别。患者编号血浆置换前血浆置换后125.3314.69210.4513.13330.87 12.68424.3113.45515.5015.50658.2514.20779.2713.3981 4.3812.0597 5.2915.171015.0812.951111.8512.48表出凝血功

方差分析与非参数检验

北京建筑大学理学院信息与计算科学专业实验报告课程名称《数据分析》实验名称方差分析与非参数检验实验地点基C-423 日期2017.3.30 （1）熟悉数据的基本统计与非参数检验分析方法；（2）熟悉撰写数据分析报告的方法；（3）熟悉常用的数据分析软件SPSS。【实验要求】根据各个题目的具体要求，完成实验报告。【实验内容】 1、附件给出某年房屋价格的相关数据，请选用恰当的分析方法，对影响房屋价格的因素进行分析。(注意数据要调整成标准的格式，变量值、组别（字符变量转换成数值变量）)(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可) 2、附件给出管理才能评分的相关数据，请选用恰当的分析方法，分析该评分数据是否服从正态分布。 3、附件给出了某体育比赛的两位裁判打分数据，请选用恰当的分析方法，检验该两组评分分布是否有显著差异。(注意数据要调整成标准的格式，变量值、组别) 4、附件给出了减肥茶数据，请选用恰当方法分析，检验该减肥茶是否对减肥有显著效果。(注意数据要调整成标准的格式，变量值、组别) 【分析报告】 1、对影响房屋价格的因素进行分析。(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)。表1-1（a）装修状况对均价影响的单因素方差分析结果均价平方和df 均方 F 显著性组间79.180 1 79.180 62.408 .000 组内230.914 182 1.269 总数310.094 183 表1-1（b）所在区县对均价影响单因素方差分析结果均价平方和df 均方 F 显著性组间91.919 3 30.640 25.279 .000 组内218.174 180 1.212 总数310.094 183 表1-1（a）是装修状况对均价影响的单因素方差分析结果。可以看到：观测变量均价的离差平方总和为310.094；如果仅考虑装修状况单个因素的影响，则均价总变差中，不同装修状况可解释的变差为79.180，抽样误差引起的变差为230.914，它们的方差分别为79.180和1.269，相除所得的F统计量的观测值为62.408，对应的概率P-值近似为0.如果显著性水平α为0.05，由于概率P-值小于显著性水平α，应拒绝原假设，认为不同装修状况对均价的平均值产生了显著影响，不同装修状况对均价的影响效应不全为0。

《非参数统计学》课程教学大纲

非参数统计学 (Nonparamatric Statistics) 一、课程说明课程编号：()46301 课程性质：专业必修课适用专业：财经类统计学专业开设。开课学期：一般可在第四学期开设学时与学分：总课时：40学时。其中讲授32学时，实验8学时。学分：2.5学分。先修课程：概率论与数理统计学、描述统计学。二、开课目的非参数统计是与参数统计相比较而存在的统计学一个年轻、活跃而前沿的分支，含有丰富的统计思想并在实践中有着广泛的应用。非参数统计方法不依赖于总体分布及其参数，适用于多种类型的数据，进行统计推断时仅需要一些非常一般性的假设，因而具有良好的稳健性，在总体分布未知的情况下往往比参数统计方法有效。对统计学专业来说，非参数统计学课程直接构成了其学科体系的一个不可或缺的部分。通过本课程的学习，要求学生掌握本学科的基本知识、基本概念、基本原理和基本方法；培养统计思维能力和工作能力，培养重视原始资料的完整、准确，对数据处理持严肃认真的科学态度。设置本课程的总体目标是： 1.使学生了解非参数统计在推断统计体系中日益重要的作用，理解非参数统计方法和参数统计方法的区别。 2.使学生系统地掌握各种非参数统计方法及其基本思想。 3.掌握各种方法的应用条件和适用场合，以便根据具体情况正确选用非参数统计方法，正确运用非参数统计方法处理实际数据资料。 4.把所学的统计专业知识与所处理的实际问题紧密结合起来，对计算结果给出合理的解释，从而作出科学的定论。一、单样本/拟合优度检验

基本思想：一个变量，不论是哪种测度尺度，都可将其样本空间划分为互不相交的k个部分。如果变量服从假设的分布，则变量在k个部分的观测频数和期望频数应该差异不大。二、双样木/拟合优度检验基本思想：两个样本如果来自同一分布，二者的经验分布应该差异不大。三、多样本/拟合优度检验基本思想：多个样本如果来自同一分布，其经验分布应该差异不大。六、教学学时分配非参数统计学教学课时分配表

非参数统计分析

非参数统计分析是指不需要任何假设的情况下，对数据进行分析和处理的方法。相对于参数统计分析，更加灵活和适用于更广泛的数据集。在中，我们通常使用基于排列和重抽样方法的统计分析，这些方法在处理离散和连续的数据集时都十分有效。如何进行 1. 非参数检验非参数检验方法不要求数据满足特定的分布，通常分为两类： ①秩和检验秩和检验是比较两组数据的中位数是否相等。对于小样本来说，一般采用Wilcoxon签名检验。而对于大样本，通常会使用Mann Whitney U检验。

②秩相关检验秩相关检验是比较两个或多个变量的相关性关系。这种类型的检验最常用的是Spearman秩相关系数和Kendall Tau秩相关测试。 2. 非参数估计器由于非参数统计方法不依赖于任何先验假设，因此非参数估计器在数据少或均值和方差无法准确估计的情况下较为常用。在非参数估计器中，常用的方法有： ①核密度估计核密度估计通常是数据分析和可视化的首选。它能够获得不同分布的概率密度函数的非参数估计器。 ②基于距离的方法

基于距离的方法通常使用K近邻算法或半径最邻近算法来估计密度。这种方法特别适合于计算高维数据的密度估计。 3. 非参数回归非参数回归是一种灵活的模型，他用于数据挖掘过程中的最复杂部分。与标准回归技术不同，非参数回归方法不需要数据满足任何特定分布。在非参数回归中，主要的方法有： ①核回归在核密度估计和非参数回归中使用的是相同的核函数。相对于线性回归方法，核回归更加灵活，适用于非线性分布的数据。 ②局部回归

局部回归的本质是计算小范围或子集内的平均值，并在这些平均值上拟合局部模型。这种方法特别适用于非线性回归和数据样本集的大小不规则的情况。非参数统计优势非参数统计方法的最大优势在于能够在没有特定假设下应用于任何样本集，这使得无需预先了解数据的分布和性质。此外，非参数统计方法还有其他的优势，如： 1. 不受异常数据的影响：统计方法通常受异常数据的影响较大，但非参数统计方法不会使结果发生显著的变化。 2. 对于小样本具有高度可靠性：非参数统计方法可以有效的推论小样本数据，而这是传统统计方法无法做到的。 3. 适用范围广泛：相比于传统的参数统计方法，非参数统计方法的适用范围更广。它可以处理从均匀分布到多峰分布等多种类型数据集。

非参数检验

非参数检验符号检验法符号检验法是通过对两个相关样本的每对数据之差的符号（正号或负号）进行检验，以比较这两个样本所代表的总体的差异显著性，对应于参数检验中两相关样本差异显著性的Ｔ检验。其基本思想是：若两总体差异不显著，则两样本差值的正号与负号应大致各占一半，即中位数为0，可见符号检验是以中数作为统计量进行假设检验的。 1、符号检验法的假设是： H0：差值的总体中位数为0； H1：差值的总体中位数不为0。 2、符号检验法的步骤为： ①标记出每对数据之差的符号，正号个数记为n+，负号的个数记n-，（显然差值为0的不计算在任何一个中），这两数中最小者记为r，两数之和记为N，即： N = n+ + n-；r = min(n+,n-) ②分两种情况进行检验：在双侧检验，.05水平下，若Z值落在-1.96～1.96之间，则表明两总体差异不显著；在此之外则表明差异显著。在单侧检验，.05水平下，若Z值落在-1.645～1.645之间，则表明两总体差异不显著；在此之外则表明差异显著。上面第二种情况采用正态分布，是因为将N分成n+和n-两部分，服从二项分布，而当N很大时，二项分布近似于正态分布。八、多个相关样本检验 K related Samples Test •（一）检验方法 •三种 • 1. Friedman检验：利用秩实现多个配对总体分布的检验，数据要求为等距数据。 • 2.Kendall和谐系数检验:主要评价者的评判标准是否一致或是否公平。 •3Cochran Q检验：它所处理的变量为二分变量。 •（二）分析路径 • 1. Analyze－> Nonparametric Tests－> k related Samples。 • 2.在弹出的对话框中，将要比较的变量添加到test variable中，根据不同的数据选择

SAS备课笔记_非参数检验

非参数检验非参数统计分析方法（Non-parametric statistics）是相对参数统计分析方法而言的，又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定（assumption free statistics）的统计分析方法。其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等，它们分别对应不同设计类型的资料。SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成，从过程名字就可以看出，在此过程的处理进程中，只能一次指定一个因素进行分析。下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。一、npar1way过程语句格式简介 npar1way过程属于SAS的STAT模块，对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。Npar1way过程的基本语句格式如下。 PROC NPAR1WAY <选项> ; BY 变量名; CLASS变量名; EXACT 统计量选项 ; FREQ变量名; OUTPUT < OUT=数据集名 > < 选项 > ; VAR 变量名; RUN; QUIT; Proc npar1way语句标志npar1way过程的开始，默认情况下（不列举任何选项）：npar1way过程对最新创建的数据集进行分析，将缺失数据排除在分析过程之外；执行方差分析过程（等同于ANOVA选项），对样本分布位置的差异进行检验（与选项WILCOXON, MEDIAN, SAVAGE以及VW等效），并进行经验分布函数检验（等同于EDF选项）。此语句后可用的选项见下表。 Proc npar1way语句选项及其含义

4. T检验与非参数检验

4. T检验与非参数检验4.1常用统计概念简介 • 4.1.1 常用统计概念 • 4.1.2概率、概率分布

4.1.3 二项分布

4.1.4 泊松分布 4.1.5 正态分布

正态概率分布有以下重要特征：（见图4-2）（1）正态分布是对称分布，对称轴是x=μ。（2）当x=μ时，正态概率密度最大。（3）正态分布的图形由μ和σ决定。（4）当σ为定值时，μ的变化引起正态概率密度曲线在横轴上平行移动。（5）当μ为定值时，σ的变化将引起正态概率密度曲线的形状变得尖峭或偏平。 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0123456

注：正态曲线1的μ=2.4，σ=0.8；正态曲线2的μ=3.4，σ=0.8；正态曲线3的μ=3.4，σ=1.2。正态分布与二项分布的主要区别：正态分布是连续的，而二项分布是离散的。象所有连续随机变量一样，正态随机变量任意一个确定值的概率为0，非0概率只有在确定区间内才能得到。二项分布与正态分布存在渐近关系。二项分布的参数是n和p。则概率P(a

4.1.7 样本平均数的分布

非参数统计学讲义第四章讲稿2

非参数统计学讲义(第四章)讲稿2

非参数统计学讲义第四章多样本模型 §1 k 个相关样本的非参数检验在参数统计中，检验几个样本是否来自完全相同的总体，采用方差分析或F 检验。运用F 检验的假定条件是：样本是从正态分布的总体中独立抽选的；总体具有相同的方差；数据的测量层次至少是定距尺度。当被用来分析的数据不符合这些假定条件，或研究者不希望作这些假设，以便增加结论的普遍性时，不宜采用参数统计的方法，而必须运用非参数方法。如果k （等于或大于3）个样本是按某种或某些条件匹配的，那么k 个样本称为相关的，否则为独立的。k 个相关和独立样本的差别与两个相关和独立样本之间的差别类似。本节介绍k 个相关样本的非参数检验。一、 Cochran Q 检验 1．研究背景 Cochran Q 检验也译为科库兰检验。它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法。这种匹配可以用不同形式获得。例如，检验三种不同类型的采访形式对被采访者的有效回答是否有影响，可以抽选一些人，分成n 组，每组有3个匹配的被采访者，要求他们的有关情况相同。每组的3名成员被随机地置于3种条件之下，即分别接受三种类型的采访，于是，就获得了3个匹配的样本，即k ＝3，每个样本有n 个观测结果。k 个相关样本也可以采用同一组人，对不同的k 个条件的反应匹配成样本，这类似于两个相关样本中以研究对象作为自身的对照者。例如，检验几种教学手段对学生掌握知识是否有显著不同，可以随机抽取n 个学生，让他们先后置于k 种教学手段之下，再作出评价。这样可以获得k 个匹配的样本，每个样本有n 个观测结果。在现实生活中，很多数据是以二元数据的形式出现的，【例4-1】村民对四个候选人的评价得到结果：处理区组：20个村民对A 、B 、C 、D 四个候选人的评价 i N A 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 16 B 1 1 0 0 0 1 1 1 1 1 0 1 1 0 1 1 0 0 0 0 11 C 0 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 1 0 9 D 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 1 0 0 0 6 j L 1 3 2 1 2 3 2 2 3 3 1 2 2 3 3 3 2 1 2 1 42 其中：1表示同意；0表示不同意。关心的问题是候选人在村民眼中有无区别，即检验H 0：12k θ= =是否成立。 2．基本方法若有k 个相关样本，每个样本有n 个观测结果，检验k 个样本间是否有显著差异，可以建立双侧备择，假设组为 k H :0个样本间无显著差异 k H :1个样本间有显著差异由于三个及三个以上样本间差异的方向不便于判定，因而，通常只建立双侧备择进行检验。为对假设作出判定，所分析的数据测量层次为定类尺度即可。获得的数据可排成一个n 行k 列的表。如果H 0为真，那么将测量结果分为“成功”和“失败”的话，“成功”与“失败”应随机地分布在表中的各行各列。Cochran Q 检验的统计量定义为 2 22 1 1 2 21 1 (1)()(1)(1)k k i i i i b b i i j j k k N N k k N k N Q kN L kN L ====-----= = --∑∑∑∑ (4.1) 式中，k 为处理数；b 为区组数；i N 为行总和；j L 为列总和；i j i j N N L = =∑ ∑；1 i i N N k = ∑。由于Q 统计量的抽样分布近似为自由度df ＝k 一1的2 χ分布，所以根据自由度df ＝k 一1，给定的显著性水平α，能够在附表中查找临界值2 αχ，若 2 αχ≥Q