文档库 最新最全的文档下载
当前位置:文档库 › 实验设计与数据统计分析.doc

实验设计与数据统计分析.doc

实验设计与数据统计分析.doc
实验设计与数据统计分析.doc

第二章实验设计与数据统计分析

?实验设计的基本问题

–变量的选择与控制

–实验中的效度

?真实验设计

–完全随机设计

–多因素实验设计

–随机化区组设计

?准实验设计和非实验设计

一、实验设计的基本问题

(一)变量的选择与控制

1、变量的选择

2、实验设计中的控制

–何谓控制?

–控制的应用

对变量的控制:随机化

使用控制组

3、实验误差

–是存在于实验单元内作同样处理所得观测数据间的变差的度量。

–实验误差的来源:内在变差;环境和操作的不一致;重复实验的误差。或S;G;R型误差。

(二)实验中的效度

何谓实验效度?

–一项实验所能揭示的事物本质规律的有效性程度。

自从1966年科贝尔(Campbell)和斯大理(Stanly)提出内在效度(InternaI Validity)和外在效度(ExternalVa1idity)这一概念描述研究效度以来,很多学者对影响效度的因素作过认真的研究,提出很多方面的因素。1979年库克(Cook)和科柏尔(Campbell)认为这一划分方法不够完整,后又从内在效度中抽出一部分命名为统计结论效度(Statistical Conc1usion Validity),由外在效度中提出一部分命名为构想效度(Construct Validity)。

1、内部效度及影响因素

含义:实验处理被精确估计的程度。

?影响内部效度的因素

–历史:在实验中,与实验变量同时发生,并对实验结果产生影响的特定事件。

–成熟或自然发展的影响:

–选择:

–测验:

–被试的亡失:

–统计回归:

–仪器的使用:

–选择和成熟的交互作用及其他。

2、外部效度及影响因素

含义:实验结果能被概括到实验情境条件以外的程度。

?影响外部效度的因素:

–测验的反作用效果

–选择偏差和实验变量的交互作用

–实验安排的反作用效果

–重复实验处理的干扰

3、统计结论效度

含义:统计方法的适切性所引起的结论有效性程度,它主要反映统计量与总体参数之间的关系。内在效度是总体参数(真值)与有系统偏差的实验总体参数之间的关系问题,如没有系统误差,两个总体参数之间应该无差异。而统计结论效度所指的统计量,是用不同方法计算的统计量,二者是不同的。例如:一个按几何级数变化的数据,如用几何平均数计算统计量,就可能较好地反映总体参数情况,如用算术平均数作为代表值,就不适切就不能很好的代表总体参数,据此所得的统计结论,其效度当然就存在一定的问题。

统计结论效度是关于研究的数据分析处理程序的效度检验,或者说,它是检验研究结果的数据分析程序与方法的有效性的指标。统计结论效度的基本问题是研究误差、变异来源与如何适当地运用统计显著性检验,它不涉及系统性偏差的来源问题,而是研究误差变异情况和如何适当运用统计显著性检验的问题。例如,采用小样本的研究数据时,由于样本成份与测量数据都波动比较大,稳定性差,如果依赖统计显著性水平做出推论是不可靠的。在这种情况下,应该运用功效分析(power analysis),看看一定的样本范围、变异程度和α水平上能够检验出多大的效应。这就是统计结论效度所考虑的问题。

?影响统计结论效度的因素:

–统计检验力低(power of statistical tests):样本大小——样本小,统计检验力低;显著性水平α的大小,α越小,β错误就越大,统计检验力就降低;因变量的误差变异(标准差)的大小,标准差越大,标准误也越大,达到显著水平时,β错误增加。

–统计方法依据的假设条件的满足程度(是否违反统计方法的使用条件)

–多重比较和误差变异。如果实验误差太大,标准误也增大,实验处理的层次增加,摒弃虚无假设的可能性增加,α错误也增加。

–测量工具的信度

–实验处理执行的信度,即实施实验时遵守设计要求的程度。

–实验环境内,无定性非相关事故的影响。

–被试者的随机变异。

?统计结论效度的条件

–研究的统计结论效度主要取决于两个方面的条件:

一是数据的质量,数据分析程序的效度是以数据的质量作为基础的,数据质量差的研究是谈不上统计结论效度的;

二是统计检验方法,数据分析中所采用的各种统计方法,都有其明确的统计检验条件的要求,一项研究中统计检验条件不明确或者被违反,就会显著降低统计结论效度。

4、构思效度

含义:关于关系变量及变量之间关系构想的准确性,以及实验变量在实验时的操作定义与推论时的定义一致性程度。换句话,所研究的特质在理论上构想的全面性。

–研究的构思效度是指理论构思或假设的合理性、科学性,及其转换为研究目标的恰当程度和可操作性。它涉及建立研究方案和测量指标的理论构思(或观察指标的理论设想)及其操作化等方面的问题,即理论构思及其转换的有效性。为了使研究具有较高的构思效度,研究的理论构思首先要结构严谨、层次分明,形成某种“构思网络”,其次对研究内容做出严格的抽象与操作性定义(如针对研究构思的特点,给予明确的操作定义)。

?影响因素:

–操作化前对概念的分析是否完整

–单一操作的偏差

–单一方法的偏差

–被试在执行实验时对假设的猜测,称作“要求特征”。

–被试对被评价的不安感

–实验者的期望效应

–混淆的构想和构思层次。如:学校可分为:重点和非重点两个间断性层次,而年级是连续变量。如果

只依据一类学校得出年级与教学方法的效果之间存在线性关系,推论可就会出现问题。

–不同处理的交互影响,导致混淆难辨。控制方法,让被试只接收一种实验处理,或将不同实验处理加以控制,以便作个别分析。

?构思效度的条件

(1)理论构思要结构严谨、符合逻辑、层次分明,形成某种“构思网络”。例如,将儿童的自我意识发展分为自我认识、自我体验和自我控制三方面,而自我认识进一步细分为对生理自我的认识、对心理自我的认识和对社会自我的认识。这样的理论构思,就比较严谨、完整,有层次,并且形成一种“网络”,便于理解和研究。

(2)清晰、准确的界定研究的环境条件和变量。例如,“小学五年级学生发散思维问题研究”这样一个课题,对研究被试的年龄段,生理智力发展,学习、生活、社会环境等需要明确界定范围,用文字和语言两种形式完整、准确地表述研究变量。

(3)对研究变量做出准确、严格的操作定义,并选择相应客观的观测指标。

(4)避免采用单一方法或单一指标去代表或分析多维的、多层次的、多侧面的事物和活动,尽可能采用多种方法、多种指标,从不同角度分析研究相同的理论构思。

实验设计

?心理学实验设计的逻辑分析

?数理统计是心理学实验的逻辑基础

研究设计是基于统计的,不会统计就不会设计

统计检验的基本思想

宗旨:确定以事实支持的概率。

研究假说与统计假说相同吗?

研究假说是备择假说

统计假说包括:虚无假说和备择假说,统计检验的是虚无假说

方差分析的基本思想

同时检验两个或多个平均数之间的差异,并且可以解释几个因素之间的交互作用

把平均数之间是否存在差异的检验转化为变异是否存在差异的检验

?控制是心理学实验的基本手段

?实验中各种变异的控制

?实验设计最重要的功能是控制变异

?变异包括:

系统变异(因变量的变异中可以有研究者操作的实验变量解释的那一部分变异,是研究者理论上期望获得的)

无关变异(研究者不感兴趣,但对因变量有影响的变量所引起的变异)

误差变异(实验中的随机波动,如被试误差、测量误差)

实验设计的功能是使系统变异的效应最大,控制无关变异,使误差变异最小。

?如何使系统变异的效应最大?

–选取适当的自变量水平。

–提高测量的辨别力,即选择对自变量的变化敏感的因变量。

–例如:研究阅读课文的长度对阅读成绩的影响。阅读课文的长度500字、550字、1000字;所有被试的测分在90-95。

?如何控制无关变异?

–Randomization

实验单元或被试是从一个更大的、研究者感兴趣的总体中随机选择的;(对实验结果的概括力最重要)实验单元或被试是随机分配给各个处理条件的。(对实验的内部效度是关键的:原因——随机分配的随机化,在理论上可以认为实验中各个处理组在各个方面上是统计上没有差异的)

–Elimination

尽可能选择在某个维度上同质的单元,以使无关变量消除。如:性别、智力

这种方法是通过消除变量本身来控制无关变量。

缺点:实验结果的概括力受到影响。实际上是一种非实验设计的控制方法。

–Matching

对被试在某个与因变量有关的变量上进行匹配

如研究两种教学方法对学生学习成绩的影响,应如何进行设计?

匹配的困难:多因实验中很难找到满意的被试

–Additional IDV

有时研究者可以考虑不从实验中消除某个变量,而是把它包括进实验设计,这是目前实验设计的一种趋势。

例如:研究教学方法对学习分数的影响,可以把智力看作是一个变量。

–Statistical control

无关变异还可以通过各种实验设计和统计分析的帮助得到控制。

如:随机区组实验设计,事先分区组,组内同质,组间异质,利用方差分析把区组引起的变异从总变异中区分开来。

?如何使误差变异最小?

何谓误差变异?

–误差变异指实验中所有未控制的变异,来自实验中的随机波动。接受试验处理的实验单元或被试内在差异;测量误差

使之最小的方法:

–重复测量设计可以有效地把由个体差异引起的变异从总体变异中区分出来,从而使误差变异减少。

–增加测量的可靠性来减少测量误差。如:仪器、被试情绪、偶然的注意力涣散等。

【例】

假设有一个研究者想要比较游泳和跑步的减肥效果。他找来两个肥胖的人作被试,首先用一架最大量程为300磅的台秤称他们的体重,发现两个被试的体重正好都是300磅。然后,这两个被试开始减肥计划,一个通过跑步减肥,另一个游泳。几个月后,两个人又一次用同一架台秤称体重,结果发现两个人的体重都是250磅。研究者认为两个人都减重50磅,因此断定跑步和游泳的减肥效果一样好。请问该研究可能存在什么问题?

该研究潜在的主要问题在于测量体重时采用的测量工具,台秤的量程是0到300磅,这样在起初所获得的二人的体重可能并不准确。有可能发生天花板效应,也就是说两个人可能体重都在300磅以上,或者一个刚好300磅另一个在300磅以上,由于量程狭窄的限制,两个人都获得了量程上的最高分数,而这个分数并没有反映出被试真正的体重。这样我们也就无法确信他们最初的体重减去250磅就是他们减肥减掉的重量。这样最后得出的跑步和游泳减肥效果的结论也因为量程限制而不可信。

二、真实验设计

(一)完全随机化设计

含义:也称简单随机化设计,是指用随机化方法将被试随机分为几组,然后依据实验的目的对各组被试实施不同的处理。

完全随机化设计的类型

1、随机实验组控制组前测后测设计

?设计模式:R O1 X O2

R O3 O4

R表示随机化; X 研究者操纵的实验处理;

?设计的评价:

1)、实验的内部效度较好。原因:采用随机化处理;设立对照组。

2)、前测可能导致实验外部效度的下降。

?设计的统计检验:利用增值分数进行统计分析;协方差分析。

2、随机实验组控制组后测设计

?设计的模式: R X O1

R O2

?设计的评价:内部效度较好;原因:实验组控制组设计;实验条件相同,无前测。

?设计的显著性检验:T检验;U检验或中位数检验

?设计的实例分析(p23)

3、随机多组后测设计

?设计模式: R X1 O1

R X2 O2

R X3 O3

?实验结果检验:单因素方差分析,N-K检验

(二)多因素实验处理

?什么是多因素实验设计?

实验中包括两个或两个以上因素(自变量),并且每个因素都包括两个或以上水平,各水平相互结合构成实验处理,该设计又称为完全随机析因设计。

?完全随机析因设计的类型:p X q X……

?完全随机双因素析因设计举例p26-32

【实验分析】

杨治良等(1981)的实验

目的:了解年龄和材料对再认能力的影响

第一个自变量是年龄,选取初中生年龄组和大学生年龄组。第二个自变量是实验材料,具体实物图形和词组。因变量:再认能力d‘作指标。

这个实验的方法是采用再认法,把被试者识记过的材料和没有识记过的材料混在一起,要求被试者把两种材料区分开来。

如果让你开展这个研究,该具体如何进行?

(三)随机化区组设计

Block Randomization: the most common technique for carrying out random assignment in the random groups design; each block includes a random order of the conditions and there are as many blocks as there are subjects in each condition of the experiment.

The example:p32

?随机区组设计的目的:使区组内的被试差异尽量缩小,而对区组之间的差异依据设计要求而定。

?随机区组设计的原则:同一区组内的被试尽量“同质”,每一区组内被试的人数有三种情况:

1.1名被试一个区组,每名被试均接受全部处理,在接受处理的顺序上要采用随机化的方法。

2.每个区组内被试的人数是实验处理数目的整倍数;

3.区组内的基本单元不是一名被试或几名被试,而是以一个团体为单元。

随机化区组单因素设计

?随机区组设计(Block Randomization)举例(1)

Sackheim,Gur和Saucy(1978)使用组内设计研究人的两侧面孔在情绪表达强度上的差异。早期的研究者发现,被试能够准确地区分呈现给他们的人类的6种基本情绪(快乐、惊奇、恐惧、悲伤、愤怒、和厌恶)的照片。Sackheim和他的合作者利用一个人的一侧面孔和其镜像重新构成一张完整的面孔的照片。上图为三种实验材料。

Sackheim,Gur和Saucy(1978)使用组内设计研究人的两侧面孔在情绪表达强度上的差异。早期的研究者发现,被试能够准确地区分呈现给他们的人类的6种基本情绪(快乐、惊奇、恐惧、悲伤、愤怒、和厌恶)的照片。Sackheim和他的合作者利用一个人的一侧面孔和其镜像重新构成一张完整的面孔的照片。上图为三种实验材料。

?随机区组设计(Block Randomization)举例(2)

给被试呈现如图所示的照片制成的幻灯片,要求被试利用7点量表评价每一张幻灯片的情绪的强度。每次呈现一张幻灯片,每张呈现10秒钟,然后给被试35秒钟进行评定。实验中的自变量为照片的形式(左侧构成,原始照片,和右侧构成),每位被试评价54张幻灯片:18张左侧构成照片,18张原始照片和18张右侧构成照片。

?随机区组设计(Block Randomization)举例(3)

?随机区组设计(Block Randomization)举例(4)

问题是,两种重新构成的照片在表现出的厌恶程度上是否相同。在本实验中,被试对左侧构成照片的厌恶强度评价明显高于对右侧构成照片的厌恶强度评价。Sackheim等人用大脑半球的分化解释以上实验结果。通常,左半球控制身体的右侧,而右半球控制身体的左侧。因此,左侧构成照片反映的是右半球的控制,而右侧构成照片反映的是左半球的控制。对左侧构成照片情绪强度评价较高表明右半球在情绪的表达方面更为重要。

?随机化区组多因素设计

教学方法和内容复杂性对测验成绩的影响。

【练习】

下面是一个关于记忆的实验,实验中用的材料是 16 个中英文单词,其中,中、英文单词各半,代表有生命的东西与无生命的东西的单词各半,单词的颜色红、蓝各半。被试分为三组,第一组要求他们对书写单词的颜色尽快做口头报告:红或蓝;第二组要求他们对出现的中英文单词的语种尽快做口头报告:中或英;第三组要求他们对出现的中英文单词是代表有生命的东西还是无生命的东西尽快做口头报告:死或活。当被试对最后一个刺激反应完毕,即进行单词的再认和再现,要求当对一个单词的意义、语种和颜色三个方面全对时,才算达到正确的标准。实验结果如下:

请对如下问题进行回答:

( 1 )该实验采用的是什么类型的实验设计?为什么?

( 2 )该实验中的自变量和因变量各是什么?

( 3 )该实验结果说明了什么问题?

三、准实验设计和非实验设计

概念解析

非实验设计:是一种对现象的自然描述,一般用于识别和发现自然存在的临界变量及其关系,可以为进一步严格实验累积材料。

准实验设计:实验控制相对较弱的一种设计。

(一)准实验设计

1、单组准实验设计

(1)时间序列设计

设计模式:O1 O2 O3 O4 X O5 O6 O7 O8

含义:对被试进行一系列周期性测量,并在测量的时间序列中引进实验处理,然后观测引进实验处理后的一系列测量结果,并与引进实验处理前的一系列测量结果进行比较,研究插入实验处理前后测量结果的变化趋势,从而考察实验处理的效果。

【举例】英国工业疲劳研究组

如果工作时间从每天的10小时缩短到8小时,生产率会出现什么样的变化。

研究者以每小时的平均产量作为因变量指标。

可能存在的问题

可能不管工作时间是否缩短,都会出现生产率提高的现象。原因:“霍桑效应”(Hawthorne effect)。

除了每天工作时间长短的变化外,可能还有其他变量影响到每小时的平均生产量。

数据的效度有限。由于对研究项目的特殊兴趣,很可能在接受处理后,对生产效率的记录更为准确。?评价:

–优点:可以较好的控制成熟因素对内部效度的影响;可以控制测验因素的干扰;可能控制统计回归的因素。

–缺点:没有控制组,不能控制和实验处理同时发生的偶发事件(附加变量)的影响;存在测验与处理的交互作用;多次前测影响被试对实验处理的敏感性。

?显著性检验:回归直线是否存在差异,检验——剩余标准差、截距和斜率。

(2)相等时间样本设计

设计模式:X1O1 X0O2 X1O3 X0O4

含义:在其中的一个时间样本中不出现实验变量。

?评价:

优点:内部效度较好;

缺点:测验、实验安排的反作用效果、选择偏差和实验变量的交互作用、重复实验处理的干扰等影响外部效度。

?显著性检验:参见例子。

2、多组准实验设计

(1)不相等实验组控制组前测后测设计

设计模式

O1 X O2

O3 O4

?设计评价

?显著性检验:t检验;U检验或中位数检验

(2)不相等实验组控制组前测后测时间序列设计

设计模式 O1 O2 O3 O4 X O5 O6 O7 O8

O9 O10 O11 O12 O13 O14 O15 O16

?设计评价:

?显著性检验:见课本。

(3)平衡设计(拉丁方设计)

?拉丁方设计应满足的条件:

研究中有一个带有p个水平的自变量,有两个带有p个水平的无关变量,一个无关变量被分配给p行,另一个被分配给p列。

事先假定处理水平与无关变量之间没有交互作用。

随机分配处理水平给p2个方格,每一水平在每行、每列中仅出现一次。

?拉丁方设计的特点是:①每个因素在每个被试的实验次数相同;②每个顺序在每个因素的实验次数相同;

③每个顺序在每个被试的实验次数相同。故拉丁方设计能够抵消实验中因实验顺序、被试差异等所造成的无关变量效果。

?设计模式

?评价与显著性检验:参见课本

(二)非实验设计

1、单组后测设计

在单组后测设计中,只有一个实验组,对实验组只给予一次实验处理,然后通过测量得到一个后测成绩。

?设计的基本模式: X O

X是研究者操纵或某种未知因素(研究者经过分析而推断的自变量)的处理,O是研究者操纵自变量引出的结果(后测成绩)或研究者观察到的结果。

2、单组前测后测设计

单组前测后测设计是对单组后测设计的一种改进,它增加了在实验处理前的测验,但还是只有一个实验组。

?设计的基本模式: O1 X O2

O1表示在接受处理X以前对被试进行前测,取得一项作为基线的观测值,X表示引入的实验处理,O2表示处理X后的测验。

?参见课本。

3、固定组比较设计

又称静态组或整组比较设计。

采用实验组和控制组两组被试,但因这两组被试在实验处理前就已经形成,故它不能使用随机化原则选

择被试。

基本设计模式: X O1

O2

O1为实验组接受实验处理后的反应效果;O2为不接受实验处理的控制组的反应效果。

4、事后回溯设计

是指所研究的对象是已发生过的事件。

在研究过程中,研究者不需要设计实验处理或操纵自变量,只需通过观察存在的条件或事实,将这种已自然发生的处理或自变量与某种结果或因变量联系起来加以分析,以便从中发现某种可能的简单关系。

?基本设计模式:

X O

X是自变量或实验处理,是研究者不能操纵或改变的;O是研究者观察到的结果。

?事后回溯设计主要包括两种类型

相关研究设计

准则组设计

实验设计小结

实验设计类型分析

实验设计类型

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

试验设计与统计分析

广东药学院自编教材试验设计与统计分析 卫生统计学教研室 2014.8

第一章绪论 在医药卫生、食品等专业研究领域,常需要开展大量的试验来确定或验证研究者在科研过程中提出的科学假设,例如临床上研究某种新的降糖药的疗效时,研究者需要将研究对象(如糖尿病患者)随机地分组,使其中一组患者服用研究中的该降糖药,另一组患者服用传统的降糖药,进而比较两组药物的疗效。但在具体的试验实施之前,研究者需要面对很多问题,如试验中试验对象应如何选择和分组?如何在试验过程中避免服用不同试验药物对试验对象心理产生影响,继而影响到最终疗效的判断?选择什么样的指标可更好的反映药物疗效?样本量需要多少?试验数据应如何收集以及运用何种统计方法进行分析等等问题。因为研究过程中研究结果会受到诸多因素影响,如研究对象的年龄、性别和病情可能影响药物疗效,如果不采取科学的方法使这些因素在比较组间分布均衡,就不能得到令人信服的结论。因此为使科学研究在消耗最少人力和物力的情况下,最大限度地减少误差,获得科学可靠的结论,需要在研究开始之前对整个试验过程做出精心安排,制定详细具体的试验实施方案,即进行试验设计(experimental design)。一个科学合理的试验设计,可以达到事半功倍的效果,是试验获得成功的关键。 一、试验设计的基本要素 医学试验包括三个基本要素:即处理因素、试验对象和试验效应。如研究某降糖新药的疗效,处理因素为降糖新药及比较的传统降糖药;研究者需用糖尿病患者作为试验对象;试验效应是能反映药物疗效的指标,如患者空腹血糖或餐后血糖的下降。处理因素作用于试验对象后产生试验效应(图1),三个要素缺一不可,因此试验设计时要先明确三个基本要素,再制定详细的研究计划。 1. 处理因素 处理因素(treatment)是指研究者根据研究目的施加于试验对象,以考察其试验效应的因素。如临床上研究降糖药的疗效,降糖药即为处理因素。在试验过程中处理因素的状态称为水平(level),如比较降糖新药和传统降糖药的疗效,

多元统计分析期末复习

多元统计分析期末复习 Document number:WTWYT-WYWY-BTGTT-YTTYU-2018GT

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

(3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确),(~∑μP N X μ ∑ μ p X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ) ()1(,,n X X X )',,,(21p X X X )' )(() ()(1X X X X i i n i --∑=n 1X μ∑μX ) 1,(~∑n N X P μ),1(∑-n W p X X

实验设计的统计学基本原则

第十一章实验设计的统计学基本原则 实验(Experiment):指由研究者主动地决定给予部分实验对象某种处理,给予另部分对象某种对照处理的研究设计形式,这种处理的分配常常是随机的。 实验设计(Experimental design):是通过良好地计划对象的选择、处理因素的分配、结果指标的测量和资料分析来保证比较组间对象和实验条件是均衡的,实验结果有较好的可比性,并且较好地控制误差以能用较小的样本获取可靠的结论。 一.实验设计的三要素:受试对象、处理因素和实验效应。 1.处理因素(treatment):根据研究目的,对受试对象施加的某种措施,称为处理因素。 注意:①抓住主要因素。 ②控制混杂因素(“非处理因素”在各组中应尽可能相同)。 ③标准化(处理因素应该标准化,即研究过程中处理应该自始至

终保持一致,不能因任何原因中途改变。) 2.受试对象(subject):动物——种类,品系,窝别 人——诊断,依从性 注意受试对象的同质性(homogeneity) 3.实验效应(effect): 指标选择:有效,客观,灵敏,精确。(头痛,发烧) 指标观察:对人的观察应注意避免偏性,提倡盲法。 主观指标的量化:如划记评分。 完全不满意完全满意 0 1 2 3 4 5 6 7 8 9 10 二.实验研究的分类:根据实验的对象不同,实验分成三类。 1. 动物实验(animal experiment) 2. 临床试验(Clinical trial)

3. 现场干预试验(Intervention trial) 三.实验中的变异及其来源: 在实验中,由于实验对象自身特点、实验条件的变化和实验结果测量的不确定性造成实验结果与真值的差别称实验误差,根据统计分析上的处理不同,实验误差分成两类: 1. 随机误差:由大量、微小的、偶然的因素的共同作用引起的不易控制的误差称随机误差。如在实验中,温度、湿度、风向、振动、试剂、仪器、操作员等都可能造成结果的偏差。 随机变异是没有倾向性的,在大量观察条件下,随机误差的分布呈标准N。随机误差的规律可以用统计方法分析。 正态分布()1,0 2.系统误差(systematic error):由于在对象选择、处理因素分配的不随机、测量结果的不准确造成实验结果有倾向性地偏离真值称系统误差,或称偏倚

多元统计分析(最终版)

题目:研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(注:要对方差齐性进行检验) 不同温度与不同湿度粘虫发育历期表 根据上述题目,分析结果如下。 一、相关理论概述 F检验与方差齐性检验 在方差分析的F检验中,是以各个实验组内总体方差齐性为前提的,因此,按理应该在方差分析之前,要对各个实验组内的总体方差先进行齐性检验。如果各个实验组内总体方差为齐性,而且经过F检验所得多个样本所属总体平均数差异显著,这时才可以将多个样本所属总体平均数的差异归因于各种实验处理的不同所致;如果各个总体方差不齐,那么经过F 检验所得多个样本所属总体平均数差异显著的结果,可能有一部分归因于各个实验组内总体方差不同所致。 但是,方差齐性检验也可以在F检验结果为多个样本所属总体平均数差异显著的情况下进行,因为F检验之后,如果多个样本所属总体平均数差异不显著,就不必再进行方差齐性检验。本文分析数据采用后一种方法,即先F检验再方差齐次性检验。

二、从单因子方差角度分析 (一)在假定相对湿度不变的情况下分析 1、假定相对湿度恒为40%,分析不同温度对粘虫发育历期的影响。如下表: 温度℃ 重复 25 27 29 31 1 100. 2 90.6 77.2 73.6 2 103. 3 91.7 85.8 73.2 3 98.3 94.5 81.7 76. 4 4 103.8 92.2 79.7 72. 5 Ti 405. 6 369 324.4 295.7 T 2 i 164511.36 136161 105235.36 87438.49 在本例中,r=4,m=4, n=16 , =1394.7, = 123413.4696 T 2 /n=(1394.7)2/ 16=121574.2556 (式1) ( 式2) (式3) S E =S T -S A =1839.214-1762.297=76.917 (式4) 数据的方差分析表见表1. 表1 粘虫发育历期方差分析表 粘虫发育历期 (相对湿度40%) 来源 平方和 df 均方 F 显著性 组间 1762.297 3 587.432 91.646 .000 组内 76.917 12 6.410 总数 1839.214 15 分析表1可知,F 0.05(3,12)=3.49,F 值=,91.646,F>F 0.05,P=0.000<0.05,说明在相对湿度为40%时,不同温度对粘虫发育历期有显著影响。同时,在方差齐次性检验中P=0.304>0.05,说明方差齐次性显著,如下表。以下方差齐次性检验于此类同,限于篇幅,直接得出结果,方差齐性检验 粘虫发育历期 Levene 统计量 df1 df2 显著性 1.351 3 12 .304 相关程序源代码附录如下:DATASET ACTIV ATE 数据集0. ONEW AY 粘虫发育历期 BY X2 /STA TISTICS HOMOGENEITY =493346.2105/4-121574.2556=1762.297 =123413.4696-121574.2556=1839.214

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

何晓群多元统计分析(数据)

第二章数据 行业公司简称净资产 收益 率% 总资产 报酬 率% 资产负 债率% 总资产周 转率 流动资 产周转 率 已获利 息倍数 销售增 长率% 资本积 累率% 电力、煤气及水的生产和供应业深能源A16.8512.35 42.32 0.37 1.78 7.18 45.73 54.54 深南电A2215.30 46.51 0.76 1.77 15.67 48.11 19.41 富龙热力8.977.98 30.56 0.17 0.58 10.43 17.80 9.44 穗恒运A10.258.99 40.44 0.46 2.46 5.06 11.06 1.09 粤电力A20.8120.00 35.87 0.43 1.25 34.89 24.77 12.67 韶能股份8.867.52 27.59 0.24 0.84 20.59 -3.50 54.02 惠天热电10.987.94 49.30 0.36 0.69 12.43 16.88 3.52 原水股份8.858.88 36.20 0.13 0.41 8.53 -11.49 2.44 大连热电9.037.41 46.89 0.28 0.79 6.86 16.23 -1.52 龙电股份12.078.70 16.81 0.28 0.68 29.75 4.11 63.06 华银电力 6.85 6.12 41.93 0.24 0.65 4.38 11.20 3.80 房地行业长春经开9.8510.50 31.23 0.34 0.40 17.13 18.05 7.18 兴业房产 1.07 1.52 66.91 0.21 0.24 1.53 -31.93 1.08 金丰投资19.447.01 73.34 0.26 0.30 7.02 71.22 12.73 新黄浦7.61 5.92 39.64 0.16 0.17 4.20 14.77 7.91 浦东金桥 4.24 3.99 37.30 0.20 0.25 3.98 -9.24 4.69 外高桥 1.673 1.92 49.05 0.03 0.05 1.06 -21.74 0.24 中华企业8.78 6.28 57.42 0.17 0.19 3.58 75.29 2.93 渝开发A0.2 2.24 63.40 0.09 0.15 1.07 -12.56 0.29 辽房天8.12 3.98 69.10 0.10 0.72 2.65 -35.83 3.16 粤宏远A0.42 1.16 37.42 0.09 0.15 1.59 19.18 0.43 ST中福 5.17 6.62 65.48 0.16 0.21 1.33 -19.91 23.74 倍特高新0.72 2.76 65.39 0.30 0.42 1.24 8.40 0.70 三木集团 5.99 4.53 65.17 0.74 0.88 4.14 75.36 0.87 寰岛实业0.420.20 24.03 0.02 0.03 -8.18 -71.33 0.42 中关村9.32 4.48 67.76 0.32 0.37 16.42 -29.42 4.09 信息技术 业中兴通讯18.7811.09 69.15 0.93 1.08 4.79 80.80 23.27 长城电脑14.949.48 45.53 1.14 1.85 9.51 34.47 35.93 青鸟华光9.7888.70 36.67 0.28 0.39 13.11 28.36 7.87 清华同方15.919.08 34.19 0.85 1.19 15.61 98.92 95.66 永鼎光缆9.48.67 32.75 0.79 1.25 13.49 41.75 6.33 宏图高科14.577.96 65.86 0.76 0.94 3.95 54.45 15.71 海星科技 4.06 3.35 36.49 0.48 0.60 4.64 -16.28 1.69 方正科技27.4816.69 57.13 2.51 2.87 7.40 63.27 32.02

试验设计与统计分析教学大纲

山西农业大学信息学院 《试验设计与统计分析》教学大纲 课程名称:试验设计与统计分析 Experiment Design and Statistical Analysis 课程编码:105011 课程类别:专业基础课 学时/学分:48学时/3学分 适用专业:资环、环科等专业 一、前言 1、课程性质 《试验设计与统计分析》,是数理统计学在生物科学领域的应用,主要涉及科学研究中的试验设计、抽样观测和统计推断,是一门应用数学。课程还同时融入国际权威的SAS统计分析,通过上机处理试验实例的数据,巩固和加深理解所学统计原理及方法。课程不仅讨论如何科学地设计试验,而且还讨论如何科学地收集数据、整理数据、分析数据、解释数据和做出结论,是从事科学研究必不可少的基础知识。《试验设计与统计分析》是资环、环科专业的一门专业基础必修 课程。 2、教学目标 通过课堂讲授、课下作业和上机数据处理三个环节的教学过程,使学生掌握基本的试验设计与统计分析方法,掌握试验数据处理的程式步骤和技能。 3、教学要求 针对试验设计与统计分析的学科特点,结合专业的性质,讲授课程时理论与方法并重,力图把统计原理讲解的清晰易懂,使学生了解典型内容的基本原理和方法,理解统计方法的理论背景,掌握一些基本技能,从而培养学生分析解决实际问题的能力。 4、先修课程 高等数学、线性代数、概率论等

二、课程内容 绪论 教学内容及总体要求: 掌握:(1)试验设计与统计分析的概念、特点;(2)总体与样本、样本含量、参数与统计量的概念;(3)统计分析的基本要求。了解:(1)试验设计与统计分析的作用及其主要内容;(2)试验设计与统计分析的发展概况;(3)错误与误差、准确性与精确性的概念。 教学目标: 通过学习,使学生掌握试验设计与统计分析的概念、特点;总体与样本、样本含量、参数与统计量的概念;统计分析的基本要求。 教学方式方法建议: 课堂讲授、课堂讨论 学时:2学时 一、试验在科学研究中的作用 二、试验研究的一般程式及过程 三、试验设计与统计分析的涵义 四、试验设计与统计分析的必要性 五、课程特点与学习方法 六、常用术语和基本概念 思考题: 1、总体与样本、样本含量、参数与统计量的概念; 2、统计分析的基本要求 第一章田间试验设计(6学时) 第一节田间试验设计基础 1、田间试验设计概述 2、试验设计中的基本概念 第二节田间试验的种类 1、按试验性质分类

实验设计与统计分析练习题

1. 研究变量间的关系用什么方法。回归相关 2. 比较多个平均数的差异用什么方法。方差分析 3. 方差组分估计解决的问题. 4.协方差分析能够解决的问题。 5. 聚类分析能够解决的问题。 7. 规划求解能够解决的问题。 8. PB 试验要解决的问题。 9.主成分分析要解决的问题。 10.随机单位组试验设计允许试验单元有差异,要求是什么,它的模型是什么. 11.相关系数的意义. 12.12,x x 与 y 二元三次回归方程?y . 13通径分析中谁反映两变量间的综合作用,反映变量间的直接作用。 14.有1、2、3、4四个处理,要比较它们的总体平均数的差异是否显著,试验单元情况如下图,请进行试验设计: 变化方向 15.SPSS 运算得树状图如下,现要聚成二类、三类、四类,分别写出各类所含地块号。 16.因素A 有4个水平,因素B 有3个水平,共有11、…、43个不同搭配 (1) 要研究搭配的不同平均数一致否,请说明试验数据在SPSS 中的数据格式 (2) 要研究A 、B 有无交互作用,请说明试验数据在SPSS 中数据格式。 17. 为求1 2,,x x y 的的二元二次回归方程,请说明数据在SPSS 中数据格式。能够 根据运算结果给出统计结论. 18.混料试验设计题(10分) y 与x 1、x 2、x 3有关系,x 1∈[0.2,1],x 2∈[0.1,1],x 3∈[0.1,1],现采用单纯形重心设计,请给出试验设计(每个试验x 1、x 2、x 3用实值)。 19.响应面分析试验设计题,y 与x 1、x 2有关系,x 1∈[3,11],x 2∈[6,10],现采用通用旋转组合设计,请给试验方案(每个试验x 1、x 2用实值)。

成组实验设计方案及其统计分析

成组实验设计及其统计分析 成组设计及其统计分析 1. 实验设计 设实验因素A有A1,A22个水平,将全部n(n最好是偶数)个受试对象随机地均分成2组,分别接受A1,A22种处理。再设每种处理下观测的定量指标数为k,当k=1时, 属于一元分析的问题。当k≥2时,属于多元分析的问题。 在成组设计中,因2组受试对象之间未按重要的非处理因素进行两两配对, 无法消除个体差异对观测结果的影响,因此,其实验效率低于配对设计。 2. 前提条件与检验法的选用 在分析成组设计资料前,需考察资料是否满足下述2个前提条件:①正态性,即各组数据应独立抽自正态总体。②方差齐性,即2组资料的总体方差应该相等。下面根据这2个前提条件的满足情况,给出统计检验法的选用办法: 前提条件满足情况可选用的统计检验法 ①、②均满足成组设计资料的一般t检验 ①满足、②不满足近似t检验,即t'检验。或非参数检验 ①不满足非参数检验 在后2种情形中,若资料经过某种变量变换后能满足①、②2个前提条件,则对变量变换后的数据可用成组设计资料的一般t检验来分析。 3.应用实例 (1)一元的情形 ①成组设计资料的一般t检验 [例2.2.8]随机将20只雌性中年大鼠均分为甲、乙2组,甲组大鼠不接受任何处理(即空白对照),乙组中的每只大鼠接受3mg/kg的内毒素。分别测得2组大鼠的肌酐(mg/L)数据,试检验2总体均数之间有无显著差别。 甲(对照)组: 6.2,3.7, 5.8,2.7,3.9,6.1,6.7,7.8,3.8,6.9 乙(处理)组: 8.5,6.8,11.3,9.4,9.3,7.3,5.6,7.9,7.2,8.2 [分析与解答]先假定此资料满足正态性这一前提条件(后面将用程序来实现)。 2总体方差的齐性检验:H0:σ12=σ22,H1:σ12≠σ22,α=0.05。 用计算器实现统计计算所需的公式: (2.2.4) 式中MS1为较大均方、MS2为较小均方,SS、df分别为离差平和及自由度。F~F(df1,df2), 拒绝域:F≥Fα(df1,df2),则P≤α。 本例的已知条件和中间结果: 甲组: n=10, df=9, ∑X=53.6, X-=5.36, ∑X2=313.26, SS=25.964, MS=2.884889 乙组: n=10, df=9, ∑X=81.5, X-=8.15, ∑X2=687.17, SS=22.945, MS=2.549444 显然,甲组MS大于乙组MS,故应把甲组的有关统计量放在式(2.2.4)的分子上。 代入公式(2.2.4)计算的结果: F=1.132 查方差齐性检验用的F临界值表,得:F0.05(9,9)=4.03,因F0.05,

常见的实验设计与计算举例

常见的实验设计与举例 一、单因素实验设计 单因素完全随机设计、单因素随机区组设计、单因素拉丁方实验设计和单因素重复测量实验设计是四种基本的实验设计,复杂的实验设计大多都是在这四种形式上的组合。研究者根据不同的研究假设、实验目的与条件使用不同的实验设计,但无论哪种实验设计都有一个共同的目标,即控制无关变异,使误差变异最小。 1.完全随机设计研究中有一个自变量,自变量有两个或多个水平,采用随机化方法,通过随机分配被试给各个实验处理,以期实现各个处理的被试之间在统计上无差异,这种设计每个(组)被试只接受一个水平的处理。完全随机实验的方差分析中,所有不能由处理效应解释的变异全部被归为误差变异,因此,处理效应不够敏感。 例:研究阅读理解随着文章中的生字密度的增加而下降。自变量为生字密度,共有四个水平:5:1、10:1、15:1、20:1,因变量是被试的阅读理解测验分数。实验实施时,研究者将32名被试随机分为四个组,每组被试阅读一种生字密度的文章,并回答阅读理解测验中有关文章内容的问题。 完全随机实验设计实施简单,接受每个处理水平的被试数量可以不等,但需要被试的数量较大,且被试个体差异带来的无关变异混杂在组内变异中,从而使实验较为不敏感。完全随机实验数据的统计分析,如果是单因素两组设计,采用独立样本t检验;如果是单因素完全随机多组设计则采用一元方差分析(One -Way ANOV A)。 2.随机区组设计研究中有一个自变量,自变量有两个或多个水平,研究中还有一个无关变量,也有两个或多个水平,并且自变量的水平与无关变量的水平之间没有交互作用。当无关变量是被试变量时,一般首先将被试在这个无关变量上进行匹配,然后将他们随机分配给不同的实验处理。 例:仍以文章的生字密度对阅读理解影响的研究为例,但由于考虑到学生的智力可能对阅读理解测验分数产生影响,但它又不是该实验感兴趣的因素,于是研究者采用单因素随机区组设计,在实验实施前,研究者首先给32个学生做了智力测验,并按智力测验分数将学生分为8个区组,然后随机分配每个区组内的4个同质被试分别阅读一种生字密度的文章。

(整理)多元统计分析各章的电子版数据.

第二章数据

第三章数据

例3-1 X1 职工标准工资收入 X5 单位得到的其他收入 X2 职工奖金收入 X6 其他收入 X3 职工津贴收入 X7 性别 X4 其他工资性收入 X8 就业身份 X1 X2 X3 X4 X5 X6 X7 X8 540.00 0.0 0.0 0.0 0.0 6.00 男国有1137.00 125.00 96.00 0.0 109.00 812.00 女集体1236.00 300.00 270.00 0.0 102.00 318.00 女国有1008.00 0.0 96.00 0.0 86.0 246.00 男集体1723.00 419.00 400.00 0.0 122.00 312.00 男国有1080.00 569.00 147.00 156.00 210.00 318.00 男集体1326.00 0.0 300.00 0.0 148.00 312.00 女国有1110.00 110.00 96.00 0.0 80.00 193.00 女集体1012.00 88.00 298.00 0.0 79.00 278.00 女国有1209.00 102.00 179.00 67.00 198.00 514.00 男集体1101.00 215.00 201.00 39.00 146.00 477.00 男集体 例3-3 English Norwegian Danish Dutch German French One En en een ein un Two To to twee zwei deux Three Tre tre drie drei trois Four Fire fire vier vier quatre Five Fem fem vijf funf einq Six Seks seks zes sechs six seven Sju syv zeven siebcn sept Eight Ate otte acht acht huit Nine Ni ni negen neun neuf Ten Ti ti tien zehn dix Spanish Italian Polish Hungarian Finnish Uno uno jeden egy yksi Dos due dwa ketto kaksi Tres tre trzy harom kolme cuatro quattro cztery negy neua Cinco cinque piec ot viisi Seix sei szesc hat kuusi Siete sette siedem het seitseman Ocho otto osiem nyolc kahdeksau nueve nove dziewiec kilenc yhdeksan Diez dieci dziesiec tiz kymmenen 例3-4

田间试验设计与统计分析期末复习试题

一、判断题 1. 在采用分层随机抽样时,若各区层所包含的抽样单位数不同,则从各区层抽取单位数应根据其所包含的抽样单位数按比例配置。(√) 2.二项分布属于连续型概率分布(×) 3.一般情况下,长方形尤其是狭长形小区的试验误差比正方形小区的大(×) 4.准确性是指在试验中某一试验指标或性状的观测值与其真值接近的程度(√) 5.调和平均数主要用于反映研究对象不同阶段的平均速率(√) 6.在计算植物生长率时,用调和平均数比用算术平均数更能代表其平均水平(×) 7.就同一资料而言,调和平均>数几何平均数>算术平均数(×) 8.通常将样本容量n30的样本称为大样本,将样本容量n30的样本称为小样本(√) 9.正态分布属于离散型概率分布(×) 10.统计分析的试验误差主要指随机误差。这种误差越小,试验的准确性越高(×) 二、填空题 1. 正交试验设计表的主要性质有正交性、代表性、综合可比性。 2. 两个变量数据依据确定性关系可分为函数关系和相关关系2种类型。 3. 常用统计图的绘制方法主要有直方图、多边形图、条形图、圆图这4种图形。 4.在田间试验中,由观察、测量所得的资料,一般可分为数量性状资料和质量性状资料两大类。 5. 小样本抽样分布主要包括三类分布:t分布、 X2分布和F分布。 6. 随机事件可分为:必然事件、不可能事件和基本事件3种类型 7. 常用的田间试验设计方法主要有随机区组试验、随机裂区试验、拉丁方试验。 8. 正交试验设计表的主要类型有两种分别相同水平正交表和混合水平正交表 9. 田间试验常用的随机抽样方法有简单随机抽样、分层随机抽样、整群随机抽样和多级随机抽样 10. 试验地土壤差异测量的方法有目测法和肥力测定法 12. 试验处理重复的作用分别是估计试验误差和降低试验误差。 13. 试验地土壤肥力差异的表现形式大致可分为肥力梯度的变化和斑块状变化。 14. 在研究玉米种植密度和产量的相关关系中,其中种植密度是自变数,产量是依变数 15. 小麦品种A每穗小穗数的平均数和标准差值为18和3(厘米),品种B为30 和4.5(厘米),根据 CV A 大于_ CV B _,品种_ A _ 的该性状变异大于品种_ B _。 16. 田间试验常用的随机抽样方法有、、和等 17.根据试验的内容将田间试验分为:品种试验、栽培试验、品种和栽培相结合的试验3种类型。 18. 统计学中,一般来说常见抽样的方法有典型抽样、随机抽样和顺序抽样3种方法。 19. 在Excel表格中计算正态分布概率值和反正态分布随机变量的函数分别是NORMDIST 和NORMINV

多元统计分析论文

多元统计分析实践论文 院系:理学院 专业:统计学 年级:2010 姓名:樊恩泽 学号:20101004005

我国城镇居民人均消费支出的多元统计分析 樊恩泽 摘要:本文本文综合了主成分因子分析与系统聚类分析,先进行主成分因子分析, 再用进行聚类分析。采用2011年我国31个省、市、自治区城镇居民人均消费支出数据,首先利用主成分因子分析的方法, 找出影响我国城镇居民人均消费支出的主成分, 计算各样本的主成分得分;其次运用系统聚类分析法,对各地区人均消费水平进行分类,结果表明,系统聚类分析法得到的结果也较好;最后对于扩大国内消费提出相关建议。 关键词:主成分分析聚类分析居民人均消费支出 1、引言 人均消费支出指居民用于满足家庭日常生活消费的全部支出,包括购买实物支出和服务性消费支出。消费支出按商品和服务的用途可分为食品、衣着、家庭设备用品及服务、医疗保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务等八大类。人均消费支出是社会消费需求的主体,是拉动经济增长的直接因素,是体现居民生活水平和质量的重要指标。 本文选取2011年我国城镇居民人均消费支出数据,主要利用三种统计方法进行分析:主成分分析法、聚类分析法。将全国31个省、市、自治区进行分类和排序,并与人们实际观察到的情况进行比较。 1.1主成分分析 主成分分析是将分量相关的原始变量, 借助于一个正交变换转化为不相关的新变量, 并以方差作为信息量的测度, 对新变量进行降维, 取累计贡献率大的若干成分作为主成分。这些主成分能够反映原始变量的绝大部分信息, 它们通常表示为原始变量的某种线性组合。

1.2聚类分析 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。 在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作 2、数据来源及处理 2.1统计思想 主成分因子分析的基本思想是通过对变量相关系数矩阵内部结构的研究,找出能控制所以变量的少数几个随机变量去描述多个变量之间的相关关系,并依据相关性的大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每组代表一个基本结构,这个基本结构成为公共因子。对于所研究的问题试图用最小个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来可观测的每一个变量。 下表是要进行处理的31个省市的城镇居民人均消费支出的相关原始数据,数据来源于《2011中国统计年鉴》。 X1:食品x2:衣着x3:居住x4:家庭用品x5:交通通信x6:文教娱乐x7:医疗保健 表1

应用多元统计分析习题解答_朱建平_第九章

Abbo无私奉献,只收1个金币,BS收5个金币的… 何老师考简单点啊……

第九章 典型相关分析 9.1 什么是典型相关分析?简述其基本思想。 答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法。用于揭示两组变量之间的内在联系。典型相关分析的目的是识别并量化两组变量之间的联系。将两组变量相关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系。 基本思想: (1)在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。即: 若设(1) (1)(1) (1)12(,,,)p X X X =X 、(2) (2)(2)(2) 12(,,,)q X X X =X 是两组相互关联的随机变量, 分别在两组变量中选取若干有代表性的综合变量Ui 、Vi ,使是原变量的线性组合。 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大。(2)选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对。 (3)如此继续下去,直到两组变量之间的相关性被提取完毕为此。 9.2 什么是典型变量?它具有哪些性质? 答:在典型相关分析中,在一定条件下选取系列线性组合以反映两组变量之间的线性关系,这被选出的线性组合配对被称为典型变量。具体来说, ()(1) ()(1)()(1)()(1) 11 22i i i i i P P U a X a X a X ' =+++a X ()(2) ()(2)()(2) ()(2) 11 22i i i i i q q V b X b X b X ' =+++b X 在(1)(1)(1)(2)()()1D D ''==a X b X 的条件下,使得(1)(1)(1)(2)(,)ρ''a X b X 达到最大,则称 (1)(1)'a X 、(1)(2) 'b X 是(1)X 、(2)X 的第一对典型相关变量。 典型变量性质: 典型相关量化了两组变量之间的联系,反映了两组变量的相关程度。 1. ()1,()1 (1,2,,)k k D U D V k r === (,)0, (,)0 ()i j i j C ov U U C ov V V i j ==≠ 2. 0 (,1,2,,)(,)0()0()i i j i j i r C ov U V i j j r λ≠==?? =≠??>? 9.3 试分析一组变量的典型变量与其主成分的联系与区别。 答:一组变量的典型变量和其主成分都是经过线性变换计算矩阵特征值与特征向量得出的。主成分分析只涉及一组变量的相互依赖关系而典型相关则扩展到两组变量之间的相互依赖关系之中,度量了这两组变量之间联系的强度。 ()(1)()(1)()(1)()(1) 1122i i i i i P P U a X a X a X '=+++a X ()(2)()(2)()(2)()(2) 1122i i i i i q q V b X b X b X '=+++b X (1)(1)(1)(1)1 2 (,,,)p X X X = X 、(2)(2)(2)(2)1 2 (,,,)q X X X = X

实验设计与统计分析

填空题 1.数据资料按其性质不同各分为资料和资料两种。 2.有共同性质的个体所组成的集团称为。从总体中抽取部分个体进行观测,用以估计总 体的一般特性,这部分被观测的个体总称为。 3.由总体中包含的全部个体求得的能够反映总体性质的特征数称为;由样本的全部观察 值求得的用以估计总体参数的特征数叫。 4..试验误差可以分为误差和误差两种类型。 5.从总体中抽取的样本要具有代表性,必须是抽取的样本。 6.样本根据样本容量的多少可以分为和。 8.小麦品种A穗长的平均数和标准差值为12cm和3cm,品种B为18cm和3.5cm,根据__________,判断品种______的 该性状变异大。 9.某海水养殖场进行贻贝单养和贻贝与海带混养的对比试验,收获时各随机抽取抽取50绳测其毛重,结果如下所示: 平均数X(kg)极差R(kg)标准差S(kg)变异系数CV% 贻贝单养42.70307.0816.58贻贝与海带混养52.1030 6.3412.16根据和,判断的效果好。 10.在统计学中,常见平均数主要有和。 11. 12. 13. 14. 15. 16. 17. 简答题 1.如何控制、降低随机误差,避免系统误差? 2.什么是准确性,精确性?如何提高试验的正确性? 3.统计表与统计图有何用途?常用统计图、统计表有哪些? 4.生物统计学中常用的平均数有几种?各在什么情况下应用? 5.为什么变异系数要与平均数、标准差配合使用? 多选题 1.下列总体中属于有限总体的是()。 A 保定地区棉田中棉铃虫的头数 B 20m2的试验小区中鲁玉4号玉米的株高 C 66.7万公顷鲁玉4号玉米的株高 D 320株水稻中糯稻的株数 2.下列数据资料中属于连续型变数资料。

相关文档
相关文档 最新文档