文档库 最新最全的文档下载
当前位置:文档库 › 两个多重相关变量组的统计分析

两个多重相关变量组的统计分析

两个多重相关变量组的统计分析
两个多重相关变量组的统计分析

两个多重相关变量组的统计分析

摘要

本文介绍两组相关变量问的典型相关与典型冗余分析的统计分析方法,以及在SAS软件包中如何实现,文中给出了一个典型的例子。

关键词:统计分析;典型相关;典型冗余分析

在实际问题中,经常遇到需要研究两组变量间的相关关系,而且每组变量中间常常存在多重相关性。比如工厂生产的产品质量指标与原材料、工艺指标间的相关关系;体育科研中运动员的体力测试指标与运动能力指标间的相关关系;经济领域中投资性变量与国民收入变量间的相关关系;教育学中学生高考各科成绩与高二年级各主科成绩间的相关关系;医学研究中患某种疾病病人的各种症状程度与用科学方法检查的一些指标间的相关关系等等。

研究两个变量组之间相关关系的常用方法是多元统计中的典型相关分析(参考[2]和 [3])。如果进一步研究这两组多重相关变量间的相互依赖关系,即考虑多对多的回归建模问题,除了最小二乘准则下的多对多回归分析、双重筛选逐步回归分析,以及提取自变量成分的主成分回归等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。关于多对多回归建模问题,我们将另文介绍。本文介绍典型相关与典型冗余分析,它是偏最小二乘回归的理论基础。

一 典型相关分析的基本思想与解法

第一组变量记为X=)(1'p X X ,第二组变量记为Y=)Y Y (q 1' (不妨设p ≤q)。典型相关分析借助于主成分分析提取成分的思想,从第一组变量X 提取典型成分V (V 是X 1,…,X p 的线性组合);再从第二组变量Y 提取典型成分W(W 是Y 1,…,Y q 的线性组合), 并要求V 和W 的相关程度达到最大。这时V 和W 的相关程度可以大致反映两组变量X 和Y 的相关关系。

记p+q 维随机向量Z=???

? ??Y X 的协差阵∑=????

??∑∑∑∑22211211 ,其中∑11一是X 的协差阵,∑22:是Y 的协差阵,∑l2=∑21是X ,Y 的协差阵。我们用X 和Y 的线性组合 V=a 'X 和W=b 'Y 之问的相关来研究X 和Y 之间的相关。我们希望找到a 和b ,使ρ(V ,W)最大。由相关系数的定义,

ρ(V ,W)=

)

()(),(w Var v Var W V Cov

分析上式将发现:在使得V,W 的相关达最大的同时, V 和W 的方差将达最小,

这说明按此准则得到的典型成分V 和W ,对原变量组X 和Y 的代表性最差,它们无法更多地反映原变量组的变异信息。另方面因V ,W 任意线性组合的相关系数与 V ,W 的相关系数相等,即使得相关系数最大的V=a 'X 和W=b 'X 并不唯一。故在典型相关分析解法中附加了约束条件:

Var(U) = a '∑11a = 1 Var(V)= b '∑22b = 1。

问题化为在约束条件Var(U)=1,Var(V)=1下,求a 和b ,使得ρ(U,V)= a '∑l2b 达最大。

定义l 设X=)(1'p X X ,Y=)Y Y (q 1' ,p+q 维随机向量???

?

??Y X 的均值向量为

O ,协差阵∑>O(不妨设p ≤q)。如果存在a 1 = (a l1,…,a lp )和b 1 = (b 1l ,…,b 1q )使得

ρ1=ρ(a '1X ,b ' l Y)=

),(max 1

),(,1),(Y X Y Var X Var βαρβ

α

''===

则称a 'X ,b ' Y 是X ,Y 的第一对典型相关变量,它们之间的相关系数称为第一个典型相关系数。

如果存在),(1'=kp k k a a a 和),(1'=kq k k a b b 使得 ①a 'k X , b ' k Y 和前面 k-1对典型变量都不关; ②Var(a 'k X) = l ,Var(b ' k Y) = 1; ③a 'k X 与b ' k Y 的相关系数 k ρ最大,

则称a 'k X , b ' k Y 是X ,Y 的第k 对典型相关变量,它们之间的相关系数k ρ称为第k 个典型相关系数),,2(p k =。

已知p+q 维总体Z 的n 次中心化观测数据阵为:

???

? ??=?

????

??

?????=??+Y X Z q n p

n nq n n np

n n q p q p q p n

y y y x x x y y y x x x y y y x x x 2

1

21222

21222211121111211)

( 若假定),0(~

∑+N

q

p Z ,则协差阵∑的最大似然估计为

???

?

??=????

??''''='=?2221121111S S S S Y Y X Y Y X X X n Z Z n S

下面我们将从样本协差阵S 出发,来讨论两组变量问的相关关系。

令22

2/112

11

2

/1S

S S T --=为p ×q 阵,则p ×q 阵和q ×q 阵T T ''的非零特征根

相同,且非零特征根均为正的。若rk(T)=rk(S 12)=r ≤p(因p ≤q),非零特征根依次为 λ2

1≥λ2

2≥…≥λ2

T >O(且λi >O ,i=1,…,r)。记r 阶对角阵D=diag(λi ,…,

λr )。利用p ×q 阵T 的奇异值分解定理(参考[4])有

),,(),,(2

1

1

ββ D a a T r

r r

q

p ??=

其中口i a (i=l ,…,r)为T T '对应于2i λ的单位正交特征向量;i β(i=1,…,r)为T T '对应于2i λ的单位正交特征向量,且i a 与i β满足关系式:i i

i T αλβ'=

1

。令

),1(2

/1222/111r i b a i i

i i

S S =?????==--βα,容易验证i a 与i b 满足:),1(1

1

2

/122

2

/111

r i b a i

i

i i

i

i S

S

=???

?

?

????

==

--βαλ

λ

则Y i b Wi X i a V i '='=,为X,Y 的第i 对样本典型相关变量,i λ为第i 个样本典型相关系数。

二 典型相关系数的显著性检验

总体z 的两组变量X=)(1'p X X 和Y=)Y Y (q 1' 如果不相关,即Cov(X,Y)= ∑12=0,以上有关两组变量典型相关的讨论就毫无意义.故在讨论两组变量间的相关关系之前,应首先对假设H 0:∑l2=0作统计检验,它等价于检验H 0:ρl =0。

设总体),0(~

∑+N

q

p Z ,用似然比方法可导出检验H 0:∑l2=0的似然比统计

量Λ,利用矩阵行列式及其分块行列式的关系,可得出

∏=---=-==

Λp

i p S S S S I S S S 1

2

1211

22121

1122

11)1(||λ

其中p+q 阶方阵s 是∑的最大似然估计量,S y 分别是∑ij (i,j=1,2)的最大似然估计),,1(2p i i =λ是T T ''的特征值。

统计量Λ的精确分布已由Hotelting(1936年)等人给出,但表达式很复杂。

由Λ统计量 出发可导出检验H 0的近似检验方法,如 Willks λ统计量,Pillai 的迹,Hotettintg-Lawley 迹和Roy 的极大根等(参阅[2])。

当否定H 0时,表明X,Y 相关,进而可得出至少第一个典型相关系数ρ1≠0。相应的第一 对典型相关变量V 1,W 1可能已经提取了两组变量相关关系的绝大部分信息。两组变量余下的部分可认为不相关,这时ρ1≈(i=2,…,p)。故在否定H 0后,有必要检验),,2(:)

(0p i i t H ==ρ即第i 个及以后的所有典型相关系数均为0。利用似然比方法可导出检验H t )

(0的似然比统计量,并给出该统计量的近似分布。从i=2开始逐个检验,直到某个i 0,使H t )

(0相容时为止。这时说明第i 0个及以后的所有典型相关系数均为0。假定经检验,前m 个典型相关系数显著地不等于0(m ≤p)。

三 典型结构与典型冗余分析

1.典型结构

求出典型变量后,进一步可以来计算原始变量与典型变量之问的相关系数阵——典型结 构。

记A=(a l ,a 2,…,a r )为P ×r 矩阵,B=(b l ,b 2,…,b r )为q ×r 矩阵,典型随机向量Y B Y b y b W W W X A X a X a V V V r r r r '='''='='='''==),(),(;),(),,(1111 ;随机向量Z 的

协差阵为∑=?

??? ??∑∑∑∑22211211 >0, 随机向量的协差阵为??

?

???=22211211S S S S S 是∑的最大似然然估计。则

Cov(X ,V)=Cov(X ,A 'X)=∑11A ,Cov(X ,W)=Cov(X ,B 'Y)=∑12B ,

Cov(Y ,V)=Gov(Y,A 'X)= ∑12A ,Cov(Y ,W)=Coy(X ,B 'Y)=∑22B 。 用S ij 代替以上公式中的∑ij (i ,j=1,2),即可计算出原始变量与典型变量之间的协差阵。由协差阵还可以计算原始变量与典型变量之间的相关系数阵。若假定原始变量均为标准化变量,则以上计算得到的原始变量与典型变量的协方差阵就是相关系数阵。

若计算这四个相关系数阵中各列(或各行)相关系数的平方和,还将得出下面一些有关的概念。 2.几个概念

类似于主成分分析,把V k 看成是由第一组标准化变量X 提取的成分,W k 看成是由第二组标准化变量Y 提取的成分,由相关阵R(X ,V)=S 11A=[r(X j ,V k )](p,r)和R(Y ,W)=S 11B=[r(X j ,V k )](q,r)分别计算第k 列的平方和。记

),,1(),(1),(,),(1),(1

2

12r k V Y r q W Y R V X r p V X R p j k j k d p j k j k d ===∑∑==

并称),(k d V X R )(或),(k d W Y R )为第k 个典型变量 V k (或W k )解释本组变量X(或Y)总变差的百分比。记

),(1),,;(),,(1),,;(11

2

11121k j m k q j m d k j m k p j m d V X r q W W Y R V X r p V V X R ∑∑∑∑=-=-==

并称),,;(1m d V V X R (或),,;(1m d W W Y R )为前m(m ≤r)个典型变量m V V ,,1 (m W W ,,1 )解释本组变量X(或Y)总变差的累计百分比。

在典型相关分析中,从两组变量分别提取的两个典型成分首先要求相关程度最大,同时也希望每个典型成分解释各组变差的百分比也尽可能的大。百分比的多少反映由每组变量提取的用于典型相关分析的变差的多少。

类似于主成分分析,还可以引入前m 个典型变量对本组第j 个变量X i (或Y j ,)的贡献等概念(参考[1])。 3.典型冗余分析

我们进一步来讨论典型变量解释另一组变量总变差百分比的问题。在典型相关分析中,因所提取的每对典型成分保证其相关程度达最大,故每个典型成分不仅解释了本组变量韵信息,还解释了另一组变量的信息。典型相关系数越大,典型成分解释对方变量组变差的信息也将越多。

类似可以定义);(k d V X R )(或);(k d W Y R )为W k (或V k )解释另一组总变差的百分比。以下给出利用典型变量解释本组变差的百分比来计算解释另一组变差百分比的公式:

),,1

)(;(),(1);(1

22

r k V X R V X r

p

V X R k d p

j k k j k d ===

∑=λ ,

),,1

)(;(),(1

);(1

22

r k W Y R V X r

q

V Y R k d p

j k k j k d ===

∑=λ

事实上,由典型变量的系数a k 与b k 之间的关系:

k k k k k k k k k

k b b a b a b a S S S S S S S S S 12121

11111112111121111==?=?=

---λλλ以及典型

变量与原始变量(假定已标准化)的相关阵即得:r(X j ,W k )= λk (X j ;V k ),故有

);(k d W X R =);(2k d k V X R λ,类似可证明另一式。

);(k d W X R 表示第一组中典型变量解释的变差被第二组中典型变量重复解释

的百分比,简称为第一组典型变量的冗余测度;);(k d V X R 表示第二组中典型变量解释的变差被第一组中典型变量重复解释的百分比,简称为第二组典型变量的冗余测度。

冗余测度的大小表示这对典型变量能够对另一组变差相互解释的程度大小。它将为进一步讨论多对多建模提供一些有用信息。

四 应用例子一康复俱乐20名成员测试数据的典型相关分析

康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高)(数据见以下数据行)。试分析生理指标和训练指标这二组变量间的相关性。

解 使用SAS/STAT 软件中的CANCORR 过程来完成典型相关分析。首先把测试数据生成SAS 数据集,SAS 程序如下:

data da20x6;

input weight waist pulse chins situps jumps@@;

label wight =’体重’ waist=’腰围’ pulse=’脉搏’ chins=’单杠’

situps=’仰卧起坐’ jumps=’跳高’;

cards;

191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115

154 34 64 14 215 105 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 156 33 54 15 225 73 138 33 68 2 110 43 ;

run;

proc canc orr data=da20x6 all vname=’生理指标’wname=’训练指标’;

var weight waist pulse; with chins situps jumps;

run;

DATA步创建康复俱乐部测试数据的SAS数据集(名为DA20X6),它有20个观测,6个变量。

CANCORR过程用于对输入数据集DA20X6做典型相关分析。选项ALL要求输出所有可选择的计算结果;VNAIVIE=给出VAR语句中变量组的标签为生理指标;WNAIVIE=对WITH语句给出的第二组变量规定标签为训练指标。VAR语句列出第一组变量的名字,WITH列出第二组变量的名字。部分计算结果见输出1至输出5。

输出1 均值、标准差和两组变量问的相关系数

—输出1列出6个变量的均值和标准差及生理指标和训练指标之间的相数。理指标和训练指标之间的相关性是中等的,其中WAIST和SITUPS 相关系数最大为-0.6456。

输出2 典型相关分析系数及显著性检验

—输出2给出典型相关分析的一般结果。第一典型相关系数为07956,它比生理指标和训练指标两组间的任一个相关系数都大检验总体中所有典型相关均为O的零假设时显著性概率为0.0635(即Pr>F的值),故在α=0.10的显著水平下,否定所有典型相关为0的假设。也就是至少有一个典型相关是显著的。从后面的检验结果可知,只有第一典型相关系数是显著不等于0的。因此,两组变量相关性的研究可转化为研究第一对典型相关变量的相关性。

输出3 标准化后典型变量的系数

—输出结果中还给出原始变量和标准化变量的典型相关变量的系数。因六个变量没有用相同单位测量,我们来分析标准化后的系数(见输出3)。来自生理指标的第一典型变量V1为(右上角带“*”的变量表示标准化变量):

V1=-0.7754WEIGHT* + 1.5793WAIST* - 00591PULSE*它近似地是WAIST*和4WEIGHT*的加权差,在WAIST*上的权数更大些。V1在PULSE上系数近似为0 来自训练指标的第一典型变量W1为

W1=-0.3495CHINS* - 1054SITUPS* + O.7164JUMPS*它在SITUPS*上的系数最大这一对典型变量主要是反映腰围(WAIST*)和仰卧起坐(SITUPS)的负相关关系。

输出4 典型结构—原始变量和典型变量的相关系数阵

—由输出4可看出来自生理指标的第一典型变量v1与腰围(WAIST)的相关系数为0.92,V与体重(WEIGHT)的相关为0.6206,它们都是正的。但典型变量V1在体重上的系数为负的(-0.7754),即体重在V1的系数和它与V1的相关反号。来自训练指标的第一典型变量Wl与三个训练指标的相关都是负值,其中跳高(JUMPS)在W1的系数(0.7164)和它与Wl的相关(-0.1622)也是反号。因此,体重和跳高在这两组变量中是一个校正(或抑制)变量。

一个变量同典型变量的相关与在典型变量上的系数符号相反似乎是矛盾的。下面以体重为例来说明这一现象,我们知道肥胖性同腰围和体重之间的关系很密切的。一般说来,有理由认为胖的人比瘦的人仰卧起坐的次数少。假定这组样本中没有身高非常高的人,因此体重和腰围之间的相关(0.8702)是很强的。

·腰围大的人倾向于比腰围小的人胖。因此腰围与仰卧起坐为负相关(-0.6456)。

·体重大的人倾向于比体重小的人胖。于是体重与仰卧起坐为负相关(-0.4931)。

考虑用多元回归方法由WAIST*(腰围)和WEIGHT*(体重)来预测SITUPS*(仰卧起坐),得到的回归式为:SITUPS* =0.2833 WEIGHT*– 0.8921 WAIST*,回归式中WEIGHT*系数的符号为正似乎不合理,关于系数的符号可解释如下:·若固定体重的值,腰围大的人倾向于较强壮和较胖,故而仰卧起坐次数少,于是腰围的多元回归系数(-0.8921)应是负的。

·若固定腰围的值,体重大的人倾向于比较高和比较瘦,故而仰卧起坐次数多;因此体重的多元回归系数(0.2833)应为正的。这里体重与仰卧起坐的相关同体重的回归系数符号相反。

因此,第一典型相关一般解释为以体重(WEIGHT)和跳高(JUMPS)作为校正(或抑制)变量来强化腰围(WAIST)和抑卧起坐(SITUPS)之间的负相关关系。

输出5 CANCORR过程产生的典型冗余分析结果

—输出5给出典型冗余分析的结果。我们来分析标准化的方差,第一典型变量vl 可以解释45.08%组内变差,并解释25.84%的另一组(训练指标)的变差;而典型变量wl 可以解释40.81%组内变差,并解释28.54%的另一组(生理指标)的变差。可见第一对典型变量V1和Wl 都不能很好地全面地预测另一组变量。第二和第三对典型变量实际上都没有给出什么信息,三个典型变量解释另一组总变差的累计百分比分别为0.2969和0.2767。

输出5中第4张表格给出训练指标组中各个变量被生理指标变量组提取的前M 个(M=1,2,3)典型变量V1,…,V M 解释变差的累计百分比(即多重相关的平方和:∑=M

k k V Y r 112),(),可以看出只有CHINS(O.3351)和SITUPS(0.4233)可被对

方变量组的第一典型变量Vl 预测,Vl 对JUMPS(O.0167)几乎没有预测能力。从

第3张表格类似可得出,而来自训练指标的第一典型变量Wl对WAIST(O.5421)有相当好的预测能力,对WEIGHT(0.2438)较差,而对PULSE(0.0701)几乎没有预测能力。

[参考文献]

[ 1]王惠文.偏最小二乘回归方法及其应用[M].北京:国肪工业出版社,2000.

[2]高惠璇等.SAs系统SAS/STAT软件使用手册[M].北京:中国统计出版社,1998.

[3] 高惠璇.实用统计方法与SAS系统[M]北京:北京大学出版社,2001.

[4] 高惠璇.统计计算[M]北京:北京大学出版社,1995.

[5]王学民.应用多元分析[M]上海:上海财经大学出版社,1999

描述性统计分析

描述性统计分析在实证研究中的作用及具体软件实现——以SPSS为例为了提升经管代码库(https://www.wendangku.net/doc/855396558.html,/forum-2626-1.html)人气,一大早起床,打算就微观实证分析中描述性统计分析作用及SPSS具体软件实现做个详细的说明,理由如下:一是有坛友在论坛上问:看到很多实证研究在建模前有做描述性统计分析,问做这个有何意义(网址链接:https://www.wendangku.net/doc/855396558.html,/thread-929635-1-1.html),说明有实际需求;二是论坛上也没看见有什么详细阐述这个问题的,说明有实际需求而无有效供给。故而特开此贴,希望能吸引更多对计量实证感兴趣的朋友关注经管代码库,来多多发此类原创帖。不多说,图文并茂的开讲啦! 做用SPSS具体做描述性统计分析前,先简要说一下我个人认为的在实证分析中做描述性统计分析的作用——探究数据分布趋势,找出极端异常值。由于此贴只讲描述性统计分析,故而不对极端异常值对模型的影响,数据分布趋势不是正态进一步详尽处理展开来说,只点到即止,后续帖子陆续补充。 在用SPSS做描述性统计分析前,先截两张实证论文中一般做的描述性统计分析表格。进而可以直观看到我们一般做描述性统计分析要交待哪些统计量。 以上两个表格是常见的描述性统计分析表述表格,一般实证论文中,做描述性统计分析要报告以下4个统计量:均值、标准差、最小值和最大值(有的文章限于表格篇幅,只报道均值和标准差)。问题来了,做了描述性统计分析后,结果要怎么看呢?我们要怎么才能确认结果是好或者不好呢(即变量是否符合正态分布呢)? 这个问题一般看均值和标准差。如果标准差>>均值,那表明数据可能存在极端异常值,这时可能要对数据做进一步的处理。如做箱形图看是否存在极端异常值(头上标*的就是)。然而,一般情况下如果均值和标准差相差不大,如上表中“1998—2003年年均调整地块百分比”这类变量,可以就这样,不用做进一步处理。若存在极端异常值,参见我这篇帖子的处理方法:https://www.wendangku.net/doc/855396558.html,/thread-3569928-1-1.html。 下面用SPSS截图演示怎么做描述性统计分析吧(案例用的SPSS自带文件accidents.sav)。软件操作:分析——描述统计——描述

2020-2021学年人教A版高中数学必修3:2.3.1变量间的相关关系2.3.2两个变量的线性相关

课时分层作业(十四)变量间的相关关 系 (建议用时:60分钟 ) 一、选择题 1.有几组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③立方体的棱长和体积.其中两个变量成正相关的是() A.①③B.②③ C.②D.③ C[①是负相关;②是正相关;③不是相关关系.] 2.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到的回归直线方程为y^=b^x+a^,那么下面说法不正确的是() A.直线y^=b^x+a^必经过点(x,y) B.直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点 C.直线y^=b^x+a^的斜率为∑ i=1 n x i y i-n x y ∑ i=1 n x2i-n x2 D.直线y^=b^x+a^是最接近y与x之间真实关系的一条直线 B[回归直线一定经过样本点的中心,故A正确;直线y^=b^x+a^可以不经过样本点中的任何一点,故B错误.由回归方程的系数可知C正确;在直角坐标系中,直线y ^=b^x+a^与所有样本点的偏差的平方和最小,故D正确;] 3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y与x负相关且y ^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;

③y与x正相关且y ^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578. 其中一定不正确的结论的序号是() A.①②B.②③ C.③④D.①④ D[由正负相关的定义知①④一定不正确.] 4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子身高数据如下: 则y对x A.y=x-1 B.y=x+1 C.y=88+1 2x D.y=176 C[x=174+176+176+176+178 5=176,y= 175+175+176+177+177 5= 176.根据回归直线过样本中心点(x、y)验证知C符合.] 5.某产品的广告费用x与销售额y的统计数据如下表: 根据上表可得回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时,销售额为() A.63.6万元B.65.5万元 C.67.7万元D.72.0万元 B[x=1 4(4+2+3+5)=3.5,y= 1 4(49+26+39+54)=42,所以a ^=y-b^ x=42-9.4×3.5=9.1.所以回归方程为y^=9.4x+9.1.令x=6,得y^=65.5(万元).] 二、填空题 6.若回归直线y^=b^x+a^的斜率估值为1.23,样本中心点为(4,5),当x=2时,估计y的值为________. 2.54[因为回归直线y^=b^x+a^的斜率估值为1.23,所以b^=1.23,y^=1.23x+a^.

第十章 单变量描述统计

第十章单变量的描述统计 调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。 一、变量的分布(Distributions) 变量的分布分为两类,一类是频数分布,一类是频率分布。频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。 1、统计表 (1)统计表就是以表格的形式来表示变量的分布。如下表所示: 表9-1甲校学生的父亲职业 职业 f p 工人农民干部152 288 110 0.276 0.524 0.200 27.6 52.4 20.0 总数550 1.000 100.0 数值中的小数的取舍: 通俗的做法是“四舍五入”。“四舍”没有问题,但无原则的“五入”就会产生一定的误差。例如数值6.25、4.45、3.75、和7.15的总合是21.60。如果对原数的最后一位小数作简单的四舍五入,原数就变成 6.3、4.5、3.8、7.2,其总合是21.8,把原来的总合变大了。近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。

用SPSS对计数数据进行统计分析和检验

第七节计数数据统计分析的SPSS操作 对于计数数据的统计分析,SPSS提供了不同的分析和检验方法,从总体上来说,大致可以分为:用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。 一、二项分布的非参数检验方法 我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。此时即可用二项分布(Binomial)方法进行检验。下面结合具体数据说明Binomial方法在检验比率差异时的应用。 1.数据 所用数据文件为SPSS目录下之GSS93 subset.sav。这里我们将该数据文件另寸为“8-6-1.sav”。该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。 2.理论分析 从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于0.5,可以用比例检验的方法进行检验。在SPSS中对应于二项分布的检验(Binomial Test)过程。 3.二项分布检验过程 (1)打开该数据文件后点击菜单Analyze,在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial…,单击可进入二项检验(Binomial Test)的主菜单。把SEX变量选入到检验变量表列

中,其他选项请保持默认(图8-1)。 图8-1:二项分布检验主对话框 (2)请单击Options…按钮,打开对话框如图8-2所示。在此我们想同时在结果中输出一些描述 统计量及百分位数,可设置如图所示。设置完成单击Continue按钮回到主对话框。 图8-2:二项分布Options窗口 (3)在主对话框中点击OK得到程序运行结果。 4.结果及解释 (1)输出数据描述统计量信息 NPar Tests Descriptive Statistics N Mean Std. Deviation Minimum Maximum Percentiles 25th 50th (Median) 75th Respondent 's Sex 1500 1.57 .49 1 2 1.00 2.00 2.00 在描述统计表中,程序提供了样本容量、平均数、标准差、极值及三个百分位数。 (2)输出二项分布检验结果 Binomial Test Category N Observed Prop. Test Prop. Asymp. Sig. (2-tailed) Respondent's Sex Group 1 Male 641 .43 .50 .000

统计学依据数据的计量尺度

统计学依据数据的计量尺度将数据划分为三类:定距型数据(Scale )、定序型数据(Ordinal )、 定类型数据(Nominal )。 定距型数据通常是指诸如身高、体重、血压等的连续型数据,也包括诸如人数、商品件数等 离散型数据; 定序型数据具有内在固有大小或高低顺序,但它又不同于定距型数据,一般可以数值或字符 表示。如职称变量可以有低级、中级、高级三个取值,可以分别用1、2、3等表示,年龄 段变量可以有老、中、青三个取值,分别用 A B C表示等。这里,无论是数值型的1、2、3还是字符型的ABC,都是有大小或高低顺序的,但数据之间却是不等距的。因为,低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的; 定类型数据是指没有内在固有大小或高低顺序,一般以数值或字符表示的分类数据。如性别 变量中的男、女取值,可以分别用1、2表示,民族变量中的各个民族,可以用汉’回''满' 等字符表示等。这里,无论是数值型的1、2还是字符型的汉’回'满'都不存在内部固有 的大小或高低顺序,而只是一种名义上的指代。 我觉得教育年限应该设置成定距型数据( Scale )吧。因为,教育年限应该是一个连续的变 量,它不存在内在的大小或高低顺序问题。 将可变的数量标志抽象化就称其为变量,其取值称为变量值或标志值。变量分为确定性变量 和随机变量。确定性变量是指受必然性因素的作用,各变量值呈现出上升或下降惟一方向性 变动的变量;随机变量是指受偶然性因素的作用,变量值呈现出随机的混沌状态变动的变量。。根据变量的取值是否连续划分,有连续型变量和离散型变量。连续型变量是指在一个取值区间内可取无穷多个值。连续型变量值要用测量或计算的方法取得;离散型变量是指在 一个取值区间内变量仅可取有限个可列值。离散型变量值只能用计数的方法取得。 离散变量是指其数值只能用自然数或整数单位计算的则为离散变量?例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得? 反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值?例如住产零件的规格尺寸,人体测量的身高,体重胸围等为连续变量,其数值只能用测量或计量的方法取得? 如果变量可以在某个区间内取任一实数,即变量的取值可以是连续的,这随机变量就称为连 续型随机变量, 1)无偏性。无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为0,所选择的估计量为B?如果E( 0 ?)=称,B ?为0的无偏估计量。 (2)有效性。一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须与总体参数的离散程度比较小。假定有两个用于估计总体参数的无偏估计量,分别用m1和 m2表示,它们的抽样分布的方差分别用 D ( m1 )和D ( m2 )表示,如果m1的方差小 于m2的方差,即D ( m1) < D (m2 ),我们就称m1是比m2更有效的一个估计量。在无 偏估计的条件下,估计量方差越小估计也就越有效。(3) —致性,是指随着样本量的增大,

多变量统计分析的应用

阻碍台湾地区产险业经营绩效因素之研究- 多变量统计分析之应用 A Study on Factors influencing the performance of Property-Liability Insurance Industry in Taiwan-An Application of Multivariate Statistical Analysis 廖振盛 淡江大学财务金融所 张瑞玲 万能科技大学企业治理系 摘要 本文应用多变量统计分析评估台湾地区本国与外商产险公

司之绩效阻碍因素,研究方法包括因素分析、区不分析、集群分析等方法进行研究实证。结果显示阻碍产险公司绩效因素依序分不为「资产品质因素」、「业务性因素」、「市场规模因素」、「获利性因素」、「资本适足性分析」、「治理能力因素」、「投资能力因素」等因素,本国产险公司着重于治理能力、市场规模与投资能力因素;外商产险公司则着重于业务性因素。另一方面,市占率关于产险业绩效的阻碍,并不一定是正面的。 关键词:产险业、因素分析、区不分析、集群分析 Abstract This study uses Multivariate Statistical Analysis to discover and evaluate the factors influencing the performance of the domestic and foreign-owned property-liability insurance industry. The multivariate statistical techniques include factor analysis, discriminate analysis and cluster analysis. Overall, the results indicate that the influencing factors of the

描述统计学

2. 数据汇总Summarizing Data 频数分布与图形展示 本章和下一章讨论有关统计描述的问题。关于收集、组织、展示数值数据的方法。其中包括描述各种数据分布,各种统计图形的使用,描述数据的各种指标,如平均值、期望值、方差等等。 2.1 频数分布Frequency distribution 为了进行决策或推断,我们需要信息。例如,为了进行制定有关销售方面的决策需要了解员工的实际销售情况,或者说要获得有关销售的信息。获得了数据以后,就需要对数据进行组织,也就是将数据组织成容易观察的形式。然后就是展示数据,通常都是以图形的方式。最后就可以得出关于这一组数据的结论,并将这些结论用于决策。 一种常用的方式是首先获得一组原始数据。将这组数据组织成数组,即将数据从大到小或从小到大进行排序。然后将其总结成一组频数分布。也就是将这一数组按一定的间隔进行计数,清点出位于每一间隔中的数据出现的次数。这样就获得了频数表或频数分布。 频数分布就是一张显示一组数据位于每一独立区间间隔内的次数的数据表格。频数分布也称为频数表。 频数分布又可以划分为定性数据的频数分布和定量数据的频数分布。一般我们主要对定量数据进行频数分布研究。 为了建立一频数分布,我们需要确定: ? 间隔的数量, ? 间隔的长度(或宽度), ? 间隔的边界,或者说是划分间隔的位置 然后我们就可以清点落在每一间隔中的数值。 例: PP28表2-2显示了一个频数分布。 确定间隔长度(或宽度)的公式为: 间隔数量 最小值 最大值估计的间隔长度-= 在此,如果间隔数量选为8,则间隔的长度应该为: 813.88 26000 96500=-= 估计的间隔长度 当然,这个数值看起来不太好,所以可以取整为9000或10000。 如果我们不能确定应该用多少个间隔数量,则可以通过下列估计间隔长度的公式进行计算:

数值变量资料的统计分析

第九章数值变量资料的统计分析 A型选择题 1、中位数是表示变量值()的指标。 A.平均水平 B.变化范围 C.频数分布 D.相互间差别大小 E.变异程度 2、血清学滴度资料最常计算()来表示平均水平。 A.算术均数 B.中位数 C.几何均数 D.全距 E.百分位数 3、最小组段无下限或最大组段无上限的频数分布资料宜用 A.算术均数 B.中位数 C.几何均数 D.全距 E.标准差 4、利用频数分布表资料及公式M=L+i f ( 2 n -c)计算中位数时,()。 A.要求组距相等 B.不要求组距相等 C.要求数据分布对称 D.要求数据呈对数正态分布 E.不能有不确定数值 5、原始数据(x≠0,M≠0)同除一个既不等于0也不等于1的常数后() A.x不变不变,M变 B.x变,M不变 C.x和M都不变

D.x和M都变 E.不能判定 6、原始数据同减去一个不等于零的常数后,()。 A.x不变,S变 B.x变,S不变 C.x和S都不变 D.x和S都变 E.以上均不对 7、来自同一总体的多个样本平均数,下面统计指标中哪种小时用该样本平均数估计总体均数时更可靠 A.CV S B. X C.S D.X E.R 8、变异系数CV()。 A.表示X的绝对离散度 B.表示X的相对离散度 C.表示x的绝对离散度 D.表示x的相对离散度 E.以上均不对 9、描述一组偏态分布资料的变异度,以(……)指标较好。 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.均数 10、用均数和标准差可以全面描述(……)资料的特征。 A.正偏态分布 B.负偏态分布

C.正态分布和近似正态分布 D.分布不知 E.对数正态分布 11、比较身高和体重两组数据变异度大小宜采用() A.变异系数 B.标准差 C.四分位数间距 D.全距 E.方差 12、以下指标中()可以用来描述计量资料的离散程度 A.算术均数 B.中位数 C.几何均数 D.众数 E.全距 13、偏态分布宜用()描述其分布的集中趋势 A.算术均数 B.标准差 C.中位数 D.众数 E.百分位数 14、各观察值同乘以一个不等于0的常数后,()不变。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 E.变异系数 15、()分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 E.以上均不对 16、对数正态分布是一种()分布。 A.正态

多组和分类数据的描述性统计分析

§3.2多组和分类数据的描述性统计分析17 ?盒子图 盒子图能够直观简洁地展现数据分布的主要特征.我们在R 中使用boxplot()函数作盒子图.在盒子图中,上下四分位数分别确定中间箱体的顶部和底部,箱体中间的粗线是中位数所在的位置.由箱体向上下伸出的垂直部分为“触须”(whiskers),表示数据的散布范围,其为1.5倍四分位间距内距四分位点最远的数据点.超出此范围的点可看作为异常点(outlier). §3.2多组和分类数据的描述性统计分析 在对于多组数据的描述性统计量的计算和图形表示方面,前面所介绍的部分方法不能够有效地使用,例如许多函数都不能直接对数据框进行操作.这时我们需要一些其他的函数配合使用. 1.图形表示: ?散点图:前面介绍的plot,可直接对数据框操作.此时将绘出数据框中所对应的所有变量两两之间的散点图.所做图框中第一行的散点图是以第一个变量为纵坐标,分别以第二、三...个变量为横坐标的散点图.这里数据举例说明. library(DAAG);plot(hills) ?盒子图:前面介绍的boxplot,亦可直接对数据框操作,其在同一个作图区域内画出各组数的盒子图.但是注意,此时由于不同组数据的尺度可能差别很大,这样的盒子图很多时候表达出来不是很有意义.boxplot(faithful).因此这样做比较适合多组数据具有同样意义或近似尺度的情形.例如,我们想做某一数值变量在某个因子变量的不同水平下的盒子图.我们可采用类似如下的命令: boxplot(skullw ~age,data=possum),亦可加上参数horizontal=T,将该盒子图横向放置. boxplot(possum$skullw ~possum$sex,horizontal=T) ?条件散点图:当数据集中含有一个或多个因子变量时,我们可使用条件散点图函数coplot()作出因子变量不同水平下的多个散点图,当然该方法也适用于各种给定条件或限制情形下的作图.其调用格式为 coplot(formula,data)比如coplot(possum[[9]]~possum[[7]] possum[[4]]),或 coplot(skullw ~taill age,data=possum); coplot(skullw ~taill age+sex,data=possum)

6.示范教案(2.3.2--两个变量的线性相关)

变量间的相关关系 2.3.1 变量之间的相关关系 2.3.2 两个变量的线性相关 整体设计 教学分析 变量之间的关系是人们感兴趣的问题.教科书通过思考栏目“物理成绩与数学成绩之间的关系”,引导学生考察变量之间的关系.在教师的引导下,可使学生认识到在现实世界中存在不能用函数模型描述的变量关系,从而体会研究变量之间的相关关系的重要性.随后,通过探究人体脂肪百分比和年龄之间的关系,引入描述两个变量之间关系的线性回归方程(模型).教科书在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使学生了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性,并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性. 三维目标 1.通过收集现实问题中两个有关联变量的数据认识变量间的相关关系. ) 2.明确事物间的相互联系.认识现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并利用散点图直观体会这种相关关系. 3.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程. 重点难点 教学重点:通过收集现实问题中两个有关联变量的数据直观认识变量间的相关关系;利用散点图直观认识两个变量之间的线性关系;根据给出的线性回归方程的系数公式建立线性回归方程. 教学难点:变量之间相关关系的理解;作散点图和理解两个变量的正相关和负相关;理解最小二乘法的思想. 课时安排 2课时 教学过程 、 第1课时 导入新课 思路1 在学校里,老师对学生经常这样说:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一种相关关系.这种说法有没有根据呢 学生讨论:我们可以发现自己的数学成绩和物理成绩存在某种关系.(似乎就是数学好

第二章 单变量统计描述分析

社专本111 2011761114 梁雪彩 P59第二章单变量统计描述分析 六、根据以下统计资料: (汉族,50,000) (苗族,22,000) (布依,20,000) (藏族,1,000) 问:(1)能做成那些统计图? (2)如果做成条形图,对变量值的排列是否有要求? 答:(1)能做成条形图和圆饼图 (2)如果做成条形图,对变量的排列没有要求,因为题目中的统计资料是定类变量,长条排列次序可以任意,定类变量无大小、高低次序之分。 七、根据以下资统计料: (老年,1,000) (中年,2,000) (青年,5,000) 问:(1)能否做成直方图?为什么? (2)如果做成条形图,对变量值的排列是否有要求? 答:(1)不能,因为上述为定序变量,定距变量才能做成直方图。 (2)如果做成条形图,对变量的排列有要求,因为题目中的统计资料是定序变量,长条按序排列,定序变量有大小、高低次序之分。 十三、以下是某班参加业余活动的情况的调查: C=“书社”P=“摄影组” J=“舞蹈团”O=“体育组” C C C P O P C C C P O O P C O C P C C P O C P C C O C J C O O C P C C O O O O P O C O O O O P O P P (1)试作统计图和统计表 某班参加业余活动情况的条形图

某班参加业余活动情况的圆饼图: 表1.1某班参加业余活动情况的调查表 (2)选择适当的集中值和离散值,并讨论之。 集中值 众值M0=书社则可知参加书社业余活动的人数最多

中位值Md=N+1/2=25.5 中位值Md=摄影组 均值=19+12+1+18/4=12.5 离散值 异众比率r=(N-fm0)/N=50-19/50=0.62 异众率比较高,则认为总数的代表性较差,所提供的信息量较少。 极差:R=观察的最大值-观察的最小值=18 极差大表示资料分散,人们选择的业余活动的人数有比较大的差异。 四分互差Q=Q75-Q25 Q50 的位置=50+1/2=25.5 Q25的位置=50+1/4=12.75 Q75的位置=3(50+1)/4=38.25 Q25=书社Q75=体育组 四分互差Q=Q75-Q25=体育组-书社 可知有50%的人选择体育组和书社这两项活动方差=[(19-12.5)^2+(12-12.5)^2+(1-12.5)^2+(18-12.5) ^2]/4=51.31 标准差=7.16

论文中数据的统计学问题

论文撰写中要注意的统计学问题(转) (一、均值的计算 在处理数据时,经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时,往往我们会不假思索地直接给出算术平均值和标准差。显然,这种做法是不严谨的。 这是因为作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等多个。至于该采用哪种均值,不能根据主观意愿随意确定,而要根据随机变量的分布特征确定。 反映随机变量总体大小特征的统计量是数学期望,而在随机变量的分布服从正态分布时,其数学期望就是其算术平均值。此时,可用算术平均值描述随机变量的大小特征;如果所研究的随机变量不服从正态分布,则算术平均值不能准确反映该变量的大小特征。在这种情况下,可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布,则几何平均值就是数学期望的值。此时,就可以计算变量的几何平均值;如果随机变量既不服从正态分布也不服从对数正态分布,则按现有的数理统计学知识,尚无合适的统计量描述该变量的大小特征。此时,可用中位数来描述变量的大小特征。 因此,我们不能在处理数据的时候一律采用算术平均值,而是要视数据的分布情况而定。 二、直线相关与回归分析这两种分析,说明的问题是不同的,既相互又联系。在做实际分析的时候,应先做变量的散点图,确认由线性趋势后再进行统计分析。一般先做相关分析,只有在相关分析有统计学意义的前提下,求回归方程才有实际意义。一般来讲,有这么两个问题值得注意: 定要把回归和相关的概念搞清楚,要做回归分析时,不需要报告相关系数;做相关分析的时候,不需要计算回归方程。 三、相关分析和回归分析之间的区别 相关分析和回归分析是极为常用的2种数理统计方法,在环境科学及其它研究领域有着广泛的用途。然而,由于这 2种数理统计方法在计算方面存在很多相似之处,因此在应用中我们很容易将二者混淆。

人教版高中数学-两个变量的线性相关

《2.3.2两个变量的线性相关》 一、内容和内容解析 本节课是人教A版高中数学必修三2.3.2两个变量的线性相关的第二课时。上节课通过大量的生活实例,学生已经初步认识两个变量间的相关关系,并可以借助散点图呈现收集的数据。通过对单变量样本数据中“平均数的几何意义”(切合学生的认知需要)的介绍,为本节课的内容做了铺垫。本节课的主要内容是用最小二乘法求线性回归方程,基础知识是回归直线的概念,也是本节课的核心概念;基本思想是“最小二乘法”思想;根据线性回归方程的系数公式求回归直线是本节课的基本技能. 就统计学科而言,对不同的数据处理方法进行“优劣评价”是“假设检验”的萌芽,而后者是统计学学科研究的另一重要领域.了解“最小二乘法”思想,比较各种“估算方法”,体会它的科学性,既是统计学教学发展的需要,又在体会此思想的过程中促进学生对核心概念的进一步理解.“样本估计总体”是本节课的上位思想也是整个第二章的核心思想,而“最小二乘法思想”作为本节课的核心思想,由此得以体现.回归思想和贯穿统计学科中的随机思想,也在本节课中有所渗透. 本节课通过引导学生经历“收集数据——整理数据(作散点图)——探究并确定回归直线的数学意义——求回归直线方程——应用”完整的回归分析的过程,鼓励学生独立思考、自主探究、合作交流和计算机操作等方式展开学习,从而发挥本节课的育人价值。整个学习过程渗透了数据分析和数学建模的核心素养。通过引导学生对散点图中的点大致分布在一条直线附近的观察,渗透直观想象的核心素养;通过尝试提出找回归直线的想法、用自己的语言描述对这条直线的初步认识到探究从数学的角度定义回归直线的过程,渗透数学抽象和逻辑推理的核心素养;最后,根据回归直线方程的系数公式,引导学生先求出公式中的基本统计量,再代入公式的过程和指导学生利用Excel电子表格求回归方程的过程,提升数学运算的核心素养。 基于上述内容分析,本节课的教学重点为:了解最小二乘法思想,并能根据给出的线性回归方程的系数公式,建立线性回归方程 二、目标和目标设置 基于对本节课教学内容的解析,结合《普通高中数学课程标准(2017年版)》的要求,制定本节课的教学目标如下: 1.了解一元线性回归模型的含义: (1)能根据散点图解释两个相关变量的线性相关关系; (2)能用自己的语言解释回归直线的统计意义; 2.了解最小二乘原理: (1)经历用不同方法确定回归直线的过程,能认识到回归直线是“从整体上看,各点与此直线上的点的距离最小”的直线; (2)能用数学符号刻画“从整体上看,各点与此直线上的点的距离最小”的表达方式; (3)通过对表达方式的转化(距离最小到偏差平方和最小),体会最小二乘法原理,并能用自己的语言表述; 3. 针对实际应用问题,能根据给出的线性回归方程系数公式建立线性回归方程; 4. 在经历完整的线性回归分析的过程中,重点提升数据分析和数学建模核心素养; 5. 针对实际应用问题,会用一元线性回归模型进行预测.

单变量描述统计

单变量描述统计公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

第十章单变量的描述统计 调查所得的原始资料经过审核、整理与汇总后,还需要进行系统的统计分析,才能揭示出调查资料所包含的众多信息,才能得出调查的结论。根据变量数量的差别统计分析划分为单变量分析、双变量分析和多变量分析。在这一讲中我们先介绍单变量的统计分析。 单变量统计分析可以分为两个大的方面,即描述统计和推论统计。描述统计是用最简单的概括形式反映出大量数据资料所容纳的基本信息。推论统计是用样本调查中所得到的数据资料来推断总体的情况。这一讲我们讲解单变量的描述统计方法。 一、变量的分布 (Distributions) 变量的分布分为两类,一类是频数分布,一类是频率分布。频数分布就是变量的每一取值出现的次数;频率分布是用变量每一取值的频数除以总个案数,它是一个相对指标,可以用来比较不同样本。频数分布与频率分布一般以统计表与统计图的形式表达。 1、统计表 (1)统计表就是以表格的形式来表示变量的分布。如下表所示: 表9-1甲校学生的父亲职业

数值中的小数的取舍: 通俗的做法是“四舍五入”。“四舍”没有问题,但无原则的“五入”就会产生一定的误差。例如数值、、、和的总合是。如果对原数的最后一位小数作简单的四舍五入,原数就变成、、、,其总合是,把原来的总合变大了。近代统计学有一项新原则,就是“前单五入”,即“五”前面是单数就进位,若是双数就舍掉(0也算双数)。 (2)对于定序及以上层次的变量我们更多的是使用累加频数和累加频率。如下所示: 表9-2甲校学生之父亲教育水平 2、统计图 统计图是以图形表示变量的分布情况。与统计表相比,统计图更直观、生动、醒目,但不够精确。统计图有圆瓣图、条形图、直方图和折线图。 (1)圆瓣图:多用于描述定类变量的分布,主要目的为显示各部分在整体中所占的比重,以及各部分之间的比较。如表9-1的资料可用下图(图1)所示:

多变量描述统计分析交叉表分析法

多变量描述统计分析 交叉表分析法 一、交叉表分析法的概念 交叉表(交叉列联表)分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。当交叉表只涉及两个定类变最时,交叉表又叫做相依表。 交叉列联表分析易于理解,便于解释,操作简单却可以解释比较复杂的现象, 因而在市场调查中应用非常广泛。 频数分布一次描述一个变量,交叉表可同时描述两个或更多变量。交叉表法的起点是单变量数据,然后依研究日的将这些数据分成两个或多个细目。 下面是一个描述交叉表法应用的例子。 某保险公司对影响保户开车事故率的因素进行调研,井对各种因素进行了交叉表分析. 驾驶员的事故率 表 样就出现了二维交叉表2。 这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要高。但人们会提出这样的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。这样就引出第三个因素"驾驶距离",于是岀现了三维交叉表3。 结果表明,男士驾驶者的高事故率是由于他们的驾驶距离较女士长,但并没有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。 二、两变量交叉列联表分析 例如.研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间

的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。如表4 所 示。 表居住时间与对百货商场的熟悉程度的交叉列联分析(频数) 那么,到底居住时间与对商场的熟悉程度有没有关系呢?由表4可见,居住时 间低于30年的居民比居住时间在30年以上的居民似乎更熟悉百货商场。进一步计算岀百分比.则可以看得更直观一些。见表5。 表5 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般的规则是,在自变量的方向上.对因变量计算百分比。 以表5为例,居住时间为自变量,对商场的熟悉程度为因变量,因而可以对各居住时间分别计算熟悉程度的百分比。由表5可见,53. 6%的居住时间低于13 年的人 和60. 9%的居住时间在13年~30年的人都熟悉该商店,而只有32. 9%的居住时间 在30年以上的人熟悉该商店。看来,同样住在该地区的人,居住时间越长. 对购物环 境反而更不熟悉。这个结论是有一定道理的,在一个地方居住很长时间的人一般相对 来说更没有动力去熟悉该商场。 如果我们在因变量的方向上对自变量计算百分比(如表6所示),则显然没意 义。 表6 居住时间与对百货商场的熟悉程度的交叉列联分析(%) 表6暗示,对当地商场不熟悉会影响居民在该地的居住时间,这显然是不合理的。但是,居住时间与对百货商场的熟悉程度之间的联系可能受第三变量的影响,例如年龄。居住时间越长的人可能年龄越大。尽管分析结果表明年龄在此不是影响因素,但由此可见需要检查第三因素的影响。 三、三变量的交叉列联表分析 引入第三变量后再进行交叉列联分析,则可能出现以下四种结果: (1)剔除外部环境的影响,使原先两变量间的关系更单纯。例如,在表7中, 仅分析婚姻状况和衣服支岀水平这两个变量时,从数字上看未婚者在衣服支出方面比 已婚者更高一些。但引入变量性别以后,发现对于男性来说,已婚者与未婚者在衣服 支岀方面没有显著差异,但对于女性未婚者与已婚者,在衣服支出方面的差异则很明显。见表8。

两个变量的相关关系

两个变量间的相关关系 变量间的相互关系有两种:一类是确定性的函数关系,如正方形的边长和面积的关系;另一类是变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的.例如,学生的总成绩和他的单科成绩,一般说来“总成绩高者,单科成绩也高”,我们说总成绩和单科成绩具有相关关系.相关关系又分为两种:(1)正相关:两个变量具有相同的变化趋势.(2)负相关:两个变量具有相反的变化趋势. 对相关关系的理解可以从下面三个角度把握: 相关关系的概念:自变量取值一定时,因变量的取值带有一定的随机性,则两个变量之间的关系叫做相关关系. 对相关关系的理解应当注意以下几点: 其一是相关关系与函数关系不同.因为函数关系是一种非常确定的关系,而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.而函数关系可以看成是两个非随机变量之间的关系.因此,不能把相关关系等同于函数关系. 相关关系与函数关系的异同点为: 相同点:均是指两个变量的关系. 不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系.函数关系是自变量与函数值之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系. 其二是函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如,有人发现,对于在校儿童,鞋的大小与阅读能力有很强的相关关系.然而,学会新词并不能使脚变大,而是涉及到第三个因素——年龄.当儿童长大一些,他们的阅读能力会提高而且由于长大脚也变大. 其三是在现实生活中存在着大量的相关关系,如何判断和描述相关关系,统计学发挥着非常重要的作用.变量之间的相关关系带有不确定性,这需要通过收集大量的数据,对数据进行统计分析,发现规律,才能作出科学的判断. 我们再来认识生活中的确定两个变量间的相关关系的两个例子: 【例1】“名师出高徒”可以解释为教师的水平越高,学生的水平也越高.那么,教师的水平与学生的水平成什么相关关系?你能举出更多的描述生活中的两个变量的相关关系的成语吗? 解析:“名师出高徒”的意思是说有名的教师一定能教出高明的徒弟,通常情况下,高水平的教师有很大的趋势教出高水平的学生.所以,教师的水平与学生的水平成正相关关系.生活中这样的成语很多,如“龙生龙,凤生凤,老鼠的孩子会打洞”. 【例2】历史上,有人认为人们的着装与经济好坏有关系,着装越鲜艳,经济越景气.你认为着装与经济真的有这种相关关系吗? 解析:人们的着装只能反映个人的爱好以及个人心情状况,与经济的好坏没有任何关系,并不能反映经济的景气与否.所以,着装与经济并没有“着装越鲜艳,经济越景气”这种相关关系.

关于描述性统计分析

关于描述性统计分析 作者:记忆de&#…文章来源:csdn blog 点击数:156 更新时间:2007-2-12 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Anal ysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之

间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。 (3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。 (5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 示例SIM手机描述性统计分析 为简化起见,我们只分析SIM手机用户满意调查中的两个变量:“总体感知质量”和“总体满意度”变量。 (1)数据的频数分析 用SPSS软件的频数分析可以很容易地画出两个变量的频数图:

样本特征描述统计分析模板

表5-4 变量描述统计表 变量类型变量样本数均值标准差最小值最大值购买意愿willingness 382 0.727 0.446 0 1 认知与信任度trust 382 2.015 0.706 1 3 price 382 0.496 0.500 0 1 health 382 0.421 0.494 0 1 energy 382 1.992 0.768 1 3 exhau 382 0.452 0.498 0 1 quality 382 2.259 0.654 1 3 label 382 0.513 0.500 0 1 speed 382 2.172 0.757 1 3 信息来源source2 382 0.269 0.444 0 1 source3 382 0.256 0.437 0 1 source4 382 0.164 0.371 0 1 source5 382 0.104 0.306 0 1 family 382 0.493 0.501 0 1 info 382 0.513 0.500 0 1 friend 382 0.403 0.491 0 1 信息正反性exper 382 0.486 0.500 0 1 易得性promo 382 0.473 0.499 0 1 avail 382 0.413 0.493 0 1 个人特征age 382 34.018 11.718 18 62 gender 382 0.497 0.501 0 1 marital 382 0.536 0.499 0 1 income 382 37.448 16.212 2.3 98 employ2 382 0.261 0.440 0 1 employ3 382 0.232 0.423 0 1 数据来源:本研究计算整理,2013. 5.3样本描述统计分析 5.3.1被调查消费者基本情况 5.3.1.1被调查消费者年龄情况 如图5-1所示,根据调查结果,被调查的消费者中,25岁以下的有77人,占被调查对象的20%;25到35岁的被调查消费者较多为153人,占了40%;35到45岁的68人,占了18%;45到55岁的53人,占了14%;55岁及以上的31人,占了8%。

相关文档
相关文档 最新文档