文档库 最新最全的文档下载
当前位置:文档库 › matlab与多元统计分析

matlab与多元统计分析

matlab与多元统计分析
matlab与多元统计分析

Matlab 与多元统计分析

胡云峰 安庆师范学院

第三章习题

3.1对某地区的6名2周岁男婴的身高、胸围、上半臂进行测量。得样本数据如表3.1所示。

假设男婴的测量数据X (a )(a=1,…,6)来自正态总体N 3(μ,∑) 的随机样本。根据以往的资料,该地区城市2周岁男婴的这三项的均值向量μ0=(90,58,16)’,试检验该地区农村男婴与城市男婴是否有相同的均值向量。

表3.1 某地区农村2周岁男婴的体格测量数据

1.预备知识 ∑未知时均值向量的检验: H 0:μ=μ0 H 1:μ≠μ0

H 0成立时

122)(0,)(1)(1,)

()'((1)))()'()(,1)(1)1(,)

(1)P P X N n S W n n X n S X n X S X T p n n p T F P n p n p

μμμμμ---∑--∑??∴----=-----+∴-- 当

2

(,)(1)

n p T F p n p p n α-≥--或者22T T α≥拒绝0H

2

(,)(1)

n p T F p n p p n α-<--或者22T T α<接受0H

这里2

(1)

(, )p n T F p n p n p

αα-=

--

2.根据预备知识用matlab 实现本例题 算样本协方差和均值

程序x=[78 60.6 16.5;76 58.1 12.5;92 63.2 14.5;81 59.0 14.0;81 60.8 15.5;84 59.5 14.0]; [n,p]=size(x); i=1:1:n;

xjunzhi=(1/n)*sum(x(i,:));

y=rand(p,n); for j=1:1:n

y(:,j)= x(j,:)'-xjunzhi'; y=y; end

A=zeros(p,p); for k=1:1:n;

A=A+(y(:,k)*y(:,k)'); end

xjunzhi=xjunzhi' S=((n-1)^(-1))*A 输出结果xjunzhi =

82.0000 60.2000 14.5000 S =

31.6000 8.0400 0.5000 8.0400 3.1720 1.3100 0.5000 1.3100 1.900 然后u=[90;58;16];

t2=n*(xjunzhi-u)'*(S^(-1))*(xjunzhi-u) f=((n-p)/(p*(n-1)))*t2 输出结果t2 = 420.4447 f =

84.0889

所以2

1

()'()T n X S X μμ-=--=420.4447

2

(1)

n p F T p n -=

-=84.0889

查表得F 3,3(0.05)=9.28<84.0889 F 3,3(0.01)=29.5<84.0889 因此在a=0.05或 a=0.01时拒绝0H 假设

3.2 相应于表3.1再给出该地区9名2周岁女婴的三项指标的测量数据如表3.2所示。假设

女婴的测量数据Y (a)(a=1,…,9)来自正态总体N 3(μ,∑)的随机样本。试检验2周岁男婴与女

婴的均值是有无显著差异

表3.2 某地区农村2周岁女婴体格测量数据

1. 预备知识

有共同未知协方差阵∑时

012:H μμ= 112:H μμ≠

在0H 成立的情况下且两样本独立

1112)(0,)(2)(1)(1)(2,)(2))((2)))))()'()(,2)21(P X Y P

X Y N n m S n S m S W n m n m n m S n m T P n m n m

n m p p n ---?-∑?

?

?+-=-+-+-∑?'??

∴+--+--??

??

'??

=--??

???=--+-++--+∴X Y X Y X Y S X Y X Y S X Y 2(,1)

2)

T F P n m p m +--+- 给定检验水平α,查F 分布表,使{}p F F αα>=,可确定出临界值αF ,再用样本值计算出F ,若F F α>,则否定0H ,否则接受0H 。 2.根据预备知识用matlab 实现本例题 由上一题知道 xjunzhi =

82.0000

60.2000

14.5000

Sx =

31.6000 8.0400 0.5000

8.0400 3.1720 1.3100

0.5000 1.3100 1.900

类似程序

xjunzhi=[82;60.2;14.5];

Sx=[31.6 8.04 0.5;8.04 3.1720 1.3100;0.5 1.31 1.9];

n=6;

y=[80.0 58.4 14.0;75.0 59.2 15;78 60.3 15;75.0 57.4 13.0;79 59.5 14.0;78 58.1 14.5;75 58.0 12.5;64 55.5 11.0;80 59.2 12.5];

[m,p]=size(y);

i=1:1:m;

yjunzhi=(1/m)*sum(y(i,:));

z=rand(p,m);

for j=1:1:m

z(:,j)= y(j,:)'-yjunzhi';

z=z;

end

B=zeros(p,p);

for k=1:1:m;

B=B+(z(:,k)*z(:,k)');

end

Sy=((m-1)^(-1))*B;

yjunzhi=yjunzhi'

S=(1/(n+m-2))*((n-1)*Sx+(m-1)*Sy)

得到结果yjunzhi =

76.0000

58.4000

13.5000

S =

27.2308 6.5615 2.8462

6.5615 2.4323 1.4000

2.8462 1.4000 1.8462

然后

t=((n*m)/(n+m))*((xjunzhi-yjunzhi)')*(S^(-1))*(xjunzhi-yjunzhi)

F=((n+m-p-1)/(p*(n+m-2)))*t

输出结果t =5.3117

F =1.4982

查表得F0.05(3,11)=3.59>1.4982 F0.01(3,11)=6.22>1.4982

H假设

因此在a=0.05或a=0.01时接受

第四章习题

4.1 下表列举某年级任取12名学生的5门主课的期末考试成绩,试绘制学生序号为1、2、11、12的轮廓图、雷达图。

解我们只需要数据如下

1999493100100

29988969997

117672436778

128575503437

1 利用matlab画轮廓图

程序x=1:5;

y1=[99 94 93 100 100];

y2=[99 88 96 99 97];

y3=[76 72 43 67 78];

y4=[85 75 50 34 37];

plot(x,y1,'k-o','linewidth',1);

hold on;

plot(x,y2,'r--*','linewidth',2);

hold on;

plot(x,y3,'b-.p','linewidth',2);

hold on

plot(x,y4,'k--o','linewidth',2);

xlabel('学科');ylabel('分数');

legend('1','2','11','12');

set(gca,'xtick',[1 2 3 4 5])

set(gca,'xticklabel',{'政治','语文','外语','数学','物理'})

出结果

政治

语文

外语数学物理

学科

分数

2 利用matlab 画雷达图

此图用matlab 画起来比较复杂 首先我们修改polar 函数

在命令窗口输入edit polar 结果会出现polar 函数的程序 其中我们把 % plot spokes

th = (1:6)*2*pi/12;

cst = cos(th); snt = sin(th); cs = [-cst; cst]; sn = [-snt; snt];

line(rmax*cs,rmax*sn,'linestyle',ls,'color',tc,'linewidth',1,... 'handlevisibility','off','parent',cax) 修改为

% plot spokes

th = (1:3)*2*pi/6;

cst = cos(th); snt = sin(th); cs = [-cst; cst]; sn = [-snt; snt];

line(rmax*cs,rmax*sn,'linestyle',ls,'color',tc,'linewidth',1,... 'handlevisibility','off','parent',cax) 再将后面的所有程序中的30改为72

然后另存为work中并命名为mypolar.m

然后输入程序

x=[0:pi/2.5:2*pi];

y1=[99 94 93 100 100 99];

y2=[99 88 96 99 97 99];

y3=[76 72 43 67 78 76];

y4=[85 75 50 34 37 85];

mypolar(x,y1,'b');

hold on;

mypolar(x,y2,'m');

hold on;

mypolar(x,y3,'g');

hold on;

mypolar(x,y4,'y')

legend('1','2','11','12');

输出结果

第五章聚类分析

习题5.3.下表给出我国历年职工人数(单位:万人),请用有序样品的fisher法聚类。

解第一步数据标准化后计算直径D

程序:

X=[1580 23;1881 121;2423 554;4532 662;5044 925;3303 1012;3465 1136;...

3939 1264;4170 1334;4792 1424;5610 1524;6007 1644;6860 1813;...

7451 2048;8019 2425];

stdr=std(X);

[n,m]=size(X);

X=X./stdr(ones(n,1),:);

[n p]=size(X);

D=zeros(n,n);

for i=1:1:n;

for j=1:1:n;

if i

t=i:1:j;

xgjunzhi=(1/(j-i+1))*sum(X(t,:));

y=zeros(1,j-i+1);

for s=i:1:j

y(s)=(X(s,:)-xgjunzhi)*(X(s,:)-xgjunzhi)';

end

s=i:1:j;

D(i,j)=sum(y);

else

D(i,j)=0;

end

end

end

D=D'

输出结果矩阵太大,所以用excel处理了一下

D=

000000000000000 0.02256700000000000000

0.448980.245780000000000000

2.0632 1.39810.60024000000000000

3.9256 2.651 1.18020.1109800000000000

4.5022 3.0091 1.42380.569530.408620000000000

5.179 3.4353 1.66480.825760.538310.02044000000000

6.0823 4.021 1.976 1.0230.633430.127810.04775700000000

7.0311 4.6502 2.3255 1.23130.7550.263410.112750.0124560000000

8.3322 5.5762 2.9094 1.6045 1.05310.606190.338810.131220.060032000000

10.3127.1034 4.0117 2.4126 1.7772 1.37930.923140.526640.315410.0994*******

12.6968.9972 5.4422 3.5114 2.7548 2.3553 1.669 1.04570.654960.256320.036710000

16.29111.9987.8688 5.5038 4.5686 4.1193 3.1032 2.1468 1.47070.771220.308580.12762000

21.11716.12811.3218.42987.2316 6.6487 5.2116 3.8312 2.7793 1.68770.88810.460160.1070900

2822.16716.52812.97811.38610.5468.5596 6.627 5.0716 3.4539 2.1748 1.34430.598320.199510我们只看下三角所有元素,其它元素理解为空

第二步我们计算损失函数矩阵L

程序:

%设计一个把样品分为两类的程序,以及对应最后一类分割点

D=D';

L=zeros(n-1,n-1);

alp=zeros(n-1,n-1);

for m=2:n;

s=zeros(1,m-1);

for j=2:m

s(1,j-1)=D(1,j-1)+D(j,m);

end

L(m-1,1)=min(s(1,1:m-1));

for j=1:m-1

if L(m-1,1)==s(1,j);

alp(m-1,1)=j+1;

end

end

end

%分为k类

for k=3:n;

for m=k:n

s=zeros(1,m-k+1);

for j=k:m;

s(1,j-k+1)=L(j-2,k-2)+D(j,m);

end

L(m-1,k-1)=min(s(1,1:m-k+1));

for j=1:m-k+1

if L(m-1,k-1)==s(1,j);

alp(m-1,k-1)=j+k-1;

end

end

end

end

输出结果这里由于表太大,用excel处理一下

L=

00000000000000

0.0225670000000000000

0.448980.022567000000000000

0.559960.133550.02256700000000000

1.01850.559960.133550.0225670000000000

1.27470.58040.153990.0430070.02044000000000

1.4720.687770.261360.150380.0430070.0204400000000

1.68030.823370.396960.166440.0554640.0328970.0124560000000

2.0535 1.16620.711620.285210.166440.0554640.0328970.012456000000

2.8616 1.77970.922770.496360.265840.154860.0554640.0328970.01245600000

3.9604 1.9366 1.07970.653280.321920.203150.0921740.0554640.0328970.012460000

5.9528 2.3621 1.4747 1.02020.593790.321920.203150.0921740.0554640.03290.012456000

8.7188 2.9416 2.0437 1.18680.760370.429010.310240.199270.0921740.055460.0328970.01245600 alp=

20000000000000 33000000000000 44400000000000 44550000000000 46666000000000 46666700000000 46668880000000 46688889000000 4688101010101000000 41010101010111111110000 410101011111112121212000 4111111111313131313131300 101113131313131314141414140 1012131415151515151515151515在这里解释一下这两个矩阵行表示分为k类,k从2到15;列表示样本数m,m从2到15 我们只看下三角所有元素,其它元素理解为空,接下来我们根据结果分析

如果我们要把样品分为三类,则第一个分割点为11,然后第二个分割点为6

得到

第一类:{1952,1954,1956,1958,1960}

第二类:{1962,1964,1966,1968,1970}

第三类:{1972,1974,1976,1978,1980}

第六章判别分析

例6.6对全国30个省市自治区1994年影响各地区经济增长差异的制度变量x1—经济增长率,x2—非国有化水平,x3—开放度,x4—市场化程度作贝叶斯判别分析。

解求均值及协方差的逆的估计值

程序

X1=[11.2 57.25 13.47 73.41;14.9 67.19 7.89 73.09;14.3 64.74 19.41 72.33;... 13.5 55.63 20.59 77.33;16.2 75.51 11.06 72.08;14.3 57.63 22.51 77.35;... 20 83.4 15.99 89.5;21.8 68.03 39.42 71.9;19 78.31 83.03 80.75;... 16 57.11 12.57 60.91;11.9 49.97 30.7 69.2];

X2=[8.7 30.72 15.41 60.25;14.3 37.65 12.95 66.42;10.1 34.63 7.68 62.96;... 9.1 56.33 10.3 66.01;13.8 65.23 4.69 64.24;15.3 55.62 6.06 54.74;... 11 55.55 8.02 67.47;18 62.85 6.4 58.83;10.4 30.01 4.61 60.26;... 8.2 29.28 6.11 50.71;11.4 62.88 5.31 61.49;11.6 28.57 9.08 68.47;... 84 30.23 6.03 55.55;8.2 15.96 8.04 40.26;10.9 24.75 8.34 46.01;... 15.6 21.44 28.62 46.01];

X3=[16.5 80.05 8.81 73.04;20.6 81.24 5.37 60.43;8.6 42.06 8.88 56.37]; [n p]=size(X1); [m p]=size(X2); i=1:1:n;

x1junzhi=(1/n)*sum(X1(i,:)); j=1:1:m;

x2junzhi=(1/m)*sum(X2(j,:)); S1=cov(X1); S2=cov(X2);

sigamani=(((n-1)*S1+(m-1)*S2)/(n+m-2))^(-1) x1junzhi=x1junzhi' x2junzhi=x2junzhi' 输出结果 sigamani =

0.0049 0.0001 -0.0001 0.0001 0.0001 0.0071 0.0002 -0.0075 -0.0001 0.0002 0.0050 -0.0009 0.0001 -0.0075 -0.0009 0.0235 x1junzhi = 15.7364 64.9791 25.1491 74.3500 x2junzhi = 16.2875 40.1063 9.2281 58.1050

接着计算判别函数 根据111ln ''1,22

g g

g g f q X g μμμ--=-

∑+∑=

11

ln 1ln

0.8979427

16

ln 2ln 0.52325

27q q =≈-=≈-

1123421234

45.86550.08960.08490.0715 1.240629.13440.08970.14430.0008 1.0591f x x x x f x x x x =-+-++=-+-++

按照判别原则,若12f f >,则属于第一组,若12f f <,则属于第二组 回判 程序

A=sigamani*x1junzhi; B=sigamani*x2junzhi; C=zeros(27,2); C(:,1)=[1:1:27]; for i=1:1:11

f1=X1(i,:)*A-45.8655; f2=X1(i,:)*B-29.1344; if f1>f2

C(i,2)=1; else

C(i,2)=2; end end

for i=1:1:16

f1=X2(i,:)*A-45.8655; f2=X2(i,:)*B-29.1344; if f1>f2

C(i+11,2)=1; else

C(i+11,2)=2; end end C

输出结果 C =

1 1

2 1

3 1

4 1

5 1

6 1

7 1

8 1

9 1

10 2

11 1

12 2

13 2

14 2

15 2

16 2

17 2

18 2

19 2

20 2

21 2

22 2

23 2

24 2

25 2

26 2

27 2

所以误判率为1

100%

27

?≈3.7%很小,所以判别有效

最后对待判样品进行判别

程序

D=zeros(3,2);

D(:,1)=[28:1:30];

for j=1:1:3

f1=X3(j,:)*A-45.8655;

f2=X3(j,:)*B-29.1344;

if f1>f2

D(j,2)=1;

else

D(j,2)=2;

end

end

D

输出结果

D =

28 1

29 2

30 2

第七章主成分分析

例7.1对全国30个省市自治区经济发展基本情况的八项指标作主成分分析,原始数据如下:

解用matlab实现主成分分析

第一步在matlab输入原始数据

在这里由于输入数据量较大,我们可以在matlab的workspace中点击“新建变量”选项,命名为“x的变量,然后把你在excel中打好的表格中的数据直接复制粘贴到该变量中

接着我们将原始数据标准化

程序stdr=std(x); %求各变量的标准差

[n,m]=size(x);

sddata=x./stdr(ones(n,1),:) %标准化变换

输出结果

sddata =

0.9458 2.9072 1.2882 6.2182 0.8129 57.9170 59.3231 1.4428

0.6239 3.1568 0.8575 4.9637 0.7453 56.8802 58.2694 0.9964

1.9321 1.4600 1.7496 3.6947 4.4208 56.8802 61.0090

2.1123

0.7408 1.4507 0.7220 3.6046 1.5596 57.7195 60.9036 1.1927

0.5647 1.6097 0.6211 3.1564 1.6996 58.0158 61.5358 0.7174

1.8941

2.7819 0.9630

3.7497 2.9811 57.3245 60.0607 3.1485

0.7657 2.1726 0.7954 3.3824 1.0815 56.8802 60.1660 1.3043

1.3660

2.7088 1.0815

3.1648 1.7933 57.3245 60.2187 2.1218

1.6698 6.2010

2.4734 7.0848 0.4509 58.6083 59.5338 2.8104

3.4955 2.2353 3.5617

4.5308 2.2297 57.1764 60.2187 3.4668

2.3900 2.6101 2.4980 5.0538 1.6402 57.5714 59.7972 1.5679

1.3585 1.4554 1.1765 3.5191 1.9748 56.6826 59.3757 1.4098

1.4650

2.6925 1.3750 4.4720 1.3248 56.8802 60.2714 0.7418

0.8171 1.3718 0.7020 3.2152 0.8951 57.7195 61.0617 0.9782

3.3919 1.7722 3.0519 3.9283 2.6017 58.0652 60.1660 3.7765

2.0360 1.2000 1.6639

3.3168 3.4231 57.5220 60.5348 2.3400

1.6215 1.7722 1.4190 3.5771 1.8459 59.2502 61.4305

2.0882

1.4888 1.6341 1.0490 3.6626

2.1999 58.7564 60.8509 1.4435

3.6491 3.1324

4.0702 6.2991 1.4274 56.2876 58.7962 2.3886

1.0891 1.5250 0.9496 3.9322 1.2089 58.4602 61.3251 0.9493

0.2469 2.1053 0.4923 4.0772 0.5046 56.0408 58.6382 0.1100

2.3962 1.4635 2.0416

3.5466 1.9618 58.5095 61.6412 2.4493

0.4272 1.0933 0.3744 3.4168 0.6547 59.9414 61.7466 0.5555

0.8182 1.4635 0.8290 3.9314 0.6749 59.8920 62.2207 1.2259

0.0380 1.2882 0.0444 5.6364 0.0091 57.9170 60.5348 0.0095

0.6781 1.4020 0.7453 3.3565 1.0891 58.7564 61.6412 1.0280

0.3752 1.1687 0.2850 4.1941 1.1023 59.1514 61.3778 0.8019

0.1121 1.6770 0.1185 4.3926 0.1339 58.2627 61.2724 0.1810

0.1151 1.5726 0.1538 3.8780 0.2648 57.8183 60.7456 0.1957

0.5659 1.7049 0.9356 4.0833 0.7371 59.1020 61.4831 0.7334

第二步建立指标间的相关系数矩阵R

在这里标准化之后的样本数据的相关系数矩阵与样本离差阵相等

所以我们接着在命令窗口输入R=cov(sddata)

输出结果

R =

1.0000 0.2668 0.9506 0.1899 0.6172 -0.2726 -0.2636 0.8737

0.2668 1.0000 0.4261 0.7178 -0.1510 -0.2351 -0.5927 0.3631

0.9506 0.4261 1.0000 0.3989 0.4306 -0.2805 -0.3591 0.7919

0.1899 0.7178 0.3989 1.0000 -0.3562 -0.1342 -0.5384 0.1033

0.6172 -0.1510 0.4306 -0.3562 1.0000 -0.2532 0.0217 0.6586

-0.2726 -0.2351 -0.2805 -0.1342 -0.2532 1.0000 0.7628 0.1252 -0.2636 -0.5927 -0.3591 -0.5384 0.0217 0.7628 1.0000 -0.1921

0.8737 0.3631 0.7919 0.1033 0.6586 -0.1252 -0.1921 1.0000

第三步求R的特征向量

程序[x,B]=eig(R)

输出结果

x =

0.7602 0.0939 0.0309 0.1486 0.3203 0.1099 0.2585 0.4568

0.1092 0.2162 0.4222 0.1634 -0.6441 0.2459 -0.4038 0.3130

-0.6080 0.3178 0.2226 0.1673 0.4262 0.1924 0.1084 0.4706

0.0320 -0.2981 -0.0452 -0.6589 0.2585 0.3340 -0.4878 0.2400

-0.0498 0.2678 0.0593 -0.6620 -0.3331 -0.2493 0.4980 0.2509

0.0205 0.4185 -0.4338 -0.0580 -0.1133 0.7227 0.1699 -0.2624

0.0131 -0.3601 0.6646 -0.0774 0.0422 0.3972 0.4010 -0.3197

-0.1907 -0.6148 -0.3685 0.2037 -0.3295 0.1915 0.2877 0.4247

B =

0.0150000000

00.065000000

000.13800000

0000.2130000

00000.402000

00000 1.21500

000000 2.1970

0000000 3.754

在这里由于输出结果数据长度太大,无法在这里显示,所以用excel对上面的矩阵B做了一点小小的处理

在矩阵B中对角线上的元素对应的是R的特征值,对应的矩阵列向量为其特征向量

对结果分析

从上表看,前三个特征值累计贡献率已达89.575%,这说明前三个主成分基本包含了全部指标具有的信息,为此,我们取前三个特征值,并计算出相应的特征向量:

对应特征向量

u1u2u3

0.456790.258510.1099

0.31301-0.403790.24587

0.470560.108390.19243

0.23996-0.487770.33405

0.25090.49801-0.24933

-0.262440.169880.7227

-0.319660.401020.39716

0.424680.287690.19147

因而前三个主成为

第一个主成分

F1=0.45679X1+0.31301X2+0.47056X3+0.23996X4+0.2509X5-0.26244X6-0.31966X7

+0.42468X8

F2=0.25851X1-0.40397X2+0.10839X3-0.48777X4+0.49801X5+0.16988X6+0.40102X7

+0.28769X8

F3=0.1099X1+0.24587X2+0.19243X3+0.33405X4-0.24933X5+0.7227X6+0.39716X7

+0.19147X8

在第一个主成分的表达式中第一、二、三项指标的系数较大,这三个指标起主要作用,我们可以把第一主成分看成是由国内生产总值,固定生产投资和居民消费水平所刻画的反映经济发展状况的综合指标。

在第二主成分中的表达式中第四、五、七、八项指标的系数较大·尤其四、五、七,我们把这四项指标看成一个综合指标。

在第三个主成分中,第六项指数影响最大,远远超出其它指标的影响,可单独看成是居民消费价格指数的影响。

第八章因子分析

习题8.3下表列出邓阜仙岩石的部分化学成分,试用此组数据作因子分析。

解利用matlab做因子分析

第一步将原始数据标准化

x=[75.2 0.14 1.86 0.91 5.21;

75.15 0.16 2.11 0.74 4.93;

72.19 0.13 1.52 0.69 4.65;

72.35 0.13 1.37 0.83 4.87;

72.74 0.1 1.41 0.72 4.99;

73.29 0.033 1.07 0.17 3.15;

73.72 0.033 0.77 0.28 2.78];

stdr=std(x); %求各变量的标准差

[n,m]=size(x);

sddata=x./stdr(ones(n,1),:) %标准化变换

sddata =

60.3424 2.7212 4.1195 3.2322 5.3228

60.3023 3.1099 4.6732 2.6284 5.0367

57.9271 2.5268 3.3665 2.4508 4.7506

58.0555 2.5268 3.0343 2.9480 4.9754

58.3685 1.9437 3.1228 2.5573 5.0980

58.8098 0.6414 2.3698 0.6038 3.2182

59.1548 0.6414 1.7054 0.9945 2.8402 第二步计算相关系数矩阵

R=cov(sddata)

R =

1.0000 0.2392 0.5177 0.1432 0.1155

0.2392 1.0000 0.9103 0.9220 0.9231

0.5177 0.9103 1.0000 0.7662 0.8348

0.1432 0.9220 0.7662 1.0000 0.9598

0.1155 0.9231 0.8348 0.9598 1.0000 第三步计算R的特征值和特征向量

[x,B]=eig(R)

x =

0.1754 -0.0097 0.3297 -0.9098 0.1809

0.4535 -0.6749 -0.2756 0.0950 0.5038

-0.5138 0.2393 -0.6244 -0.2314 0.4851 -0.5147 -0.2107 0.6347 0.2295 0.4850

0.4843 0.6654 0.1507 0.2389 0.4928

B =

0.0006 0 0 0 0

0 0.0584 0 0 0

0 0 0.1481 0 0

0 0 0 1.0402 0

0 0 0 0 3.7526

(3.7526+1.0402)/(3.7526+1.0402+0.1481+0.0584+0.0006)*100%=95% 前两个累计贡献率已经达到95%,所以选前两个因子做因子分析

U1=(0.1809 0.5038 0.4851 0.4850 0.4928)’

U2=(-0.9098 0.0950 -0.2314 0.2295 0.2389)’

λ1=3.7526 λ2=1.0402

第四步列出因子载荷矩阵

12) A=

A =

0.3504 -0.9279

0.9759 0.0969

0.9397 -0.2360

0.9395 0.2341

0.9546 0.2437

第五步做因子旋转

[A,psi,T]=factoran(R,2,'xtype','covariance','delta',0)

A =

0.0718 0.6921

0.9112 0.3497

0.7414 0.6711

0.9901 0.0479

0.9593 0.1841

T =

0.7414 0.6711

0.6711 -0.7414

由上面的矩阵得出分析结果

第九章对应分析

习题用对应分析法,对我国16个地区农民1982年支出情况的6项指标进行分类。

多元统计分析实例汇总

多元统计分析实例 院系:商学院 学号: 姓名:

多元统计分析实例 本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积. 数据如下表: 一.聚类法

设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.

Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 内蒙 5 -+ 吉林 7 -+ 云南 25 -+-+ 江西 14 -+ +-+ 陕西 27 -+-+ | 新疆 31 -+ +-+ 安徽 12 -+-+ | | 广西 20 -+ +-+ +-------+ 辽宁 6 ---+ | | 浙江 11 -+-----+ | 福建 13 -+ | 重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | | 江苏 10 -------+ | 山东 15 -----------+-----------+ 河南 16 -----------+

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

多元统计分析方法

多元统计分析方法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

多元统计分析概述 目录 一、引言 (3) 二、多元统计分析方法的研究对象和主要内容 (3) 1.多元统计分析方法的研究对象 (3) 2.多元统计分析方法的主要内容 (3) 三、各种多元统计分析方法 (3) 1.回归分析 (3) 2.判别分析 (6) 3.聚类分析 (8) 4.主成分分析 (10) 5.因子分析 (10) 6. 对应分析方法 (11) 7. 典型相关分析 (11) 四、多元统计分析方法的一般步骤 (12) 五、多元统计分析方法在各个自然领域中的应用 (12) 六、总结 (13) 参考文献 (14) 谢辞 (15)

一、引言 统计分布是用来刻画随机变量特征及规律的重要手段,是进行统计分布的基础和提高。多元统计分析方法则是建立在多元统计分布基础上的一类处理多元统计数据方法的总称,是统计学中的具有丰富理论成果和众多应用方法的重要分支。在本文中,我们将对多元统计分析方法做一个大体的描述,并通过一部分实例来进一步了解多元统计分析方法的具体实现过程。 二、多元统计分析方法的研究对象和主要内容 (一)多元统计分析方法的研究对象 由于大量实际问题都涉及到多个变量,这些变量又是随机变量,所以要讨论多个随机变量的统计规律性。多元统计分析就是讨论多个随机变量理论和统计方法的总称。其内容包括一元统计学中某些方法的直接推广,也包括多个随即便量特有的一些问题,多元统计分析是一类范围很广的理论和方法。 现实生活中,受多个随机变量共同作用和影响的现象大量存在。统计分析中,有两种方法可同时对多个随机变量的观测数据进行有效的分析和研究。一种方法是把多个随机变量分开分析,一次处理一个随机变量,分别进行研究。但是,这样处理忽略了变量之间可能存在的相关性,因此,一般丢失的信息太多,分析的结果不能客观全面的反映整个问题,而且往往也不容易取得好的研究结论。另一种方法是同时对多个随机变量进行研究分析,此即多元统计方法。通过对多个随即便量观测数据的分析,来研究随机变量总的特征、规律以及随机变量之间的相互

统计学--统计学-——典型案例、问题和思想

经济管理类“十二五”规划教材统计学 -基于典型案例、问题和思想 主讲林海明

第一章绪论 【引言】我们从如下9个重要事例,说明统计学有什么用。 事例1:二次世界大战中,最激烈的空战是英国抗击德国的空战,英军为了提高战斗力,急需找到英军战机空战中的危险区域加固钢板,统计学家瓦尔德用统计学

方法找到了危险区域,英军用钢板加固了这些危险区域,使英军取得了空战的胜利。 事例2:上世纪20-30年代,为了找到中国革命的主力军和道路,政治家毛泽东悟出了统计学的频数方法,用此找到了中国革命的主力军是农民,中国革命的道路是农村包围城市。由此不屈不饶的奋斗,由弱变强,建立了独立自主的中华人民共和国,他还发现了“没有调查,就没有发

言权”的科学论断。 事例3:1998年,美国博耶研究型大学本科生教育委员会发表了题为《重建本科生教育:美国研究型大学发展蓝图》的报告,该报告指出:为了培养科学、技术、学术、政治和富于创造性的领袖,研究型大学必须“植根于一种深刻的、永久性的核心:探索、调查和发现”。这说明了统计学中调查的重要性。

事例4:在居民收入贫富差距的测度方面,美国统计学家洛仑兹(1907)、意大利经济学家基尼(1922)找到了统计学的洛仑兹曲线、基尼系数,由此给出了居民收入贫富差距的划分结果,为政府改进居民收入贫富不均的问题提供了政策依据。 事例5:二战后产品质量差的日本,以田口玄一为代表的质量管理学者用统计学方法找到了3σ质量管理原则,用其大幅提

高了企业的产品质量,其产品畅销海内外,日本因此成为当时的第二经济强国。该学科现已发展到了6σ质量管理原则。 事例6:在第二次世界大战的苏联卫国战争中,专家们用英国统计学家费歇尔(1 925)的最大似然法、无偏性,帮助苏军破解了德军坦克产量的军事秘密,由此苏军组织了充足的军事力量并联合盟军,打败了德军的疯狂进攻并占领了柏林。

多元统计分析课程设计

多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学2014级2班 学院:数学与系统科学学院 时间:2016年1月 3 日

目录 1.摘要: (1) 2.引言: (1) 背景 (1) 问题的研究意义 (1) 方法介绍 (2) 3.实证分析 (10) 指标 (10) 原始数据 (10) 数据来源 (13) 分析过程: (13) 4.结论及建议 (25) 5.参考文献 (26)

1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析2.引言: 背景: 我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 问题的研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染

原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。 方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量 ) (),,(1p q F F F q ≤'=Λ及 ),,(1' =p εεεΛ,使 ??????????+??????????????????? ?=??????????p q pq p q p F F a a a a X X εεM M ΛM M ΛM 1111111 简记为ε+=AF X ,且 (1) q I F D F E ==)(,0)((标准化);

多元统计分析案例分析.docx

精品资料 一、对我国30个省市自治区农村居民生活水平作聚类分析 1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2010年的调查资料中

2、将数据进行标准化变换:

3、用K-均值聚类法对样本进行分类如下:

分四类的情况下,最终分类结果如下: 第一类:北京、上海、浙江。 第二类:天津、、辽宁、、福建、甘肃、江苏、广东。 第三类:浙江、河北、内蒙古、吉林、黑龙江、安徽、山东、河南、湖北、四川、云南。 第四类:山西、青海、宁夏、新疆、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2010年的调查数据,第一类地区的农民生活水平较高,第二类属于中等水平,第三类、第四类属于较低水平。 二、判别分析 针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:

**. 错误分类的案例 从上可知,只有一个地区判别组和原组不同,回代率为96%。 下面对新疆进行判别: 已知判别函数系数和组质心处函数如下: 判别函数分别为:Y1=0.18x1 +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7 Y2=0.398x1+0.687x2 + 0.362x3 + 0.094x4 -0.282x5 + 1.019x6 -0.742x7 Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7 将西藏的指标数据代入函数得:Y1=-1.08671 Y2=-0.62213 Y3=-0.84188 计算Y值与不同类别均值之间的距离分别为:D1=138.5182756 D2=12.11433124 D3=7.027544292 D4=2.869979346 经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。 三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标。经spss软件分析结果如下:

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题 1 证明题 1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。以二变量为例证明: 12*-Λ=ψ=A X A X Z T T T 1)(-=T T A X 。 式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有 ?????? ??=ψ21 /10 /1λλ, ?? ? ???=Λ21 00λλ. 2)对于二变量因子模型,我们有 ?? ?++=++=222221122 112211111εεu f a f a x u f a f a x . 试以 x 1为例证明1 2 22==+j x j j u h σ ,这里∑== p k kj j a h 1 2 22 21 211a a +=。 2 计算题 1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。所测数据如下(表2.1)。 要求: ① 利用Excel 对数据进行主成分分析。 ② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。 ③ 用本例数据验证证明题?的推导结果。 表2.1 古生物腕足动物贝壳标本数据 样品编号 长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 9 9 5 22 17 13

多元统计分析方法在商业企业中的应用_党玮

65 《商场现代化》2006年10月(上旬刊)总第481期 一、引言 多元统计分析是统计学中一个非常重要的分支。在国外,从20世纪30年代起,已开始在自然科学、管理科学、社会和经济等领域广泛应用。我国自20世纪80年代起在许多领域拉开了多元统计分析应用的帷幕,20多年来在多元统计分析的理论研究和应用上取得了很显著的成绩。 在商业企业经营过程中,往往需要对诸如产品销售收入、产品销售成本、产品销售费用、产品销售税金及附加、产品销售利润、管理费用、利润总额、利税总额等变量进行分析和研究,如何同时对多个变量的观测数据进行有效的分析和研究,这就需要利用多元统计分析方法来解决,通过对多个变量观察数据的分析,来研究变量之间的相互关系以及揭示这些变量之间内在的变化规律。实践证明,多元分析是实现做定量分析的有效工具。 二、多元统计分析研究的主要内容 在当前科技和经济迅速发展的今天,在国民经济许多领域中,特别是对社会现象的分析,只停留在定性分析的基础上是不够的,为提高科学性、可靠性,通常需要定性和定量的分析。如果说一元统计方法是研究一个随机变量统计科学的规律,那么多元统计分析方法是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元统计分析中不同的方法可以对研究对象进行分类和简化。 多元统计分析包括的主要内容有:聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。 三、多元统计分析方法在商业企业中的应用 在这里,重点研究聚类分析、判别分析、主成分分析、因子分析方法及其在商业企业中的应用。 1.聚类分析 随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,光凭经验和专业知识是不能确切分类的,往往需要定量和定性的分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析逐渐从数值分类学中脱离出来而形成一个相对独 立的分支。 聚类分析又称群分析,它是研究分类问题的一种多元统计方 法。所谓类,通俗地说,就是指相似元素的集合。聚类分析的基本思想是首先将每个样本当作一类,然后根据样本之间的相似程度并类,并计算新类与其它类之间的距离,再选择相近者并类,每合并一次减少一类,继续这一过程,直到所有样本都并成一类为止。所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。 在企业销售领域,销售商需要考虑对不同生产企业生产的同名称商品的分类问题。例如,某商场对销售的20种啤酒进行分类,以便对不同类别的啤酒采用不同的销售策略,变量包括啤酒名称、热量卡路里、钠含量、酒精含量、价格。根据以上指标, 利用聚类分析可以实现把同一类型的啤酒企业归到同一类别。再如商业企业制定商品销售价格时,需要对某个大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目物价指数、食品消费物价指数、零售价格指数等等。由于要考察的价格指数很多,通常先对这些价格指数利用聚类分析方法进行分类。 2.判别分析 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。判别分析是判断样品所属类型的一种多元统计分析方法,其目的是对已知分类的数据,建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。 判别分析与聚类分析不同。判别分析是已知研究对象分成若干类型并取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体所用的模型来分,有线性判别和非线性判别;按判别式所处理的变量方法不同,又分逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等。 商业企业在市场预测中,往往根据以往所调查的种种指标,用判别分析方法判断下季度是畅销、平销或滞销。当然,判别分析与聚类分析常常联合起来使用。在聚类分析中,某商场对销售的20种啤酒进行分类,假定分类结果为一级品、二级品及三级品,现在判断某种新商标的啤酒属于哪个级别的产品就需要用判别分析。 3.主成分分析 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间有一定相关性。由于指标较多,再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标,尽可能多地反映原来指标的信息,这种将多个指标化为少数相互无关的综合指标的统计方法,叫做主成分分析 多元统计分析方法在商业企业中的应用 党 玮 石河子大学商学院 [摘 要] 随着市场经济的发展和竞争的日益激烈,如何运用科学的分析方法,对收集到的数据做出准确、及时的分析并制定正确的决策,已成为企业极为关注的问题。本文重点介绍了多元统计分析方法中的聚类分析、判别分析、主成分分析、因子分析及其在商业企业中的应用。 [关键词] 多元统计 分析方法 商业企业

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析自己写

多元统计分析有哪些应用? 比较 关系 预测 分类 评价 各种应用对应的多元统计分析方法 比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析 ?多元回归、logisitic回归、Cox回归、Poisson回归 多元统计分析方法主要内容 多元T检验、多元方差分析 ?Hotelling T2 ?multivariate analysis of variance (MANOV A) 多元线性回归(multivariate linear regression) logistic回归(logistic regression) Cox比例风险模型(Cox model) Poisson回归(Poisson regression) 聚类分析(cluster analysis) 判别分析(discriminant analysis) 主成分分析和因子分析 生存分析 本课程的要求 上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata, SPSS10.01 考试: 理论占30%,实验占70% 二、多元统计分析的基本概念 研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年 龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。狭义来看,研究因素是指可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。 数值变量→分类成有序分类变量 哑变量的数量=K-1(K为分类数)

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

(整理)基于SPSS的多元统计分析三种算法的实例研究.

基于SPSS的多元统计分析三种算法的实例研究 摘要 本文主要应用多元统计中的多元回归分析模型、因子分析模型、判别分析模型解决三个有关经济方面的问题,从而能更深的理解多元统计分析这门课程,并熟悉SPSS软件的一些基本操作。 关键词:多元回归分析,因子分析,判别分析,SPSS

第一章 多元线性回归分析 1.1 研究背景 消费是宏观经济必不可少的环节,完善的消费模型可以为宏观调控提供重要的依据。根据不同的理论可以建立不同的消费函数模型,而国内的许多学者研究的主要是消费支出与收入的单变量之间的函数关系,由于忽略了对消费支出有显著影响的变量,其所建立的方程必与实际有较大的偏离。本文综合考察影响消费的主要因素,如收入水平、价格、恩格尔系数、居住面积等,采用进入逐步、向前、向后、删除、岭回归方法,对消费支出的多元线性回归模型进行研究,找出能较准确描述客观实际结果的最优模型。 1.2 问题提出与描述、数据收集 按照经济学理论,决定居民消费支出变动的因素主要有收入水平、居民消费意愿、消费环境等。为了符合我国经济发展的不平衡性的现状,本文主要研究农村居民的消费支出模型。文中取因变量Y 为农村居民年人均生活消费支出(单位:元),自变量为农村居民人均纯收入X 1(单位:元)、商品零售价格定基指数X 2(1978年的为100)、消费价格定基指数X 3(1978年的为100)、家庭恩格尔系数X 4(%)、人均住宅建筑面积X 5(单位:m 2)。本文取1900年至2009年的数据(数据来源:中华人民共和国国家统计局网公布的1996至2010年中国统计年鉴)列于附录的表一中。 1.3 模型建立 1.3.1 理论背景 多元线性回归模型如下: εββββ+++++=p p X X X Y ...... 22110 Y 表示因变量,X i (i=1,…,p )表示自变量,ε表示随机误差项。 对于n 组观测值,其方程组形式为 εβ+=X Y 即

第三章 多元统计分析(3)

第三章多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置白菜虎 界植物界动物界 门种子植物门脊索动物门 亚门被子植物亚门脊椎动物亚门 纲双子叶植物纲哺乳动物纲 目十字花目食肉目 科十字花科猫科 属油菜属猫属 种白菜虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元

多元统计分析模拟试题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e= 1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

生物统计学 第九章 多元统计分析

第九章多元统计分析简介 多元统计分析主要研究多个变量之间的关系以及具有这些变量的个体之间的关系。无论是自然科学还是社会科学,无论是理论研究还是应用决策,多元统计分析都有较广泛的应用。近年来,随着计算机的普及和广泛应用,多元统计分析的应用越来越广泛,越来越深入。生物学研究中,有许多问题要考虑样本与样本之间的关系、性状与性状之间的关系,也要考虑样本与性状之间的关系,为了能够正确处理这些错综复杂的关系,就需要借助于多元统计分析方法来解决这些问题。 从应用的观点看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。一般认为,典型的多元统计分析主要可以归结为两类问题:第一类是决定某一样本的归属问题:根据某样品的多个性状(特征)判定其所属的总体。如判别分析、聚类分析即属于此类内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系。主成分分析、因子分析和典型相关分析均属于此类问题。此外,多因素方差分析、多元回归与多元相关分析和时间序列分析,均是研究一个变量和多个变量之间的关系的,也是多元统计分析的内容。 第一节聚类分析(Cluster Analysis) 聚类分析是研究分类问题的一种多元统计方法,聚类分析方法比较粗糙,但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。近年来聚类分析发展较快,内容也越来越多。常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分割、概率聚类等方法,本节重点介绍系统聚类法。 系统聚类法是目前应用较多的聚类分析方法,这种聚类方法从一批样本的多个观测指标(变量)中,找出能度量样本之间相似程度的统计数,构成一个相似矩阵,在此基础上计算出样本(或变量)之间或样本组合之间的相似程度或距离,按相似程度或距离大小将样本(或变量)逐一归类,关系密切的归类聚集到一个小分类单位,关系疏远的聚集到一个大的分类单位,直到把所有样本(或变量)都聚集完毕,形成一个亲疏关系谱系图,直观地显示分类对象的差异和联系。 第二节判别分析(Discriminant Analysis) 判别分析是多元统计分析中较为成熟的一类分类方法,它是根据两个或多个总体的观测结果,按照一定的判别准则和相应的判别函数,来判断某一样本属于哪一类总体。判别分析的内容很多,常见的有距离判别、贝叶斯判别、费歇判别、逐步判别、序贯判别等方法。 第三节主成分分析(Principal components analysis)

典型相关分析及其应用实例

摘要 典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用

ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life. 【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications

多元统计分析的重点和内容和方法

一、什么是多元统计分析 ?多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。 ?多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。 二、多元统计分析的内容和方法 ?1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 ?2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计方法。 例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 考察指标有6个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数 ?3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) ?4、多元数据的统计推断 点估计 参数估计区间估计 统u检验 计参数t检验 推F检验 断假设相关与回归 检验卡方检验 非参秩和检验 秩相关检验 ?1、假设检验的基本原理

小概率事件原理 ? 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提 出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。 ? 2、假设检验的步骤 (1)提出一个原假设和备择假设 ? 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。这种原 假设也称为零假设( null hypothesis ),记为 H 0 。 2.1 均值向量的检验 ? 1、正态总体均值检验的类型 ? 根据样本对其总体均值大小进行检验( One-Sample T Test ) 如妇女身高的检验。 ? 根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ) 如两个班平均成绩的检验。 ? 配对样本的检验( Pair-Sample T Test ) 如减肥效果的检验。 ? 多个总体均值的检验 ? A 、总体方差已知 用u 检验,检验的拒绝域为 即 ? B 、总体方差未知 用样本方差 代替总体方差 ,这种检验叫t 检验. (2)根据来自两个总体的独立样本对其总体均值的检验 ? 目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t 检验也没有大的差别,只 是假设的表达和t 值的计算公式不同。 ? 两样本均数比较的t 检验,其假设一般为: 12 { }W z u α- =>112 2 {} W z u z u αα - - =<->或2 s 2σ Ⅲ 0μμ= 0μμ< α--<1u z )1(1--<-n t t α

相关文档