第五章
201205060139 莫轶雯
1、下表资料为25名健康人的7项生化检验结果,7项生化检验指标依次命名为X1
至X7,请对该资料进行主成分分析。
解:利用SPSS进行主成分分析,如下:
公因子方差
初始提取
x1 1.000 .797
x2 1.000 .773
x3 1.000 .859
x4 1.000 .980
x5 1.000 .983
x6 1.000 .976
x7 1.000 .834
提取方法:主成份分析。
由上表可以看出除x1和x2信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。
提取方法:主成份分析。
解释的总方差表显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在表中可以看出保留2个主成分为宜,这两个主成分集中了原始7个变量信息的88.593%,可见效果比较好。
成份矩阵a
成份
1 2
x1 .746 .489
x2 .796 .372
x3 .709 -.597
x4 .911 .389
x5 -.234 .963
x6 -.177 .972
x7 -.886 .219
提取方法 :主成份。
a. 已提取了 2 个成份。
成分矩阵表给出了标准化原始变量用求得的主成分线性表示的近似表达式,如x1的近似表达式:x1=0.746prin1+0.489prin2
最后将成分矩阵表中的第i列的每个元素分别除以第i个特征根的平方根,就可以得到主成分分析的第i个主成分的系数。
2、对企业经济效益指标体系的八项指标建立主成分分析模型。数据如下表所示:
表2 原始数据表格
解:利用SPSS进行主成分分析,如下:
由上表可以看出除x3和x5,x7,x8信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。
解释的总方差表显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在表中可以看出保留2个主成分为宜,这两个主成分集中了原始8个变量信息的76.209%,可见效果一般。
成分矩阵表给出了标准化原始变量用求得的主成分线性表示的近似表达式,如x1的近似表达式:x1=0.955prin1+0.069prin2
最后将成分矩阵表中的第i列的每个元素分别除以第i个特征根的平方根,就可以得到主成分分析的第i个主成分的系数。
3、下表是40名肺癌病人的生存资料, 其中X1表示生活行为能力评分(1到100); X2表示病人的年龄(年); X3表示由诊断到进入研究时间(月); X4表示肿瘤类型( “0”是鳞瘤, “1”是小型细胞癌, “2”是腺癌, “3”是大型细胞癌); X5表示两种化疗方法( “1”是常规, “0”是试验新法); Y表示病人的生存时间( “0”是生存时间短, 即生存时间小于200天; “1”表示生存时间长, 即生存时间大于或等于200天)
,,,的综合影响是否显著?哪些变量是主要的影响因素, 显著水平如何?计算各病人生存时间大于等于200天的概率估计值;
2) 比较主成分回归与逐步回归的差异。
解:利用SPSS 进行如下分析 1)
相关矩阵
x1 x2 x3 x4 x5 y 相关
x1 1.000 -.144 -.269 -.238 -.018 .483 x2
-.144 1.000 .040 .050 .155 -.016 x3
-.269
.040
1.000
.090
-.156
-.089
x4 -.238 .050 .090 1.000 .037 -.363 x5 -.018 .155 -.156 .037 1.000 -.145 y
.483
-.016
-.089
-.363
-.145
1.000
公因子方差
初始 提取 x1 1.000 .651 x2 1.000 .838 x3 1.000 .696 x4 1.000 .488 x5 1.000 .676 y
1.000
.729
提取方法:主成份分析。
用主成分回归法建立P (Y=1)对X1,,X5的logistic回归模型为:
P (Y=1)=0.483x1-0.016x2-0.089x3-0.363x4-0.145x5
X1,,X5对P (Y=1) 的综合影响显著,x2,x3,x4,x5是主要的影响因素.
2)主成分分析主要用于鉴别、分析, 主成分分析的目的是在于降维,其结果是把多个指标归约为少数的几个指标,这少数的几个指标的表现形式一般为原来指标体系中的某几个指标线性组合; 逐步回归的目的是为了剔除影响不显著的指标,其结果是保留原指标体系中影响显著的几个指标。