当前位置：文档库 › 数据分析(梅长林)习题答案

数据分析(梅长林)习题答案

第四章习题

一、习题

解：（1）通过SAS 的proc princomp 过程对相关系数矩阵R 做主成分分析，得到个主成分的贡献率以及累计贡献率如表1所

表 1

从表中可以得到特征值向量为：

]0.2429 0.4515 0.5396 0.8091 2.8567[=*λ

第一主成分贡献率为： % 第二主成分贡献率为： % 第三主成分贡献率为： % 第四主成分贡献率为： % 第五主成分贡献率为： %

进一步得到各主成分分析结果如表2所示：

表 2

（2）由（1）中得到的结果可知前两个主成分的累积贡献率为%，得到第一主成分、第二主成分为：

54212.044215.034702.024571.014636.01x x x x x Y ++++=*

55820.045257.032604.025093.012404.02x x x x x Y ++---=*

由于1*Y 是五个标准化指标的加权和，由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果，1*Y 越大表示各股票的综合周反弹率越大。*

2Y 中关于三种化工股票的周反弹率系数为负，而关于两种石油的系数为正，它放映了两种石油周反弹率和三种化工股票周反弹率的对比，*2Y 的绝对值越大，表明两种石油周反弹率和三种化工股票周反弹率的差距越大。二、习题

解：（1）利用SAS 的proc corr 过程求得相关系数矩阵如表3：

表 3

（2）从相关系数矩阵出发，通过proc princomp 过程对其进行主成分分析，表4给出了各主成分的贡献率以及累积贡献率：

表4

第一主成分贡献率为：% 第二主成分贡献率为：%第三主成分贡献率为：% 第四主成分贡献率为：%第五主成分贡献率为：% 第六主成分贡献率为：%其中前两个主成分的累计贡献率为%

（3）通过上面的计算得到各主成分，见表5：

表5

5093

3171

6927

02169

2541

0185

5192

2496

+ =

0.0871x8

-0.2607x7-0.1347x6

+0.5754x5+0.5381x4+0.4754x3+0.0376x2--0.2413x12 Y

由于是1Y 八个标准化标值的加权值，因此它反映了平均消费数据的综合指标。对于Y1，它反映了各省人均消费水平，除烟茶酒外，其他支出越高，其人均总体消费水平越高，而烟茶酒对其消费水平评价成反方向。在Y 2中人均粮食，人均副食品，人均燃料，人均非商品的系数为负；人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正，说明Y2的绝对值越大，各省人均消费的在生活必需品与高档品差异越大。

根据第一主成分的得分对各个省份进行排序，见表6：

表 6

Obs location Prin1

1 广东 16 宁夏

2 上海 17 湖南

3 北京 18 陕西

4 浙江 19 云南

5 海南 20 新疆

6 福建 21 青海

7 广西 22 安徽

8 天津 23 甘肃

9 江苏 24 内蒙古 10 辽宁 25 贵州 11 西藏 26 吉林 12 四川 27 黑龙江 13 山东 28 河南 14 湖北 29 山西 15 河北

30 江西

三、习题

解：（1）通过SAS的proc princomp过程计算得到样本协方差矩阵见表7：

表7

求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8：

表8

从以上结果可看出前三个主成分贡献率已占%，大于剩下三个成分的总和，已包含原始数据的大量信息，所以保留前三个主成分即可。（2）通过SAS的proc princomp过程对其相关系数矩阵进行主成分分析，首先得到相关系数矩阵见表9：

表9

求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10：

表10

从以结果可看出前四个主成分贡献率已占%且第四个主成分的贡献率都占到总信息量的的%，与剩下两个成分的总和差不多，所以保留前四个主成分即可。

我认为基于协方差矩阵S的分析结果更合理。因为由协方差矩阵S 输出结果可以看出前三个主成分的贡献率就可达到%大于相关系数矩阵R分析得到前四个主成分贡献率总和%，且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据，所以基于协方差矩阵S的分析结果更为合理。

四、习题

（1）通过proc cancorr 过程求得以下结果：

表 11

1111122221

--R R R R 两个特征值分别为

157698.02

1=∧ρ 0053.02

2=∧

计算得到各典型变量系数见表下表：

所以有

第一对典型变量为：

112114564.01019.10330.12478.1Y Y W X X V -=-=

第一对典型相关系数397.0?1=ρ

；第二对典型变量为：

122120030.10071.07687.03180.0Y Y W X X V +-=+=

第二对典型相关系数07289.0?2=ρ

（2）对典型变量进行显着性检验，结果见表12，其中P1=<，P2=<，

故两对变量都显着相关。

表 12

五、习题

（1）首先计算得到协方差系数矩阵：

进而从协方差系数矩阵计算得到典型变量系数：

所以有

第一对典型变量为：

1121180222.05024.007074.005657.0Y Y W X X V -=+=

第一对典型相关系数37716.0?1=ρ

；第二对典型变量为：

1221226208.017615.018695.013997.0Y Y W X X V +-=+-=

第二对典型相关系数99711.0?2=ρ

（2）计算得到样本相关系数矩阵：

??= 1.00000.73460.70860.6932

0.73461.00000.70400.71080.70860.69321.00000.73460.70400.71080.73461.0000R 从相关系数矩阵出发，进行典型相关变量分析：

所以有

第一对典型变量为：

**-=+=2

112115383.05044.05215.05522.0Y Y W X X V

第一对典型相关系数为：37716.0?1=ρ

第二对典型变量为：

+-=+-=2

22127586.17686.13784.13664.1Y Y

W X X V

第二对典型相关系数为：99711.0?2=ρ

因为样本中测量的数据的量纲都是相同的，所以无论是从协方差系数矩阵还是相关系数矩阵进行典型相关分析，得到的结果是一样的。对典型变量进行显着性检验，结果见表13：

表13

取显着水平为,其中第一对典型变量的检验p值为，小于，所以第一对典型变量显着相关，而第二对典型变量的检验p值为，大于，所以第二对典型变量不是显着相关。