文档库 最新最全的文档下载
当前位置:文档库 › 北航数理统计判别分析大作业

北航数理统计判别分析大作业

北航数理统计判别分析大作业
北航数理统计判别分析大作业

数理统计(课程大作业2) 聚类和判别分析

学院:机械工程学院

专业:材料加工工程

日期:2014年12月22日

摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。

关键字:经济类型 SPSS 聚类分析判别分析

1 引言

中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。

但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。

本文就是在这样的背景下提出来的,使用SPSS Statistics 19.0这一统计软件,利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。

2 数据采集

本文数据来源于《中国统计年鉴2013》,具体数据见表1

表 1 源数据

地区居民消费

水平(元)

社会固定资

产投资(亿

元)

人均地区生

产总值(元)

政府消费支

出(亿元)

城镇居民人均总

收入(元/人)

北京30349.5 6112.487475 4451.8 36468.75 天津22984.0 7934.893173 1698.7 29626.41 河北10749.4 19661.336584 3272.7 20543.44 山西10829.0 8863.333628 1605.4 20411.71 内蒙古15195.5 11875.763886 2466.9 23150.26 辽宁17998.7 21836.356649 2178.8 23222.67 吉林12276.3 9511.543415 1566.2 20208.04 黑龙江11600.8 9694.735711 2812.7 17759.75 上海36892.9 5117.685373 2807.3 40188.34 江苏19452.3 30854.268347 7329.0 29676.97 浙江22844.7 17649.463374 4013.3 34550.30 安徽10977.7 15425.828792 1876.3 21024.21 福建16143.9 12439.952763 1854.8 28055.24 江西10572.9 10774.228800 1560.5 19860.36 山东15095.0 31256.051768 5960.3 25755.19 河南10380.3 21450.031499 3584.0 20442.62 湖北12283.0 15578.338572 2897.3 20839.59 湖南11739.5 14523.233480 2397.7 21318.76 广东21823.3 18751.554095 6241.8 30226.71 广西10519.5 9808.627952 1612.2 21242.80 海南10634.5 2145.432377 448.3 20917.71 重庆13655.4 8736.238914 1389.3 22968.14 四川11280.2 17040.029608 2831.4 20306.99 贵州8372.0 5717.819710 1039.7 18700.51 云南9781.6 7831.122195 1763.2 21074.50 西藏5339.5 670.522936 289.6 18028.32 陕西11852.2 12044.538564 1944.9 20733.88 甘肃8542.0 5145.021978 1131.9 17156.89 青海10289.1 1883.433181 410.2 17566.28 宁夏12120.4 2096.936394 404.2 19831.41 新疆10675.1 6158.833796 1891.8 17920.68

三聚类分析

3.1 聚类分析过程

首先将数据导入SPSS中,并剔除待分析的河北、浙江、新疆三省数据。

表3所示的为聚类分析的汇总结果:

表3 案例处理汇总

案例

有效缺失总计

N 百分比N 百分比N 百分比

28 100.0 0 .0 28 100.0

a. 平方 Euclidean 距离已使用

b. 平均联结(组之间)

从表3中可以看到28个样本的数据全都有效,均用于系统聚类分析过程。表中列出了有效样本、缺失样本和样本总数的个数和百分数。

表4显示的是样本的凝聚过程。对本文选取的28个样本,系统进行了27步分析,并在每一步中给出了凝聚过程中两类之间的相关系数。

表4 聚类表

群集组合

系数

首次出现阶群集

下一阶群集1 群集2 群集1 群集2

1 1

2 18 3568152.164 0 0 11

2 10 21 4789624.428 0 0 9

3 22 26 7892087.38

4 0 0 8

4 19 27 12067895.81

5 0 0 7

5 15 25 13591635.444 0 0 12

6 3

7 14116255.332 0 0 14

7 19 28 19190996.708 4 0 19

8 22 23 21666276.496 3 0 13

9 10 16 23240192.308 2 0 11

10 6 20 30411453.520 0 0 12

11 10 12 41848265.896 9 1 16

12 6 15 42054641.615 10 5 14

13 22 24 53920958.101 8 0 23

14 3 6 54768430.052 6 12 19

15 1 8 64763844.618 0 0 22

16 10 14 81191025.397 11 0 20

17 5 17 96231017.522 0 0 18

18 5 11 1.141E8 17 0 21

19 3 19 1.218E8 14 7 20

20 3 10 1.515E8 19 16 23

21 4 5 1.868E8 0 18 25

22 1 2 2.597E8 15 0 27

23 3 22 2.667E8 20 13 26

24 9 13 3.113E8 0 0 25

25 4 9 3.780E8 21 24 26

26 3 4 1.133E9 23 25 27

27 1 3 3.450E9 22 26 0

表4所列各项的意义如下:

阶——聚类步骤号;

群集组合——在某步中合并的个案;

系数——距离或相似系数;

首次出现阶群集——新生成聚类;

下一阶——对应步骤生成的新类将在第几步与其它个案或新类合并。

从中可以看出聚类的进度和类详细合并的步骤。

可以从表中看出,第12和第18个样本最先进行了聚类,样本间的距离为3568152.164。

表5显示的是聚类后的集群成员:

表5 群集成员

案例群集

1:北京 1

2:天津 1

3:山西 2

4:内蒙古 3

5:辽宁 3

6:吉林 2

7:黑龙江 2

8:上海 1

9:江苏 3

10:安徽 2

11:福建 3

12:江西 2

13:山东 3

14:河南 2

15:湖北 2

16:湖南 2

17:广东 3

18:广西 2

19:海南 2

20:重庆 2

21:四川 2

22:贵州 2

23:云南 2

24:西藏 2

25:陕西 2

26:甘肃 2

27:青海 2

28:宁夏 2

从表5可以看到系统聚类分析的最终结果为:北京市、天津市、上海市属于第一类,内蒙古、辽宁省、江苏省、福建省、山东省、广东省被分为第三类,其他省、直辖市、自治区被分为第二类。

图1为垂直冰柱图,形状类似于冬天屋檐上垂下的冰柱,因此得名。

横轴:案例(Case)表示被聚类的对象;

纵轴:群集数(Number of clusters)表示被聚成几类;

图1以冰柱图表示聚类分析结果。图中第1列为聚类步骤号,第1行为样本及样本号。图中每一列代表一个冰柱,深色柱代表冰柱的长短。从冰柱的长短变化可以看出聚类的全过程。即如果样本或新类在第n步合并,则在图中第n步以上合并项对应列中用深色填充,没有空格。由于冰柱图是按照聚类的编号进行排列,所以其与聚结表的顺序刚好相反,也就是说聚结表的第一步对应于冰柱图的最后一步。

冰柱图一般从表格的最后一行开始观察。最后一行中,类的数目为27,即聚积成27类,其中样本江西和广西用深色柱连接在一起,表示成两个样本聚成一类,其余每个样本构成一类。因此从冰柱图中可以非常清楚地看到,聚成n 时类时,各个样本的类归属情况。

图1 冰柱图

图2为聚类分析之后的树状图:

图2 树状图

图2清晰地表示出了聚类的全过程。它将实际的距离按比例调整到0-25

的范围内,用逐级连线的方式连接性质相近的个案和新类,直至并为一类。在该图上部的距离标尺上根据需要(粗分或细分)选定一个划分类的距离值,然后垂直标尺划线,该垂线将和水平线相交,则相交的交点数即为分类的类别数,相交水平连线所对应的样本聚成一类。

3.2 聚类分析结果总结

从上一部分的聚类分析过程可以看出,SPSS软件将本文所采用的数据分为3类,如表6所示:

表2

集群地区

第一类北京、天津、上海

第二类其他省、自治区、直辖市

第三类内蒙古、辽宁、江苏、福建、山东、广东

北京市、天津市、上海市构成一类。北京、天津作为老牌经济强省,同时也是北方京津冀经济圈的主要经济贡献力量,其在全国经济整体盘面上表现一直相对强劲。上海市作为中国的经济中心,其整体发展水平高于全国其他地市,其在居民消费水平、人均地区生产均值、城镇居民人均总收入等诸多指标中都有着明显的优势。

内蒙古由于近几年煤炭等能源生产增长,还有富饶的草原畜牧业,经济发展迅速。而辽宁、江苏、福建、山东、广东这些沿海地区,由于受到改革开放经济政策的影响,经济实力仅次于北京、上海、天津。故以上几个省份被划为一类。

其余省市被划分为一类。这些省市中也包括黑龙江省等经济条件较好的省市,但各行业领域发展并不均衡,故将其划入该类中。

4判别分析

4.1 判别分析过程

根据聚类分析的结果,将省份分为3类,在SPSS中添加一个新变量G用来表示类别,取值为1、2和3,同时在表中添加了三个个案河北、浙江、新疆,作为待判样本。

下面是判别结果相关表格。

下表7为参与分析的个案处理的摘要显示,可以看出,共有28个样本作为判别基础数据进入分析。

表7 分析案例处理摘要

未加权案例N 百分比

有效28 90.3

排除的缺失或越界组代码 3 9.7

至少一个缺失判别变量0 .0

缺失或越界组代码还有至少

一个缺失判别变量

0 .0

合计 3 9.7

合计31 100.0 下表8为分组的统计量统计信息。由下表可以看出一共有3个组,其中第一组3例,第二组19例,第三组6例。同时,下表给出了各组中变量的均值和标准差。

表8 组统计量

G类别均值标准差

有效的 N(列表状态)未加权的已加权的

1 居民消费水平30075.4667 6958.49808 3 3.000 社会固定资产投资6388.2667 1428.71648 3 3.000 人均地区生产总值88673.6667 4035.79005 3 3.000 城镇居民人均总收入35427.8333 5357.35214 3 3.000 政府消费支出2985.9333 1385.2156

2

3 3.000

2 居民消费水平10686.626

3 1816.10285 19 19.000 社会固定资产投资9417.9158 5710.44151 19 19.000 人均地区生产总值31458.2105 6544.42549 19 19.000 城镇居民人均总收入20020.6563 1518.89422 19 19.000 政府消费支出1661.3158 938.74936 19 19.000

3 居民消费水平17618.1167 2668.37565 6 6.000 社会固定资产投资21168.9333 8537.01207 6 6.000 人均地区生产总值57918.0000 6708.25283 6 6.000 城镇居民人均总收入26681.1733 3121.52932 6 6.000 政府消费支出4338.6000 2430.3017

4 6 6.000

合计居民消费水平14249.3214 6810.84948 28 28.000 社会固定资产投资11611.3857 7880.56214 28 28.000 人均地区生产总值43258.3929 20322.59927 28 28.000 城镇居民人均总收入23098.6789 5646.00438 28 28.000 政府消费支出2376.9429 1755.02985 28 28.000

下表9为组均值的均等性检验表:

表9 组均值的均等性的检验

Wilks的Lambda F df1 df2 Sig.

居民消费水平.153 69.121 2 25 .000

社会固定资产投资.570 9.437 2 25 .001

人均地区生产总值.092 123.026 2 25 .000

城镇居民人均总收入.172 60.366 2 25 .000

政府消费支出.592 8.615 2 25 .001

该检验方法的原假设是组均值对应相等,此时各变量间没有显著差异。本例中的各变量的显著性概率均小于0.05,所以拒绝原假设,即认为各变量之间存在显著的差异。

下表10为汇聚的组内矩阵表,该表显示了各个变量两两之间的协方差和相关系数。

表10 汇聚的组内矩阵

居民消费水平社会固定资产投

人均地区生产总

城镇居民人均总

收入

政府消费支出

协方差居民消费水平7672426.660 3033279.657 5216758.878 5283078.918 1480414.129 社会固定资产投资3033279.657 38217995.847 8001104.608 3391896.304 6634790.857 人均地区生产总值5216758.878 8001104.608 41140382.873 960452.898 1465320.179 城镇居民人均总收入5283078.918 3391896.304 960452.898 5905955.377 1618204.396 政府消费支出1480414.129 6634790.857 1465320.179 1618204.396 1969279.350

相关性居民消费水平 1.000 .177 .294 .785 .381 社会固定资产投资.177 1.000 .202 .226 .765 人均地区生产总值.294 .202 1.000 .062 .163 城镇居民人均总收入.785 .226 .062 1.000 .474 政府消费支出.381 .765 .163 .474 1.000

a. 协方差矩阵的自由度为 25。

下表11的协方差矩阵,展示了聚类分析后的各个类的变量两两之间的协方差:

4.2 判别分析结果总结

首先,对协方差矩阵的均等性进行箱式检验。

下表12为对数行列式表,该表包括各类别和合并组内的对应的秩和对数行列式:

表12 对数行列式

G 类别 秩

对数行列式

1 .a

.b

2 5 74.080 3

5 80.611 汇聚的组内

5

78.557

表11 协方差矩阵

G 类别

居民消费水平 社会固定资产投

资 人均地区生产总

值 城镇居民人均总

收入 政府消费支出 1

居民消费水平 48420695.503 -9852735.767 -27368710.967 36940141.442 4156123.882 社会固定资产投资

-9852735.767 2041230.773 5741544.133 -7654132.957 -1084074.793 人均地区生产总值 -27368710.967 5741544.133 ********.333 -21531547.583 -3479584.133 城镇居民人均总收入 36940141.442 -7654132.957 -21531547.583 28701221.961 4071622.683 政府消费支出 4156123.882 -1084074.793 -3479584.133 4071622.683 1918822.303 2

居民消费水平 3298229.580 4319615.980 9662694.105 1680206.960 662639.440 社会固定资产投资

4319615.980 32609142.188 8424512.846 3916161.119 4982434.632 人均地区生产总值 9662694.105 8424512.846 42829504.953 3747667.059 1404456.119 城镇居民人均总收入 1680206.960 3916161.119 3747667.059 2307039.664 413414.266 政府消费支出 662639.440 4982434.632 1404456.119 413414.266 881250.360 3

居民消费水平 7120228.610 3556875.065 2245580.000 5590592.956 3354119.110 社会固定资产投资

3556875.065 72880575.051 7380659.140 5922954.673 15670819.526 人均地区生产总值 2245580.000 7380659.140 45000656.000 -76717.890 3662392.520 城镇居民人均总收入 5590592.956 5922954.673 -76717.890 9743945.307 4974081.553 政府消费支出 3354119.110 15670819.526 3662392.520

4974081.553 5906366.532 合计

居民消费水平 46387670.622 6278134.148 1.252E8 36970857.207 5704313.183 社会固定资产投资

6278134.148

62103259.585 30401569.858

8345411.101

11060870.150 人均地区生产总值 1.252E8 30401569.858 4.130E8 1.003E8 16762748.823 城镇居民人均总收入 36970857.207 8345411.101 1.003E8 31877365.455 5444351.363 政府消费支出

5704313.183

11060870.150

16762748.823

5444351.363

3080129.790

a. 总的协方差矩阵的自由度为 27。

打印的行列式的秩和自然对数是组协方差矩阵的秩和自

然对数。

a. 秩< 3

b. 案例太少无法形成非奇异矩阵

通过表13得出检验结果:

表13 检验结果a

箱的M 79.900

F 近似。 3.083

df1 15

df2 339.325

Sig. .000

对相等总体协方差矩阵的零假

设进行检验。

a. 有些协方差矩阵是奇异矩

阵,因此一般程序不会起作用。

将相对非奇异组的汇聚组内协

方差矩阵检验非奇异组。其行

列式的对数为71.701。

表14为特征值表:

表14 特征值

函数特征值方差的 % 累积 % 正则相关性

1 15.035a94.5 94.5 .968

2 .878a 5.5 100.0 .684

a. 分析中使用了前 2 个典型判别式函数。

表15为Wilks表:

表15 Wilks 的Lambda

函数检验Wilks' Lambda 卡方df Sig.

1 到

2 .03

3 78.313 10 .000

2 .53

3 14.49

4 4 .006

该表中各项为Wilks的值、卡方值、自由度和显著性概率。当显著性概率小于0.05时,拒绝原假设,认为组间均值不相等。由表中可以看出,显著性概率均小于0.05,所以认为组间均值不等。

表16为标准化的典型判别式函数系数,其中包含了各独立变量对应的判别函数的标准化系数值:

表16 标准化的典型判别式函数系数

函数

1 2

居民消费水平-.124 -.666

社会固定资产投资-.121 .880

人均地区生产总值.857 .199

城镇居民人均总收入.737 .359

政府消费支出-.207 .040

表17为结构矩阵表,该表内为判别变量与根据函数内相关系数绝对大小排序的标准化公共判别函数变量之间的合并组内相关系数:

表17 结构矩阵

函数

1 2

人均地区生产总值.807*.210

居民消费水平.605*-.155

城镇居民人均总收入.567*.066

社会固定资产投资.038 .914*

政府消费支出.142 .662*

判别变量和标准化典型判别式函数之间的汇聚组

间相关性

按函数内相关性的绝对大小排序的变量。

*. 每个变量和任意判别式函数间最大的绝对相

关性

表18为典型判别式函数系数表,里面列出的是各变量及常数项对应的没有进行标准化的典型判别函数系数:

表18 典型判别式函数系数

函数

1 2

居民消费水平.000 .000

社会固定资产投资.000 .000

人均地区生产总值.000 .000

城镇居民人均总收入.000 .000

政府消费支出.000 .000

(常量) -11.563 -3.051

非标准化系数

利用上表17,可以得到前两个判别函数的表达式:

f1= -11.563,f2= -3.051

表18为组质心处的函数值表:

表19 组质心处的函数

G

函数

1 2

1 9.107 -1.300

2 -2.201 -.297

3 2.416 1.592

在组均值处评估的非标准化典型

判别式函数

该表包括对应与表17中两个函数的各类别的函数值。

可得:

河北:f1= -11.563,f2= -3.051

浙江:f1= -11.563,f2= -3.051

新疆:f1= -11.563,f2= -3.051

可以看出,河北、浙江和新疆的最大值在都在f2判别函数处取得。继续进行判别,将河北、浙江、新疆的分入聚类分析所分出的三个类中。

接下来进行进一步的判别分析,采用Fisher判别法。

首先来看分类处理的摘要,如表20所示:

表20 分类处理摘要

已处理的31

已排除的缺失或越界组代码0

至少一个缺失判别变量0

用于输出中31 下表21显示的为组的先验概率:

表21 组的先验概率

G 先验

用于分析的案例

未加权的已加权的

1 .333 3 3.000

2 .33

3 19 19.000

3 .333 6 6.000

合计 1.000 28 28.000

该表包括各类别和全部对应的先验概率和参与分析的未加权和经过加权的个案数。各类别的先验概率等于1除以类别数。在本文中,类别数等于3,所以各类别的先验概率均等于0.333。

然后进行Fisher判别,表22为Fisher线性判别函数的系数表:

表22 分类函数系数

G

1 2 3

居民消费水平-.004 -.004 -.005

社会固定资产投资.000 .001 .001

人均地区生产总值.003 .001 .002

城镇居民人均总收入.011 .008 .010

政府消费支出-.007 -.005 -.006

(常量) -244.062 -76.524 -137.397

Fisher 的线性判别式函数

利用该表得到3各类别的分类判别函数为:

f1= -0.004×居民消费水平+0.003×人均地区生产总值+0.011×城镇居民人均总收入-0.007×政府消费支出-244.062

f2= -0.004×居民消费水平+0.001×社会固定资产投资+0.001×人均地区生产总值+0.008×城镇居民人均总收入-0.005×政府消费支出-76.524 f3= -0.005×居民消费水平+0.001×社会固定资产投资+0.002×人均地区

生产总值+0.010×城镇居民人均总收入-0.006×政府消费支出-137.397 利用上述三个判别函数对河北、浙江和新疆的经济类型进行判断。将各省的变量值带入各函数。

经过计算可得:

河北:f1=25.76134,f2=161.23172,f3=87.4835

浙江:f1=211.8256,f2=169.4565,f3=214.2001

新疆:f1= -1.48952,f2=54.63684,f3=50.8343

由上面的结果可以看出:浙江在f3处取得最大值,因此应该被分为第三类。新疆、河北在f2处取得最大值,因此应该被分为第二类。表23为分类结果表:

表23 分类结果

G

预测组成员

合计1 2 3

初始计数

1 3 0 0 3

2 0 19 0 19

3 0 0 6 6

未分组的案例0 2 1 3 %

1 100.0 .0 .0 100.0

2 .0 100.0 .0 100.0

3 .0 .0 100.0 100.0

未分组的案例.0 66.7 33.3 100.0

a.已对初始分组案例中的 100.0% 个进行了正确分类。

5 结论

本文运用SPSS数理统计软件,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对我国31个省份2012年的地方生产总值进行了聚类分析。在此基础上,进行Fisher判别分析,得出了各类的Fisher线形判别函数,并且对所有样品进行了回报判别,回报率均为100%,说明建立的判别分析方法适用。同时,可以通过之前给出的Fisher规范判别函数,将待检验的个案的各指标带入其中,比较计算值的大小就可以预测该个案属于哪个类,如预测河北省属于第二类。

分析结果显示,北京、天津、上海构成了中国经济金字塔的最上层,由于北

京是中国政治、文化中心,又是中国的首都,因此经济发展必然有所保证;天津作为沿海直辖市,经济势头也相当迅猛;而上海是中国的经济中心,也是长江三角洲的核心,经济发展全国首屈一指。内蒙古、辽宁、江苏、福建、山东、广东构成了中国经济发展的第二集团。其中内蒙古最近几年由于煤炭资源的大力开采和畜牧业的天然优势,逐步将经济提升到第二集团;而辽宁、山东、江苏、福建和广东作为我国沿海地区,经济发展较其他地区优先,所以经济发展状况良好。其他省、市、自治区被划分为最后一类,这也是由于中国地区差异造成的。判别分析中,浙江被划分为第二集团,浙江作为沿海省份,与江苏、福建经济状况相当。河北和新疆被划分为最后一类,由中西部发展迟缓造成。按经验分析,这样的聚类和判别分析也是相当合理。

参考文献:

[1] 孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:北京航空航天大学数学系, 2014.

[2] 国家统计局.2013年中国统计年鉴[M].北京:中国统计出版社,2013.

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

北航2014级硕士研究生应用数理统计答案(B卷)

2014-2015 学年 第一学期期末试卷答案 学号 姓名 成绩 考试日期: 2015年1月13日 考试科目:《应用数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设122,,n x x x ,是来自正态总体2(,)N μσ的简单样本,则c = n m m - 时,统计量2 22112 2211 ()()m k k k n k k k m x x c x x η-=-=+-=-∑∑服从F -分布。 2. 设12,,n x x x ,是来自正态总体2 (0,)N σ的简单样本,用2 2 21 1?()n i i nx x n σ ===∑估计2σ,则均方误差2222?()E σσ σ- 42σ 。 3.设总体X 的密度函数为22 ,[0,] (;)0, [0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则2()q θθ=的矩估计?q = 2 94 x 或2 1 2n i i x n =∑ 。 4.在双因素方差分析中,总离差平方和T S 的分解式为 T A B A B e S S S S S ?=+++ 其中2 111 ()p q r e ijk ij i j k S x x ?====-∑∑∑,11r ij ijk k x x r ?==∑, 则e S 的自由度是 (1)p q r - 或n pq -,其中n pqr = 。

二、(本题12分)设总体X 的密度函数为111,(0,1) (;)0,(0,1)x x f x x θ θθ-?∈?=???? ,其中0θ>, 12,,,n x x x 是来自总体X 的简单样本。 (1)求θ的极大似然估计?θ;(2)求θ的一致最小方差无偏估计;(3)问θ的一致最小方差无偏估计是否为有效估计?证 明你的结论。 解(1)似然函数为 (1)()1 1 {01}121 1 ()() (,,,)n n i x x n n i L x I x x x θ θθ-<≤<== ∏ 对数似然函数为 (1)(){01}121 1 ln ()ln (1)ln ln (,,,)n n i x x n i L n x I x x x θθθ <≤<==-+-+∑ 求导,有 2 1 ln ()1 ln n i i L n x θθθθ =?=--?∑ 令ln ()0L θθ?=?,可得θ的极大似然估计为1 1?ln n i i x n θ==-∑。 (2)因为 (1)()1 1 12{01}121 1 (,,,;)() (,,,)n n n i x x n n i f x x x x I x x x θ θθ-<≤<== ∏ (1)(){01}121 1 1 (,,,)exp{(1)ln }n n x x n i n i I x x x x θθ <≤<==-∑ 令1 ()n c θθ = ,(1)(){01}12()(,,,)n x x n h x I x x x <≤<= ,1 ()1w θθ = -,1 ln n i i T x ==∑,由于() w θ的值域(0,)+∞有内点,由定理2.2.4知1 ln n i i T x ==∑是完全充分统计量。而 1 1 1 1 (ln )(ln )i E x x x dx θθθ -= =-? 所以 1 1 (ln )(ln )n n i i i i E x E x n θ====-∑∑

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

北航数理统计大作业(逐步回归)

应用数理统计第一次大作业 学号: 姓名: 班级:B11班 2015年12月

民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量

0.符号说明 变量符号 国民生产总值X1 铁路客运量X2 民航航线里程X3 入境过夜旅游人数X4 城镇居民人均可支配收入X5 1.引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行分析,研究1996年起至2013年我国民航客运量y(万人)与国民生产总值X1(亿元)、铁路客运量X2(万人)、民航航线里程X3(万公里)、入境过夜旅游人数X4(万人)、城镇居民人均可支配收入X5(元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。

北航数理统计第二次数理统计大作业 判别分析

数理统计大作业(二) 全国各省发展程度的聚类分析及判别分 析 指导教师 院系名称材料科学与工程院 学号 学生姓名 2015 年 12 月21 日

目录 全国各省发展程度的聚类分析及判别分析 (1) 摘要: (1) 引言 (1) 1实验方案 (2) 1.1数据统计 (2) 1.2聚类分析 (3) 1.3判别分析 (4) 2结果分析与讨论 (5) 2.1聚类分析结果 (5) 2.2聚类分析结果分析: (8) 2.3判别分析结果 (9) 2.4 Fisher判别结果分析: (11) 参考文献: (16)

全国各省发展程度的聚类分析及判别分析 摘要: 利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析,分析选择最佳聚类类数,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行发展分类。本文选取了7项社会发展指标作为决定发展程度的影响因素,其中经济因素为主要因素,同时评估城镇化率和人口素质因素。各项数据均来自2014年国家统计年鉴。分析结果表明:北京市和上海市和天津市为同一类;江苏省和山东省和广东省为同一类型;河北、湖北、河南、湖南、四川、辽宁为同一类;其余的为另一类。 关键词:聚类分析、判别分析、发展 引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底

北航数理统计大作业(逐步回归)

BEIHANG UNIVERSITY 应用数理统计 第一次大作业 学号: 姓名:一 班级:B11班 2015年12月

民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS寸各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量

1. 引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行 分析,研究1996年起至2013年我国民航客运量y (万人)与国民生产总值X i (亿元)、铁路客运量X2 (万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配收入X5 (元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。 2. 数据的统计与分析 本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

北航数理统计聚类分析大作业

应用数理统计 地区生产总值及经济发展状况的聚类 和判别分析 摘要:本文选取了06、07年地区生产总值的各项指标数据,运用统计学方法对其经济发展状况进行了分类研究。分析结果显示,北京﹑山东﹑上海﹑广东等东部沿海地区在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等省份处于中游,属于中等发达地区;西藏﹑青海﹑宁夏等中西部省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。通过本次研究揭示了我国的经济优势地区和经济薄弱地区,这对国家进行统筹规划、实现共同富裕具有重要意义。

关键词:生产总值,经济发展, SPSS,聚类分析,判别分析

目录 1 引言 (4) 1.1 源数据的提取 (4) 2 地区经济发展的聚类分析和判别分析 (6) 2.1 相关自变量的选择 (7) 2.2 聚类分析 (7) 2.3 判别分析 (10) 3 总结 (13)

1 引言 国内生产总值(Gross Domestic Product,简称GDP)是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可以反映一个国家的经济表现,还可以反映一国的国力与财富。 地区生产总值(Gross Regional Product,简称GRP,或者Gross Regional Domestic Product简称GRDP)为一个特定区域(常为一个国家的行政区域)经济产出的指标,指区域内各个产业增加值的总和。地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类分析和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 1.1 源数据的提取 本文所用的数据全来自《中国统计年鉴2007》和《中国统计年鉴2008》,从中提取了有关北京市、河北省等31个省市、自治区、直辖市(不包括港澳台地区)2006、2007年的生产总值的各项指标

北航数理统计判别分析大作业

数理统计(课程大作业2) 聚类和判别分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月22日

摘要:本文介绍聚类与判别方法,然后结合实际,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。 关键字:经济类型 SPSS 聚类分析判别分析 1 引言 中华人民共和国成立后,通过有计划地进行大规模的社会主义建设,中国已成为世界上最具有发展潜力的经济大国之一,人民生活总体上达到小康水平。按预定计划,到2010年,中国将建立起比较完善的社会主义市场经济体制;到2020年,建立起比较成熟的社会主义市场经济体制。 但是,我国的经济发展还不太均衡,地区性差异十分显著,尤其是东西部发展十分不同步。近年来,这种不均衡引起了人们的注意。新中国成立至1978年的30年间,中国政府一直致力于平衡发展战略,各种投资政策和财政支付转移明显地向边远和落后地区倾斜,然而效果不佳,付出的代价非常大。自1978年实行改革开放以后,中国政府在区域经济发展战略上来了一个大转变,从平衡发展战略转向不平衡发展战略,优先发展沿海地区,发展和开放的政策明显向沿海地区倾斜,使得沿海地区得以迅速发展起来,也迅速地拉大了沿海与内地的经济发展差距.从地区生产总值来看,2003年广东省为13626亿元,约相当于3个湖南(4639亿元)或10个贵州(1365亿元)或35个青海(390亿元).从人均地区生产总值来看,2003年浙江为20147亿元,3倍于江西(6678元),4倍于甘肃,5.6倍于贵州。 本文就是在这样的背景下提出来的,使用SPSS Statistics 19.0这一统计软件,利用国家统计局公布的《中国统计年鉴2013》中提供的2012年我国各地区经济发展的数据,依据各地区居民消费水平(元)、社会固定资产投资(亿元)、人均地区生产总值(元)、政府消费支出(亿元)、城镇居民人均总收入(元/人)5个与经济发展水平相关联的指标,对全国28个省、自治区、直辖市进行聚类分析,并对剩下的三个省市进行判别分析,以此对我国各地区的经济发展水平进行分类,并对分类的结果进行了分析。

数理统计大作业(北航)2014版

应用数理统计 大作业一 学院:XXXXXXX 学号:XXXXXXX 姓名:XXX 指导老师:XXX 2014年12月21日

国民生产总值增量的多元线性回归模型 摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系[1]。本论文搜集了我国从1998至2012年15年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件SPSS 19.0[2]对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。模型建立之后,又将2013年数据作为测试集测试模型的拟合精确度,得到的结果达到预期值,得出模型建立较为成功。 关键词:逐步回归法,国民生产总值增量,线性拟合 一引言 国民生产总值(Gross Domestic Product)是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。下文就以1998年至2012年的统计数据为标准,利用SPSS 软件作出了多元线性回归分析。

二统计分析 2.1变量说明 因变量Y——国民生产总值增值(亿元);自变量x1——第一产业增加值(亿元) 自变量x2——第二产业增加值(亿元) 自变量x3——第三产业增加值(亿元) 自变量x4——工业增加值(亿元) 自变量x5——建筑业增加值(亿元)2.2统计数据 训练组 国民生产总 值增值(亿元) 第一产业增 加值(亿元) 第二产业增 加值(亿元) 第三产业增 加值(亿元) 工业增加值 (亿元) 建筑业增加 值(亿元) 2012年46366.05 52373.63 235161.99 231934.48 199670.66 35491.34 2011年71591.25 47486.21 220412.81 205205.02 188470.15 31942.66 2010年60609.99 40533.6 187383.21 173595.98 160722.23 26660.98 2009年26857.38 35226 157638.78 148038.04 135239.95 22398.83 2008年48235.12 33702 149003.44 131339.99 130260.24 18743.2 2007年49495.88 28627 125831.36 111351.95 110534.88 15296.48 2006年31377.06 24040 103719.54 88554.88 91310.94 12408.61 2005年25059.03 22420 87598.09 74919.28 77230.78 10367.31 2004年24055.58 21412.73 73904.31 64561.29 65210.03 8694.28

2007北航应用数理统计试期末考试题及参考答案

2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 (1),01(;) 0 , x x p x ααα?+<<=?? 其他 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-?-≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。

(1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。 五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 2 11N(0,)1,2,...,;1,...,0,0. ij i j ij ij ij p q i j i j i j x i p j q μαβεεσεαβαβ===+++???? ?==??==?? ∑∑服从正态总体分布且相互独立和满足

北航研究生数理统计历年试题

2007-2008年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 (1),01(;) 0 , x x p x ααα?+<<=?? 其他 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-?-≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。

(1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。 五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 2 11N(0,)1,2,...,;1,...,0,0. ij i j ij ij ij p q i j i j i j x i p j q μαβεεσεαβαβ===+++???? ?==??==?? ∑∑服从正态总体分布且相互独立和满足

北航数理统计大作业-聚类分析与判别分析

应用数理统计聚类分析与判别分析 (第二次作业) 学院: 姓名: 学号: 2013年12月

我国部分城市经济发展水平的聚类分析 和判别分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找评价城市经济发展水平的指标,包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS综合考虑各指标,对所选城市进行K-Means 聚类分析,利用Fisher 线性判别待判城市类型,进一步验证所建模型的有效性。 关键字:聚类分析,判别分析,SPSS,城市经济发展水平 1,引言 经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。同时,中国城市化又处于周期转折点上,上一周期行将结束,下一周期将要开始。2011年中国城市化率首次突破50%,意味着中国城镇人口首次超过农村人口,中国城市化进入关键发展阶段,这必将引起深刻的社会变革。 根据2011年4月公布的第六次人口普查数据,2010年中国居住城镇的人口接近6.6亿人,城镇化率达到49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去30多年中,中国的城市化发展取得了很大成绩。然而,总体上中国的城市化道路是城市化滞后于工业化的非均衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市发展,导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化道路。 具体而言,中国城市经济发展水平受限于地理、环境、资源以及国家政策等因素的影响,我国不同区域的城市化进程尚存在很大差异。2012年中国城市发展报告中指出,从区域角度看,目前沿海一带城市发展起步早,与国际贸易交流往来频率高,经济发展水平较高,西部地区受到国家政策的大力扶持,表现出了强劲的增长势头,西部主要城市经济发展水平仅次于沿海发达地区,而中部地区

北航数理统计第二次数理统计大作业-判别分析

北航数理统计第二次数理统计大作业-判别分析

数理统计大作业(二) 全国各省发展程度的聚类分析及判别分 析 指导教师 院系名称材料科学与工程院 学号 学生姓名 2015 年 12 月21 日

目录 全国各省发展程度的聚类分析及判别分析 (1) 摘要: (1) 引言 (1) 1实验方案 (2) 1.1数据统计 (2) 1.2聚类分析 (3) 1.3判别分析 (4) 2结果分析与讨论 (5) 2.1聚类分析结果 (5) 2.2聚类分析结果分析: (8) 2.3判别分析结果 (9) 2.4 Fisher判别结果分析: (11) 参考文献: (16)

全国各省发展程度的聚类分析及判别分析 摘要: 利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析,分析选择最佳聚类类数,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行发展分类。本文选取了7项社会发展指标作为决定发展程度的影响因素,其中经济因素为主要因素,同时评估城镇化率和人口素质因素。各项数据均来自2014年国家统计年鉴。分析结果表明:北京市和上海市和天津市为同一类;江苏省和山东省和广东省为同一类型;河北、湖北、河南、湖南、四川、辽宁为同一类;其余的为另一类。关键词:聚类分析、判别分析、发展 引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底

北航数理统计大作业基于SPSS的建筑业企业房屋竣工面积聚类与判别分析

本科毕业设计(论文) 数理统计 基于SPSS的建筑业企业房屋竣工面积 聚类与判别分析 Cluster and Discriminant Analysis of Completed Area of Houses in Construction Enterprises Based on SPSS 学院:仪器科学与光电工程学院 专业:仪器科学与技术 作者:池浩湉 学号:SY1617228 指导教师:孙海燕 北京航空航天大学 2017年11月

北京航空航天大学--数理统计A13 中文摘要 中文摘要 摘要:改革开放以来,特别是20世纪90年代以来,城镇化的快速发展、城镇住房制度的改革及其深化,使房地产在推动我国国民经济发展,提高人民生活水平方面发挥了重要作用。因此,建筑业对国民经济及其他产业的推动作用不可忽视,因此,研究建筑业企业房屋竣工面积具有重要的意义。 为了研究全国不同地区建筑业企业房屋竣工面积情况,本文收集了2016年第三季度全国31个省、直辖市、自治区的建筑业企业房屋竣工面积的数据,包括住宅房屋、商业及服务用房屋、办公用房屋科研、教育和医疗用房屋、文化体育娱乐用房屋、厂房及建筑物、仓库这7个类别的房屋竣工面积的数据,利用SPSS软件进行聚类分析,并建立判别函数模型,将不同地区进行分类,分别得到分为3类和4类的两个模型,且这个两个模型中,浙江省和江苏省均各占一类。之后利用建立的分类模型,对新的变量2016年第二季度河北省、江苏省、浙江省和安徽省这四个省份进行判别分类,得到了较好的结果,最后,对结果进行了分析。 关键词:Building completion area; SPSS; cluster analysis; discriminant analysis

相关文档
相关文档 最新文档