文档库 最新最全的文档下载
当前位置:文档库 › 北航数理统计大作业-聚类分析与判别分析

北航数理统计大作业-聚类分析与判别分析

北航数理统计大作业-聚类分析与判别分析
北航数理统计大作业-聚类分析与判别分析

应用数理统计聚类分析与判别分析

(第二次作业)

学院:

姓名:

学号:

2013年12月

我国部分城市经济发展水平的聚类分析

和判别分析

摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找评价城市经济发展水平的指标,包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS综合考虑各指标,对所选城市进行K-Means 聚类分析,利用Fisher 线性判别待判城市类型,进一步验证所建模型的有效性。

关键字:聚类分析,判别分析,SPSS,城市经济发展水平

1,引言

经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。同时,中国城市化又处于周期转折点上,上一周期行将结束,下一周期将要开始。2011年中国城市化率首次突破50%,意味着中国城镇人口首次超过农村人口,中国城市化进入关键发展阶段,这必将引起深刻的社会变革。

根据2011年4月公布的第六次人口普查数据,2010年中国居住城镇的人口接近6.6亿人,城镇化率达到49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去30多年中,中国的城市化发展取得了很大成绩。然而,总体上中国的城市化道路是城市化滞后于工业化的非均衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市发展,导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化道路。

具体而言,中国城市经济发展水平受限于地理、环境、资源以及国家政策等因素的影响,我国不同区域的城市化进程尚存在很大差异。2012年中国城市发展报告中指出,从区域角度看,目前沿海一带城市发展起步早,与国际贸易交流往来频率高,经济发展水平较高,西部地区受到国家政策的大力扶持,表现出了强劲的增长势头,西部主要城市经济发展水平仅次于沿海发达地区,而中部地区

城市发展的水平已经落到了最后。显然,通过研究不同城市的经济发展状况和经济类型,指出其发展差异所在,可以为政府在出台相关政策来平衡区域经济发展,缩小不同地区人民生活水平的差异提供一定的指导意见,也为我们深刻理解国家相关政策提供了扎实的基础。

2,相关统计基础理论

2.1,聚类分析

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类分析的目标就是在相似的基础上收集数据来分类。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

本文使用统计软件SPSS对所收集的数据进行快速聚类,其特点是:在确定类别数量基础上,先给定一个粗糙的初始分类,然后按照某种原则进行反复修改,直至分类较为合理。在选定类中心作为凝聚点的基础上进行分类和修正的方法有很多,本文使用的是K-Means 算法。

K-Means 算法接受输入量k ;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

K-Means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。一般而言,k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

2.2,判别分析

判别分析是市场研究的重要分析技术,也是多变量分析技术。它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与

其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot 二元判别图(概念图)。同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。判别分析属于监督类分析方法,例如:市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。并在低维度空间表现这种差异。

判别分析主要有距离判别、贝叶斯(Bayes )判别、费舍尔(Fisher )判别等几种常用方法。

距离判别的基本原理是:首先对样本到总体G 之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis )规定为:

21(x,)(x )'(x )d G u u -=-∑-

式中∑为p 元总体G 的协方差阵,x 是取自G 的样品,则该式即为样品x 到总体G 的马氏距离。

贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。

费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y 到各个总体*j G 的距离可以用欧式距离度量,即:

2

*

*

2

2j

i i j 1(y,G )||||(a 'x a 'u )m

j i d y u ==-=-∑

由此导出Fisher 判别规则为:

2*2*j j 1(y,G )min (y,G )j k

d d ≤≤=, 则l x G ∈

本文及使用Fisher 判别建立线性判别函数进行距离判别。

3,模型建立

3.1 设置变量

本文综合考虑了评价城市发展指数衡量因素,选取衡量一个城市经济发展水平的主要因素,城市化进程总是伴随着工业化发展,发达的服务业水平是衡量现

代新兴城市的主要指标,此外,综合考虑了固定资产投资总额与社会消费品零售总额以及货物进出口总额作为类别分析的主要经济指标:

X1:城市第二产业产值(亿元)

X2:城市第三产业产值(亿元)

X3:城市固定资产投资总额(亿元)

X4:城市社会消费品零售总额(亿元)

X5:货物进出口总额(亿元)

从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类:G1:发达城市

G2:中度发达城市

G3:欠发达城市

3.2 数据收集和整理

本文所有数据来源于《中国统计年鉴(2012)》,选取2011年度36个城市主要经济发展水平做模型建立及分析。其中前32个城市相关经济指标水平作为初始样本用于划分类别,建立类别总体G;最后四个城市(杭州、南宁、昆明、银川)及其相关经济发展水平用作待判样品,利用判别函数进行判别分析。所有相关数据经过量纲统一规则化处理见表1所示。

表1 我国部分城市相关经济发展水平(2011年)

序号城市第二产业

(亿元)

第三产业

(亿元)

固定资产投资

总额(亿元)

社会消费品零售

总额(亿元)

货物进出口总

额(亿元)

1 北京3752.5 12363.

2 5851.5201 6900.3246 23374.9884

2 天津5928.

3 5219.2 7483.6973 3395.06 6203.4642

3 石家庄2031.9 1635.8 3026.9778 1662.986

4 850.1112

4 太原949.2 1097.1 1024.1444 973.2937 513.6306

5 呼和浩特790.0 1277.8 1031.6781 890.0478 121.4736

6 沈阳3026.9 2609.8 4577.094 2426.8655 637.215

7 大连3204.2 2550.7 4580.0585 1924.794 3630.5874

8 长春2092.7 1620.2 2356.6189 1515.8537 1040.9322

9 哈尔滨1647.2 2147.8 3011.971 2070.4129 307.0548

10 上海7927.9 11142.9 5064.2624 6814.8 26246.151

11 南京2760.8 3220.4 3757.2517 2697.0997 3440.6358

12 宁波3349.5 2454.5 2385.5072 2018.8617 5891.2092

13 合肥2002.2 1426.2 3376.9652 1111.1188 1207.719

14 福州1711.2 1700.1 2720.2827 1947.8102 2083.4856

15 厦门1297.1 1217.5 1128.0872 800.2779 4210.0002

16 南昌1579.3 974.7 2022.3297 928.3438 473.0226

17 济南1829.0 2339.5 1934.3389 2114.2868 624.123

18 青岛3150.7 3158.5 3502.5382 2302.3703 4329.1302

19 郑州2874.2 1974.0 3002.5 1987.1147 959.7354

20 武汉3254.0 3309.5 4255.1621 3031.7885 1367.3748

21 长沙3151.7 2224.3 3510.2425 2201.6112 449.3604

22 广州4577.0 7641.9 3412.2 5243 6970.26

23 深圳5343.3 6155.7 2136.3882 3520.8736 24845.982

24 海口177.9 487.7 395.0408 387.1804 236.1756

25 重庆5543.0 3623.8 7579.4454 3487.807 1753.0716

26 成都3143.8 3383.4 4944.0157 2861.2835 2274.3798

27 贵阳586.8 733.7 1600.5898 584.3292 392.9796

28 拉萨75.2 137.2 220.5031 102.5948 78.4452

29 西安1697.2 1993.9 3352.12 1965.9774 754.74

30 兰州656.5 663.5 950.5758 639.7231 112.7658

31 西宁411.3 332.0 528.0052 271.2873 48.9378

32 乌鲁木齐759.1 908.9 427.6221 695.0278 541.7904

33 杭州3323.8 3458.5 3100.0218 2548.3599 3838.308

34 南宁829.6 1076.3 1950.8628 1073.1541 150.6252

35 昆明1161.2 1214.6 2275.5286 1271.7298 721.3224

36 银川525.2 414.4 720.5627 274.4705 72.6 4,数据结果及分析

4.1 聚类分析

4.1.1 聚类分析过程

采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:

(1)K-均值聚类初始聚类中心

初始聚类中心

聚类

1 2 3

第二产业(亿元)7928 5928 75

第三产业(亿元)11143 5219 137

固定资产投资总额(亿元)5064.262400000

001

7483.697300000

001

220.5031000000

00

社会消费品零售总额(亿元)6814.8000 3395.0600 102.5948

货物进出口总额(亿元)26246.15100000

0000

6203.464200000

000

78.44520000000

(2)样本聚类

聚类成员

案例号城市聚类距离案例号城市聚类距离

1 北京 1 3937.77

2 17 济南

3 1347.154

2 天津 2 4379.850 18 青岛 2 1710.043

3 石家庄 3 1259.026 19 郑州 3 1969.261

4 太原 3 1214.063 20 武汉 2 2771.834

5 呼和浩特 3 1414.697 21 长沙 3 2607.583

6 沈阳 3 3452.674 22 广州 2 5518.235

7 大连 2 1842.873 23 深圳 1 4887.376

8 长春 3 837.811 24 海口 3 2474.750

9 哈尔滨 3 1584.291 25 重庆 2 4072.601

10 上海 1 3214.673 26 成都 2 1942.910

11 南京 2 1681.205 27 贵阳 3 1402.620

12 宁波 2 3455.979 28 拉萨 3 2918.190

13 合肥 3 1536.881 29 西安 3 1652.625

14 福州 3 1682.563 30 兰州 3 1767.334

15 厦门 3 3577.169 31 西宁 3 2433.503

16 南昌 3 617.367 32 乌鲁木齐 3 1898.368 (3)最终聚类中心

最终聚类中心

聚类

1 2 3

第二产业(亿元)5675 3879 1467 第三产业(亿元)9887 3840 1375

固定资产投资总额(亿元)4350.723566666

668

4655.541788888

890

2009.884360000

000

社会消费品零售总额(亿元)5745.3327 2995.7850 1263.8072

货物进出口总额(亿元)24822.37380000

0000

3984.457000000

000

782.1849000000

00

最终聚类中心间的距离

聚类 1 2 3

1 21946.797 26337.272

2 21946.797 5669.843

3 26337.272 5669.843

(4)聚类方差分析

方差分析

聚类误差 F Sig.

均方df 均方df

第二产业(亿元)34313207.735 2 1231856.479 29 27.855 .000 第三产业(亿元)100446019.013 2 1811059.407 29 55.463 .000 固定资产投资总额(亿元)24862358.673 2 2205819.376 29 11.271 .000 社会消费品零售总额(亿元)30454986.050 2 887338.531 29 34.322 .000 货物进出口总额(亿元)753836973.383 2 1848036.992 29 407.912 .000 F 检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。

4.1.2 聚类结果分析

从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:

G1(发达城市):北京,上海,深圳。

G2(中度发达城市):天津,大连,南京,宁波,青岛,武汉,广州,重庆,

程度。

G3(欠发达城市):石家庄,太原,呼和浩特,沈阳,长春,哈尔滨,合肥,

福州,厦门,南昌,济南,郑州,长沙,海口,贵阳,拉萨,西安,兰州,西宁,

乌鲁木齐。

从城市分类结果可知,北上深作为国际化城市发展代表,其经济发展水平远

超其他沿海城市及内陆城市;沿海开放城市以及内陆主要枢纽城市的发展水平高

于其他城市;中部地区级西部城市发展水平受限于地理、资源和资本等因素,经

济发展表现不强劲。从最后的方差分析中可知,分类检验水平显著,分类结果值

得借鉴。

4.2 判别分析

4.2.1 判别结果及分析

一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;因

变量(dependent variable):分组变量——定性数据(个体、产品/品牌、特征,

定类变量)。自变量(independent variable):判别变量——定量数据(属性的评价

得分,数量型变量)。

(1)判别图

图1 典则判别函数

从图中很明显,看到三个组中心也就是经济发展水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。

(2)典型判别式函数摘要

特征值

函数特征值方差的 % 累积 % 正则相关性

1 37.790a98.0 98.0 .987

2 .765a 2.0 100.0 .658

a. 分析中使用了前 2 个典型判别式函数。

Wilks 的 Lambda

卡方df Sig.

函数检验Wilks 的

Lambda

1 到

2 .015 114.106 10 .000

2 .567 15.336 4 .004

标准化的典型判别式函数系数

函数

1 2

第二产业(亿元)-.974 .940

第三产业(亿元)-1.198 .773

固定资产投资总额(亿元).752 .211

社会消费品零售总额(亿元) 1.190 -.675

货物进出口总额(亿元) 1.409 -.314

结构矩阵

函数

1 2

货物进出口总额(亿元).863*.090

第二产业(亿元).184 .920*

固定资产投资总额(亿元).076 .857*

社会消费品零售总额(亿元).231 .675*

第三产业(亿元).308 .567*

判别变量和标准化典型判别式函数之间的汇聚组间相

关性

按函数内相关性的绝对大小排序的变量。

*. 每个变量和任意判别式函数间最大的绝对相关性

从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的98%,第二判别函数解释了2%;两个判别函数解释了100%;当然,两个判别函数直接具有显著的差异和判别力。

(3)分类统计量

组的先验概率

类别先验用于分析的案例

未加权的已加权的

1 .333 3 3.000

2 .33

3 9 9.000

3 .333 20 20.000

合计 1.000 32 32.000

分类函数系数

类别

1 2 3

第二产业(亿元)-.019 -.001 -.001

第三产业(亿元)-.021 -.004 -.003

固定资产投资总额(亿元).011 .002 .001

社会消费品零售总额(亿元).030 .006 .004

货物进出口总额(亿元).022 .003 .001

(常量) -231.519 -12.269 -2.727

Fisher 的线性判别式函数

Fisher线性判别函数,我们主要用来构建判别方程,理论上说:如果我们知道某个城市在5经济指标的发展水平值,我们就可以估计出该城市应该是哪种类型的。

4.2.2 判别检验

判别变量是数量型测量尺度变量,分析样本个数至少比判别变量多两个,我

们为了得到判别函数,经常需要把样本随机分成训练样本和检验样本等工作,如本文最后四个(序号33-36)个体就可作为检验样本,也成待判样本。

由上表可知Fisher 判别方程:

1123452123453

123450.0190.0210.0110.0300.022231.519

0.0010.0040.0020.0060.00312.2690.0010.0030.0010.0040.001 2.727

G X X X X X G X X X X X G X X X X X =--+++-??

=--+++-??=--+++-? 判别规则:

2*2*j j 1(y,G )min (y,G )j k

d d ≤≤=, 则l x G ∈

判别结果:

1 杭 州

2 1583.391 2 南 宁

3 842.77

4 3 昆 明 3 401.567 4

银 川

3

2095.787

直观上,杭州作为沿海省会城市,虽然达不到北上深的经济发展地位,但其良好的地理位置以及投资开发环境,使得其经济发展水平非常迅速,归类到第二类经济发展城市是可以理解与接收的。其余三个城市虽然都是省会城市,但都属于西部城市,地理位置以及资源物产相对欠缺,得力于国家西部大开发政策影响,经济发展方面距第三类城市相近。

5,结论

从本文所建立的模型对我国部分主要城市经济发展水平进行了聚类分析与判别分析,并运用模型判断最后四个城市,验证模型的有效性。从相关结果及分析可以得到一些直观的结论。

北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量的投资建设,一批高科技产业带动的行业发展极大的推动了北京的经济发展;上海作为中国的经济金融中心,加之其周边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量;深圳的发展是中国改革开放以来经济发展的典范,开放的力量使得这个沿海城市一举成为中国发达城市的先驱。判别图里清晰的表明北上广的发展远远超过二三类型的城市发展水平。

沿海主要城市以及内陆枢纽城市的发展得益于丰富的资源以及便利交通带

来的大量投资,或者传统的工业基础,这些因素都使得这一类的城市发展迅速,势头强劲。其余中西部城市的发展各有其优劣,但总体上西部城市受国家西部大开发政策影响,变现出新兴的发展势头。判别图分析可见二三类型经济发展水平相差不大。

由此,所建立模型直观上符合我国部分主要城市经济发展水平类型,最后的四个城市判别再次说明了模型的有效性。

参考文献

[1]孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数学系,

2011.

[2]张建同,孙昌言. 以Excel和SPSS为工具的管理统计[M]. 北京:清华大学出版社,2002.

[3] 国家统计局.2012年中国统计年鉴[M]. 中国统计出版社,2012

[4] 中国城市经济学会. 中国城市经济[J].北京:中国社会科学院

北航数值分析大作业一

《数值分析B》大作业一 SY1103120 朱舜杰 一.算法设计方案: 1.矩阵A的存储与检索 将带状线性矩阵A[501][501]转存为一个矩阵MatrixC[5][501] . 由于C语言中数组角标都是从0开始的,所以在数组MatrixC[5][501]中检索A的带内元素a ij的方法是: A的带内元素a ij=C中的元素c i-j+2,j 2.求解λ1,λ501,λs ①首先分别使用幂法和反幂法迭代求出矩阵按摸最大和最小的特征值λmax和λmin。λmin即为λs; 如果λmax>0,则λ501=λmax;如果λmax<0,则λ1=λmax。 ②使用带原点平移的幂法(mifa()函数),令平移量p=λmax,求 出对应的按摸最大的特征值λ,max, 如果λmax>0,则λ1=λ,max+p;如果λmax<0,则λ501=λ,max+p。 3.求解A的与数μk=λ1+k(λ501-λ1)/40的最接近的特征值λik (k=1,2,…,39)。 使用带原点平移的反幂法,令平移量p=μk,即可求出与μk最接近的特征值λik。 4.求解A的(谱范数)条件数cond(A)2和行列式d etA。 ①cond(A)2=|λ1/λn|,其中λ1和λn分别是矩阵A的模最大和 最小特征值。

②矩阵A的行列式可先对矩阵A进行LU分解后,detA等于U所有对角线上元素的乘积。 二.源程序 #include #include #include #include #include #include #include #define E 1.0e-12 /*定义全局变量相对误差限*/ int max2(int a,int b) /*求两个整型数最大值的子程序*/ { if(a>b) return a; else return b; } int min2(int a,int b) /*求两个整型数最小值的子程序*/ { if(a>b) return b; else return a; } int max3(int a,int b,int c) /*求三整型数最大值的子程序*/ { int t; if(a>b) t=a; else t=b; if(t

《数理统计》上机四聚类分析

《数理统计》 课程实验报告(四)

1 实验内容 聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS 、SAS 等。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 请将‘聚类分析数据.xlsx ’中四川省主要城市设施水平的数据用合适的聚类 分析方法进行聚类,将四川省主要城市进行分类,并说明理由。 2 实验主要步骤 (1) 对数据标准化处理 利用公式 (min) (max)(min) j j j ij ij x x x x x --= ' (i=1,2,…..n,j=1,2,…m ) 其中(max)和(max)j j x x 分别为第j 个变量的最大和最小值。显然,10≤'≤ij x 。 (2) 计算距离系数阵 q m k q jk ik ij x x d 1 1?? ???? -=∑= (3) 计算相似系数统计量

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航2015级硕士研究生数理统计参考答案(B层)

2015-2016 学年 第一学期期末试卷 参考答案 学号 姓名 成绩 考试日期: 2016年1月15日 考试科目:《数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量2 21 () n k k x c x x η==-∑服从F -分布,其中1 1n k k x x n ==∑。((1)n n -) 2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则 当c = 时,统计量2?(1)cx x σ =-是参数()(1)q p p p =-的无偏估计,其中1 1n k k x x n ==∑。(1n n -) 3.设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则θ的充分统计量是 。(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =, μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。((3.1,5.4))

二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。 解(1)似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导,有 22 224 1 ln ()1(1)24n i i L n x σσσσ=?=-+-?∑ 令22 ln ()0L σσ?=?,可得θ的极大似然估计为2 21 1?(1)2n i i x n σ==-∑。 (2)因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=,()1h x =,22 1()4w σσ =- ,,由于2()w σ的值域(,0)-∞有内 点,由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11?(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数,又是2σ的无偏估计,由定理2.2.5知2 21 1?(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。 (3)224112 ?()((1))4Var Var x n n σ σ=-=。因为

北航数值分析大作业第一题幂法与反幂法

《数值分析》计算实习题目 第一题: 1. 算法设计方案 (1)1λ,501λ和s λ的值。 1)首先通过幂法求出按模最大的特征值λt1,然后根据λt1进行原点平移求出另一特征值λt2,比较两值大小,数值小的为所求最小特征值λ1,数值大的为是所求最大特征值λ501。 2)使用反幂法求λs ,其中需要解线性方程组。因为A 为带状线性方程组,此处采用LU 分解法解带状方程组。 (2)与140k λλμλ-5011=+k 最接近的特征值λik 。 通过带有原点平移的反幂法求出与数k μ最接近的特征值 λik 。 (3)2cond(A)和det A 。 1)1=n λλ2cond(A),其中1λ和n λ分别是按模最大和最小特征值。 2)利用步骤(1)中分解矩阵A 得出的LU 矩阵,L 为单位下三角阵,U 为上三角阵,其中U 矩阵的主对角线元素之积即为det A 。 由于A 的元素零元素较多,为节省储存量,将A 的元素存为6×501的数组中,程序中采用get_an_element()函数来从小数组中取出A 中的元素。 2.全部源程序 #include #include void init_a();//初始化A double get_an_element(int,int);//取A 中的元素函数 double powermethod(double);//原点平移的幂法 double inversepowermethod(double);//原点平移的反幂法 int presolve(double);//三角LU 分解 int solve(double [],double []);//解方程组 int max(int,int); int min(int,int); double (*u)[502]=new double[502][502];//上三角U 数组 double (*l)[502]=new double[502][502];//单位下三角L 数组 double a[6][502];//矩阵A int main() { int i,k; double lambdat1,lambdat2,lambda1,lambda501,lambdas,mu[40],det;

聚类和判别分析

聚类和判别分析 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*第九章聚类和判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*聚类和判别分析简介基本概念()聚类分析聚类分析的基本思想是找出一些能够度量样本或指标之间相似程度的统计量以这些统计量为划分类型的依据把一些相似程度较大的样本(或指标)聚合为一类把另外一些彼此之间相似程度较大的样本又聚合为一类。 根据分类对象的不同聚类分析可分为对样本的聚类和对变量的聚类两种。 ()判别分析判别分析是判别样本所属类型的一种统计方法。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*聚类和判别分析简介基本概念()二者区别不同之处在于判别分析是在已知研究对象分为若干类型(或组别)并已取得各种类型的一批已知样本的观测量数据的基础上根据某些准则建立判别式然后对未知类型的样本进行差别分析。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*样本间亲疏关系的度量()连续变量的样本间距离常用度量主要方法有欧氏距离(EuclideanDistance)、欧氏平方距离(SquaredEuclideanDistance)、切比雪夫距离(ChebychevDistance)、明可斯基距离(MinkowskiDistance)、用户自定义距离(CustomizeDistance)、Pearson

相关系数、夹角余弦(Cosine)等。 (公式见教材表)()顺序变量的样本间距离常用度量常用的有统计量(Chisquaremeasure)和统计量(Phisquaremeasure)。 具体计算公式参见节表。 聚类和判别分析简介SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容聚类和判别分析简介二阶聚类K均值聚类系统聚类判别分析SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类基本概念及统计原理()基本概念二阶聚类(TwoStepCluster)(也称为两步聚类)是一个探索性的分析工具()为揭示自然的分类或分组而设计是数据集内部的而不是外观上的分类。 它是一种新型的分层聚类算法(HierarchicalAlgorithms),目前主要应用到数据挖掘(DataMining)和多元数据统计的交叉领域模式分类中。 该过程主要有以下几个特点:分类变量和连续变量均可以参与二阶聚类分析该过程可以自动确定分类数可以高效率地分析大数据集用户可以自己定制用于运算的内存容量。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*二阶聚类基本概念及统计原理()统计原理两步法的功能非常强大而原理又较为复杂。 他在聚类过程中除了使用传统的欧氏距离外为了处理分类变量和连续变量它用似然距离测度它要求模型中的变量是独立的分类变量

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数值分析报告第三次大作业

数值分析第三次大作业 一、算法的设计方案: (一)、总体方案设计: x y当作已知量代入题目给定的非线性方程组,求(1)解非线性方程组。将给定的(,) i i

得与(,)i i x y 相对应的数组t[i][j],u[i][j]。 (2)分片二次代数插值。通过分片二次代数插值运算,得到与数组t[11][21],u[11][21]]对应的数组z[11][21],得到二元函数z=(,)i i f x y 。 (3)曲面拟合。利用x[i],y[j],z[11][21]建立二维函数表,再根据精度的要求选择适当k 值,并得到曲面拟合的系数矩阵C[r][s]。 (4)观察和(,)i i p x y 的逼近效果。观察逼近效果只需要重复上面(1)和(2)的过程,得到与新的插值节点(,)i i x y 对应的(,)i i f x y ,再与对应的(,)i i p x y 比较即可,这里求解 (,)i i p x y 可以直接使用(3)中的C[r][s]和k 。 (二)具体算法设计: (1)解非线性方程组 牛顿法解方程组()0F x =的解* x ,可采用如下算法: 1)在* x 附近选取(0) x D ∈,给定精度水平0ε>和最大迭代次数M 。 2)对于0,1, k M =执行 ① 计算() ()k F x 和()()k F x '。 ② 求解关于() k x ?的线性方程组 () ()()()()k k k F x x F x '?=- ③ 若() () k k x x ε∞∞ ?≤,则取*()k x x ≈,并停止计算;否则转④。 ④ 计算(1) ()()k k k x x x +=+?。 ⑤ 若k M <,则继续,否则,输出M 次迭代不成功的信息,并停止计算。 (2)分片双二次插值 给定已知数表以及需要插值的节点,进行分片二次插值的算法: 设已知数表中的点为: 00(0,1,,) (0,1,,)i j x x ih i n y y j j m τ=+=???=+=?? ,需要插值的节点为(,)x y 。 1) 根据(,)x y 选择插值节点(,)i j x y : 若12h x x ≤+ 或12 n h x x ->-,插值节点对应取1i =或1i n =-,

北航数理统计聚类分析大作业

应用数理统计大作业(二) 部分省市经济类型的聚类和判别分析 学院:学号:姓名:班级: 机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录 摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析 摘要 一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。 关键词:经济类型,聚类分析,判别分析,SPSS 符号说明 符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言 随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。 1 源数据的提取 本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航数值分析大作业第二题精解

目标:使用带双步位移的QR 分解法求矩阵10*10[]ij A a =的全部特征值,并对其中的每一个实特征值求相应的特征向量。已知:sin(0.50.2)() 1.5cos( 1.2)(){i j i j ij i j i j a +≠+== (i,j=1,2, (10) 算法: 以上是程序运作的逻辑,其中具体的函数的算法,大部分都是数值分析课本上的逻辑,在这里特别写出矩阵A 的实特征值对应的一个特征向量的求法: ()[]()() []()[]()111111I 00000 i n n n B A I gause i n Q A I u Bu u λλ-?-?-=-?-?? ?-=????→=??????→= ?? ? 选主元的消元 检查知无重特征值 由于=0i A I λ- ,因此在经过选主元的高斯消元以后,i A I λ- 即B 的最后一行必然为零,左上方变 为n-1阶单位矩阵[]()()11I n n -?-,右上方变为n-1阶向量[]()11n Q ?-,然后令n u 1=-,则 ()1,2,,1j j u Q j n ==???-。

这样即求出所有A所有实特征值对应的一个特征向量。 #include #include #include #define N 10 #define E 1.0e-12 #define MAX 10000 //以下是符号函数 double sgn(double a) { double z; if(a>E) z=1; else z=-1; return z; } //以下是矩阵的拟三角分解 void nishangsanjiaodiv(double A[N][N]) { int i,j,k; int m=0; double d,c,h,t; double u[N],p[N],q[N],w[N]; for(i=0;i

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析 学号:姓名: 摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。 对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。 关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析 1.引言 国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。 地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析 分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融 业、房地产业及其他产业。 (一)相关自变量的选择 本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

北航数值分析大作业第二题

数值分析第二次大作业 史立峰 SY1505327

一、 方案 (1)利用循环结构将sin(0.50.2)() 1.5cos( 1.2)() {i j i j ij i j i j a +≠+==(i,j=1,2,……,10)进行赋值,得到需要变换的 矩阵A ; (2)然后,对矩阵A 利用Householder 矩阵进行相似变换,把A 化为上三角矩阵A (n-1)。 对A 拟上三角化,得到拟上三角矩阵A (n-1),具体算法如下: 记A(1)=A ,并记A(r)的第r 列至第n 列的元素为()n r r j n i a r ij ,,1,;,,2,1) ( +==。 对于2,,2,1-=n r 执行 1. 若 ()n r r i a r ir ,,3,2) ( ++=全为零,则令A(r+1) =A(r),转5;否则转2。 2. 计算 () ∑+== n r i r ir r a d 1 2 )( ()( )r r r r r r r r r r d c a d a c ==-=++则取,0sgn ) (,1)(,1若 )(,12r r r r r r a c c h +-= 3. 令 () n T r nr r r r r r r r r R a a c a u ∈-=++) ()(,2)(,1,,,,0,,0 。 4. 计算 r r T r r h u A p /)(= r r r r h u A q /)(= r r T r r h u p t /= r r r r u t q -=ω T r r T r r r r p u u A A --=+ω)()1( 5. 继续。 (3)使用带双步位移的QR 方法计算矩阵A (n-1)的全部特征值,也是A 的全部特征值,具体算法如下: 1. 给定精度水平0>ε和迭代最大次数L 。 2. 记n n ij n a A A ?-==][) 1()1()1(,令n m k ==,1。

北航数值分析报告大作业第八题

北京航空航天大学 数值分析大作业八 学院名称自动化 专业方向控制工程 学号 学生姓名许阳 教师孙玉泉 日期2014 年11月26 日

一.题目 关于x , y , t , u , v , w 的方程组(A.3) ???? ?? ?=-+++=-+++=-+++=-+++79 .0sin 5.074.3cos 5.007.1cos sin 5.067.2cos 5.0y w v u t x w v u t y w v u t x w v u t (A.3) 以及关于z , t , u 的二维数表(见表A-1)确定了一个二元函数z =f (x , y )。 表A-1 二维数表 t z u 0 0.4 0.8 1.2 1.6 2 0 -0.5 -0.34 0.14 0.94 2.06 3.5 0.2 -0.42 -0.5 -0.26 0.3 1.18 2.38 0.4 -0.18 -0.5 -0.5 -0.18 0.46 1.42 0.6 0.22 -0.34 -0.58 -0.5 -0.1 0.62 0.8 0.78 -0.02 -0.5 -0.66 -0.5 -0.02 1.0 1.5 0.46 -0.26 -0.66 -0.74 -0.5 1. 试用数值方法求出f (x , y ) 在区域}5.15.0,8.00|), {≤≤≤≤=y x y x D (上的近似表达式 ∑∑===k i k j s r rs y x c y x p 00 ),( 要求p (x , y )以最小的k 值达到以下的精度 ∑∑==-≤-=10020 7210)],(),([i j i i i i y x p y x f σ 其中j y i x i i 05.05.0,08.0+==。 2. 计算),(),,(* ***j i j i y x p y x f (i =1,2,…,8 ; j =1,2,…,5) 的值,以观察p (x , y ) 逼 近f (x , y )的效果,其中j y i x j i 2.05.0,1.0**+==。

全国各省经济的聚类分析及判别分析

全国各省经济的聚类分析及判别分析 唐鹏钧(DY1001109) 摘要:利用SPSS软件对全国31个省、直辖市、自治区(浙江、湖南、甘肃除外)的主要经济指标进行聚类分析,将其经济分成4种类型,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行经济分类。本文选取了7项经济指标作为决定经济类型的影响因素,各项数据均来自2010年国家统计年鉴。分析结果表明:北京市和上海市为第一类经济类型;江苏省和山东省为第三类型;广东省为第四类经济;其他25个省、直辖市、自治区均属于第二类型。 关键词:聚类分析、判别分析、经济类型 0引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底有几种类型并不知道。判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本的基础上,对当前的新样本判定它们属于哪个总体。 (2)两类方法的建立的模型不一样,因此在处理某些特定的问题时,就会得

相关文档
相关文档 最新文档