文档库 最新最全的文档下载
当前位置:文档库 › 北航数理统计回归分析大作业

北航数理统计回归分析大作业

北航数理统计回归分析大作业
北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析

学院:机械工程学院

专业:材料加工工程

日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS

1 引言

自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。

财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。

本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。

2 多元线性回归

2.1 多元线性回归简介

在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下:

如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式:

εββββ++++=m m x x x y 22110 2,0σεε==D E

(2.1)

其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

式(2.1)为m 元理论线性回归模型,其中m ββββ 210,,为回归系数,

m x x x 21,为回归因子或设计因子。),,2,1(m i i =β实际上反映了因子),,2,1(m i x i =对观测值y 的作用,因此也称),,2,1(m i i =β为因子),,2,1(m i x i =的效应。

通过对回归系数),,2,1(m i i =β进行最小二乘估计后,可以得到m 元经验回归方程为:

m

m x x x y ββββ?????22110++++=

(2.2)

也称式(2.2)为m 元线性回归方程。0?β为回归常数,也称回归系数,m βββ??,?21 称为回归系数。

2.2 逐步回归法

在多元线性回归分析中,由于有多个自变量,回归自变量的选择成为建立回归模型的重要问题。通常,一方面,为获取全面信息总希望模型中包括的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含尽可能少而且重要的变量。因此,人们常根据某种规则对自变量进行筛选。本次选用的方法是逐步回归法。

1)回归效果的显著性检验

y 与变量m x x x 21,线性相关的密切程度可以用回归平方和U 在总平方和yy

L 中所占的比例来衡量。称yy

L U

R =

为y 关于m x x x 21,的样本复相关系数,yy

L U

R =

2为样本决定系数。在多元线性回归的实际应用中,用复相关系数来表示回归方程对原有数据拟合程度的好坏。显然102≤≤R ,其越接近1,回归方程拟合程度越高。

2)偏F 检验

检验某个自变量对y 的影响是否显著的正规方法是偏F 检验。 设原回归方程(全模型)为:

m

m i i i i i i x x x x x x y βββββββ????????111122110++++++++=++--

去掉变量i x 后的新回归方程(减模型)为:

m

m i i i i x x x x x y ββββββ???????111122110+++++++=++-- 全模型的复相关系数的平方为2R ,减模型的复相关系数的平方为2

i R ,定义

222i i R R R -=?。若2

i R ?几乎为零,则说明x 对y 没有显著影响,反之则表示x

对y 有其它变量不可替代的显著影响。

检验假设:

0:;

0:2120≠?=?i i R H R H

当0H 为真时,检验统计量为

)1,1(~?)1/()1(2

222--=---?=m n F c S m n R R F ii

i i i β 对于给定显著性水平α,由样本计算出i F 的值,若),1,1(1--≥-m n F F i α则拒绝0H ,说明x 对y 有显著影响,应在减模型中引入自变量x ;反之则应剔除x ,使之成为减模型。

偏F 检验通常被用作变量筛选的依据。逐步回归法中就是对各变量采用偏F 法进行检验的。

3) 逐步回归法的步骤

逐步回归法的基本思想是:将变量逐个引入,引入条件是该变量的偏F 检验是显著的。同时,每引入一个新变量后又对老变量逐个检验,将变得不显著的变量从回归模型中剔除。

具体步骤如下:

1、对m 个自变量分别与y 建立回归模型i

i i x y )0()0(0???ββ+=,对它们分别计算i F ,得i F 中最大的那个值,比如1L F 。

(Ⅰ)如果进F F L <1,则计算结束,即y 与所有自变量均线性无关; (Ⅱ)如果进F F L ≥1,则引入1x L ,建立回归方程

1

)1(1)1(0???L x y ββ+= (2.3)

2、建立y 与自变量子集},{1i L x x (1L i ≠)的二元回归模型

i

i L i i x x y )0()0(1)0(0????1βββ++= (2.4)

以式(2.4)为全模型,式(2.3)为减模型求i F 值,并取得i F 中最大的那个值,比如说2L F 。

⑴如果进F F L <2,则计算结束,这时建立的模型为式(2.3); ⑵如果进F F L ≥2,则引入2x L ,建立回归方程

2

1)2(2)2(1)2(0????L L x x y βββ++= (2.5)

3、当引入2x L 后,对1x L 做偏F 检验,看1x L 是否需要剔除; ⑴如果出F F L >1,则不剔除1x L ,并继续引入下一个变量; ⑵如果出F F L ≤1,则从式2.4中剔除1L x ,再继续引入下一个变量。 重复上述步骤,直到所有模型外的变量都不能引入,模型内的变量都不能被剔除为止。

3 财政收入回归分析实例

本次作业利用SPSS 软件和逐步回归法,对原始数据进行了回归分析,并最终获得了“最优”回归方程,解决这个问题。 3.1 数据收集及处理

首先进行参考数据的选择,根据查阅书籍以及中国统计局网站得到的数据资料,归纳出可能影响国家财政收入的一些主要因素,包括国内生产总值(亿元),人口数(万人)等。本文从中选取了国内生产总值(亿元),人口数(万人),能源生产总量(标准煤)(万吨),农作物总播种面积(千公顷),货运量(万吨),出口总额(亿元),进口总额(亿元),建筑业总产值(亿元)8个因素作为本次考查的重点,并对其与财政收入的相关关系进行分析。表1所示为所选取的自1995年至2012年18年间财政收入与所选变量的数据汇总。

年份国内生

产总值

(亿

元)

人口数

(万

人)

能源生

产总量

(标准

煤)(万

吨)

农作物

总播种

面积

(千公

顷)

货运量

(万吨)

出口

总额

(亿

元)

进口

总额

(亿

元)

建筑业总

产值(亿

元)

财政收

入(亿

元)

1995 60793.7 121121 129034 149879 1234938 12452 11048 5793.75 6242.2 1996 71176.6 122389 133032 152381 1298421 12576 11557 8282.25 7407.99 1997 78973 123626 133460 153969 1278218 15161 11807 9126.48 8651.14 1998 84402.3 124761 129834 155706 1267427 15224 11626 10061.99 9875.95

1999 89677.1 125786 131935 156373 1293008 16160 13736 11152.86 11444.0

8

2000 99214.6 126743 135048 156300 1358682 20634 18639 12497.6 13395.2

3

2001 109655.

2

127627 143875 155708 1401786 22024 20159 15361.56

16386.0

4

2002 120332.

7

128453 150656 154636 1483447 26948 24430 18527.18

18903.6

4

2003 135822.

8

129227 171906 152415 1564492 36288 34196 23083.87

21715.2

5

2004 159878.

3

129988 196648 153553 1706412 49103 46436 29021.45

26396.4

7

2005 184937.

4

130756 216219 155488 1862066 62648 54274 34552.1

31649.2

9

2006 216314.

4

131448 232167 152149 2037060 77597 63377 41557.16 38760.2

2007

265810.3 132129 247279 153464 2275822 93564 73300

51043.71

51321.78 2008 314045.4 132802 260552 156266 2585937 100395

79527 62036.81

61330.35 2009 340902.8 133450 274619 158614 2825222 82030 68618

76807.74

68518.3 2010 401202 134091 296916 160675 3241807 107023 94699 96031.13

83101.51 2011 473104.0 134735 317987 162283 3696961 123240.6 113161.4 115734.19

103874.43 2012 518942.1

135404 331848 163416 4099400 129359.3

114801.0

137217.86

117253.52

3.2 建立回归模型过程

为了研究财政收入与各种影响因素的关系,必须要建立二者之间的数学模型。数学模型可以有多种形式,比如线性模型,二次模型,指数模型,对数模型等等。而实际生活中,影响财政收入的因素很多,并且这些因素的影响不能简单的用某一种模型来描述,所以要建立财政收入的数学模型往往是很难的。但是为了便于研究,我们可以建立财政收入与各影响因素的线性回归模型,模型如下:

Y=α1X 1+α2X2+α3X 3+α4X 4+α5X 5+α6X 6+α7X 7+α8X 8

其中,Y 是因变量, i X 是自变量,i 是各个自变量的系数。各变量符号的定义见表2。

Y

X 1

X 2 X 3

X 4

X 5 X 6 X 7 X 8

财政收

入(亿元)

国内生

产总值

(亿元)

人口数

(万人)

能源生

产总量

(标准煤)(万吨)

农作物

总播种

面积(千公顷)

货运量

(万吨)

出口总

额(亿元)

进口总

额(亿元)

建筑业

总产值

(亿元)

3.3 线性回归模型的验证

通过一些假设可以得到工业生产总值与各影响因素的线性回归模型。然而这些假设是否合理,所建模型是否接近实际的工业生产总值,需要进一步验证。故

作出数据散点图,观察因变量与自变量之间关系是否有线性特点。散点图结果如图1所示。

(1) (2)

(3)

(4)

(5)

(6)

(1)财政收入与国内生产总值散点图;(2)财政收入与人口数散点图; (3)财政收入与能源生产总量;(4)财政收入与农作物总播种面积散点图; (5)财政收入与货运量散点图;(6)财政收入与出口总额散点图; (7)财政收入与进口总额散点图;(8)财政收入与建筑业总产值散点图

图1 财政收入与各种因素散点图

由于多元逐步回归分析方法是一种多元线性回归方法,指标变量若呈非线性关系则会影响模型精度。所以首先判断因变量和自变量是否存在非线性关系。从图1可以看出,人口数X 2与财政收入Y 之间大致呈指数关系,而农作物总播种面积X 4与财政收入Y 之间的线性关系很不显著,都是可以首先剔除的变量。其余变量错误!未找到引用源。都与财政收入Y 具有线性作用且正相关,需要通过逐步分析方法进行进一步的显著性判断。 3.4 线性回归的结果及分析

利用统计数据建立回归模型,用SPSS 软件的线性回归分析功能,得到以下数据。由表3可以看出货运量、国内生产总值和能源生产总量这三个自变量经过逐步回归过程被选择进入了回归方程。被选择的判据是变量进入回归方程的F 的概率不大于0.05,被剔除的判据是变量进入回归方程的F 的概率不小于0.10。

(7) (8)

表3 输入/移去的变量

模型输入的变量移去的变量方法

1 货运量(万吨步进(准则: F-to-enter 的概率<= .050,F-to-remove 的概率>= .100)。

2 国内生产总值

(亿元)

步进(准则:

F-to-enter 的概

率<= .050,

F-to-remove 的

概率>= .100)。

3 能源生产总量

(万吨)

步进(准则:

F-to-enter 的概

率<= .050,

F-to-remove 的

概率>= .100)。

a. 因变量: 财政收入

表4显示三个模型的拟合情况,模型3的复相关系数R=1.000,可决系数2

R=0.999,调整可决系数为0.999,估计值的标准差为916.74710,可见模型3的拟合度较高。

表4 模型汇总

模型R R 2调整R2标准估计的误差

1 .999a.998 .998 1615.37929

2 1.000b.999 .999 1163.51991

3 1.000c.999 .999 916.74710

a. 预测变量: (常量), 货运量(万吨)

b. 预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)

c .预测变量: (常量) , 货运量(万吨), 国内生产总值(亿元),能源生产总

量(万吨)

d. 因变量: 财政收入(亿元)

从表5中看出方差分析结果可以看出,三个模型的F值检验Sig值远小于0.01,可见,最终模型的整体线性关系是成立的。

表5 ANOV A d

模型平方和df 均方 F Sig.

1 回归 2.044E10 1 2.044E10 7832.197 .000a

残差41751204.003 16 2609450.250

总计 2.048E10 17

2 回归 2.046E10 2 1.023E10 7556.322 .000b

残差20306678.791 15 1353778.586

总计 2.048E10 17

3 回归 2.047E10 3 6.823E9 8117.999 .000c

残差11765953.531 14 840425.252

总计 2.048E10 17

a. 预测变量: (常量), 货运量(万吨)

b. 预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)

c .预测变量: (常量) , 货运量(万吨), 国内生产总值(亿元),能源生产总量(万吨)

d. 因变量: 财政收入(亿元)

如表6所示,包含的是进入模型的变量,主要描述模型的参数估计值,以及每个变量的系数估计值的显著性检验和共线性检验。结果模型中所有变量系数的t检验Sig值都接近或小于0.01,说明这些系数都显著的不为0,因此,最终的回归方程应当包含货运量、国内生产总值和能源生产总量这三个自变量,且方程拟和效果很好。

表6 系数

模型

非标准化系数标准系数

t Sig.

B 标准误差试用版

1 (常量) -39148.93

2 958.30

3 -40.852 .000 货运量(万吨).038 .000 .999 88.500 .000

2 (常量) -26904.767 3152.897 -8.53

3 .000 货运量(万吨).022 .00

4 .568 5.233 .000 国内生产总值

(亿元)

.103 .026 .432 3.980 .001

3 (常量) -15515.418 4351.51

4 -3.566 .003 货运量(万吨).01

5 .004 .385 3.731 .002 国内生产总值

(亿元)

.176 .031 .737 5.744 .000

能源生产总量

(万吨)

-.060 .019 -.124 -3.188 .007

表6 系数

模型

非标准化系数标准系数

t Sig.

B 标准误差试用版

1 (常量) -39148.93

2 958.30

3 -40.852 .000 货运量(万吨).038 .000 .999 88.500 .000

2 (常量) -26904.767 3152.897 -8.53

3 .000 货运量(万吨).022 .00

4 .568 5.233 .000 国内生产总值

(亿元)

.103 .026 .432 3.980 .001

3 (常量) -15515.418 4351.51

4 -3.566 .003 货运量(万吨).01

5 .004 .385 3.731 .002 国内生产总值

(亿元)

.176 .031 .737 5.744 .000

能源生产总量

(万吨)

-.060 .019 -.124 -3.188 .007

a. 因变量: 财政收入(亿元)

如表7所示,给出的是所有未进入最终模型的变量检验信息,由t检验的Sig 值都大于0.1,这些变量对模型的贡献都不明显,所以它们都不包含在最终方程中。

表7 排除的变量

Model Beta In t Sig. 偏相关

共线性统计量

容差

1 国内生产总值

(亿元)

.432a 3.980 .001 .717 .006

能源生产总量

(万吨)

.043a.926 .369 .233 .061

出口总额(亿

元)

.066a 1.929 .073 .446 .092

进口总额(亿

元)

.076a 1.828 .088 .427 .064

建筑业总产值

(亿元)

-.051a-.195 .848 -.050 .002

2 能源生产总量

(万吨)

-.124b-3.188 .007 -.649 .027

出口总额(亿

元)

-.049b-1.117 .283 -.286 .034

进口总额(亿

-.037b-.779 .449 -.204 .030 元)

建筑业总产值

.319b 1.660 .119 .406 .002 (亿元)

.073c 1.478 .163 .379 .016 3 出口总额(亿

元)

进口总额(亿

.101c 2.111 .055 .505 .014 元)

建筑业总产值

.188c 1.142 .274 .302 .001 (亿元)

a.模型中的预测变量: (常量) , 货运量(万吨)

b.模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元)

c模型中的预测变量: (常量), 货运量(万吨), 国内生产总值(亿元), 能源生产总量(万吨)

d. 因变量: 财政收入

表8 残差统计量

极小值极大值均值标准偏差N

预测值5652.1587 116279.0000 38679.2983 34698.46056 18 残差-1919.03113 1378.36218 .00000 831.93444 18 标准预测值-.952 2.236 .000 1.000 18 标准残差-2.093 1.504 .000 .907 18 a. 因变量: 财政收入(亿元)

图2 标准化残差直方图

标准化残差的P-P 图通过比较样本残差分布与假设的正态分布是否相同来检验残差是否符合正态分布,所有残差点都分布在对角的直线附近,说明残差的正态性假设基本成立。

图4 散点图

图3 标准P-P 图

从图4的的财政收入与其标准化残差散点图中可以看到,所有观测量随机地落在垂直围绕±2的范围内,预测值与标准化残差值之间没有明显的关系,所以回归方程应该满足线性关系与方差齐性的假设且拟和效果较好。

3.5 最优回归方程

由以上多元回归分析可得各个分量的影响关系,从而得出“最优”方程为:

Y= -15515.418+0.176X1-0.060X3+0.015X5

其中R2=0.999,F=8117.999

X1代表国内生产总值,X3代表能源生产总量,X5代表货运量

代入2011年数据,可得

Y2011=-15515.418+0.176×473104.0-0.060×317987+0.015×3696961=104126.08 2008年实际财政收入为103874.43(亿元)

可算得误差为e=(104126.081-103874.43)/103874.43×100%=0.24%,在可接受误差范围之内,可见拟合效果能够满足要求。

4 结论

在本次作业中,结合过去的经验和学习结果,我选择了影响财政收入的8个因素,通过查阅2013中国统计年鉴,利用IBM SPSS Statistics 19.0软件对所获得的数据进行了分析,建立了线性回归模型,再利用逐步回归法进行回归分析,最终发现所选8个因素中有6个因素与国民总收入之间的的散点图呈现良好的线性关系,但最终进入回归方程的只有国内生产总值、能源生产总量和货运量这三个自变量,可能是数据选取上有些问题或者可能是其他影响因素的线性关系不是很明显。

综合来看,本次作业基本能分析工业生产总值和各影响因素的关系,并得出了主要、次要原因。最终的线性回归模型显示,国民总收入可以由货运量、国内生产总值和能源生产总量来进行很好的解释,三者都是影响财政收入的重要因素。

然而,最终的模拟结果也显示出拟合曲线和实际点还是有一定的偏差,而且最终分析得到的自变量个数也比较少,可能还有其他因素较显著的影响了财政收入,有待进一步考察。

参考文献:

[1] 孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:北京航天航空大学数学系,2014.

[2] 国家统计局.2013年中国统计年鉴[M].北京:中国统计出版社,2013.

[3] 蔡建琼,于惠芳,朱志洪等.SPSS统计分析实例精选[M].北京:清华大学出版社,2006.

北航数理统计回归分析大作业

应用数理统计第一次大作业 学号: 姓名: 班级: 2013年12月

国家财政收入的多元线性回归模型 摘 要 本文以多元线性回归为出发点,选取我国自1990至2008年连续19年的财政收入为因变量,初步选取了7个影响因素,并利用统计软件PASW Statistics 17.0对各影响因素进行了筛选,最终确定了能反映财政收入与各因素之间关系的“最优”回归方程: 46?578.4790.1990.733y x x =++ 从而得出了结论,最后我们用2009年的数据进行了验证,得出的结果在误差范围内,表明这个模型可以正确反映影响财政收入的各因素的情况。 关键词:多元线性回归,逐步回归法,财政收入,SPSS 0符号说明 变 量 符号 财政收入 Y 工 业 X 1 农 业 X 2 受灾面积 X 3 建 筑 业 X 4 人 口 X 5 商品销售额 X 6

进出口总额X7

1 引言 中国作为世界第一大发展中国家,要实现中华民族的伟大复兴,必须把发展放在第一位。近年来,随着国家经济水平的飞速进步,人民生活水平日益提高,综合国力日渐强大。经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府有了强有力的财政保证才能够对全局进行把握和调控,对于整个国家和社会的健康快速发展有着重要的意义。所以对国家财政的收入状况进行研究是十分必要的。 国家财政收入的增长,宏观上必然与整个国家的经济有着必然的关系,但是具体到各个方面的影响因素又有着十分复杂的相关原因。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,如果能对他们之间的关系作一下回归,并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多,如人口状况、引进的外资总额,第一产业的发展情况,第二产业的发展情况,第三产业的发展情况等等。本文从国家统计信息网上选取了1990-2009年这20年间的年度财政收入及主要影响因素的数据,包括工业,农业,建筑业,批发和零售贸易餐饮业,人口总数等。文中主要应用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。 2解决问题的方法和计算结果 2.1 样本数据的选取与整理 本文在进行统计时,查阅《中国统计年鉴2010》中收录的1990年至2009年连续20年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上

最新北航数理统计大作业-多元线性回归

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为

北航2015级硕士研究生数理统计参考答案(B层)

2015-2016 学年 第一学期期末试卷 参考答案 学号 姓名 成绩 考试日期: 2016年1月15日 考试科目:《数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设12,,n x x x ,是来自正态总体2(0,)N σ的简单样本,则当c = 时,统计量2 21 () n k k x c x x η==-∑服从F -分布,其中1 1n k k x x n ==∑。((1)n n -) 2. 设12,,n x x x ,是来自两点分布(1,)B p 的简单样本,其中01p <<,2n ≥,则 当c = 时,统计量2?(1)cx x σ =-是参数()(1)q p p p =-的无偏估计,其中1 1n k k x x n ==∑。(1n n -) 3.设总体X 的密度函数为22 ,[0,] (;)0,[0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则θ的充分统计量是 。(()n x ) 4.设12,,n x x x ,是来自正态总体2(,)N μσ的简单样本,已知样本均值 4.25x =, μ的置信度为0.95的双侧置信区间下限为3.1,则μ的置信度为0.95的双侧置信区间为(,)。((3.1,5.4))

二、(本题12分)设12,,,n x x x 是来自正态总体2(1,2)N σ的简单样本。(1)求2σ的极大似然估计2σ;(2)求2σ的一致最小方差无偏估计;(3)问2σ的一致最小方差无偏估计是否为有效估计?证明你的结论。 解(1)似然函数为 2 2 2 1 1()exp{(1)}4n n i i L x σσ ==- -∑ 对数似然函数为 2 2 221 1ln ()(ln(4)ln )(1)24n i i n L x σπσσ==-+--∑ 求导,有 22 224 1 ln ()1(1)24n i i L n x σσσσ=?=-+-?∑ 令22 ln ()0L σσ?=?,可得θ的极大似然估计为2 21 1?(1)2n i i x n σ==-∑。 (2)因为 2 2 122 1 1(,,,;)exp{(1)}4n n n i i f x x x x σσ ==- -∑ 令2()n c σ=,()1h x =,22 1()4w σσ =- ,,由于2()w σ的值域(,0)-∞有内 点,由定理2.2.4知21(1)n i i T x ==-∑是完全充分统计量。而 2 221 1 ((1))(1)2n n i i i i E x E x n σ==-=-=∑∑ 因而2 2 11?(1)2n i i x n σ==-∑既是完全充分统计量21 (1)n i i T x ==-∑的函数,又是2σ的无偏估计,由定理2.2.5知2 21 1?(1)2n i i x n σ==-∑是2σ一致最小方差无偏估计。 (3)224112 ?()((1))4Var Var x n n σ σ=-=。因为

北航数理统计第二次大作业-数据分析模板

数理统计第二次大作业材料行业股票的聚类分析与判别分析 2015年12月26日

材料行业股票的聚类分析与判别分析摘要

1 引言 2 数据采集及标准化处理 2.1 数据采集 本文选取的数据来自大智慧软件的股票基本资料分析数据,从材料行业的股票中选取了30支股票2015年1月至9月的7项财务指标作为分类的自变量,分别是每股收益(单位:元)、净资产收益率(单位:%)、每股经营现金流(单位:元)、主营业务收入同比增长率(单位:%)、净利润同比增长率(单位:%)、流通股本(单位:万股)、每股净资产(单位:元)。各变量的符号说明见表2.1,整理后的数据如表2.2。 表2.1 各变量的符号说明 自变量符号 每股收益(单位:元)X1 净资产收益率(单位:%)X2 每股经营现金流(单位:元)X3 主营业务收入同比增长率(单位:%)X4 净利润同比增长率(单位:%)X5 流通股本(单位:万股)X6 每股净资产(单位:元)X7 表2.2 30支股票的财务指标 股票代码X1 X2 X3 X4 X5 X6 X7 武钢股份600005-0.0990-2.81-0.0237-35.21-200.231009377.98 3.4444宝钢股份6000190.1400 1.980.9351-14.90-55.011642427.88 6.9197山东钢铁600022-0.11650.060.0938-20.5421.76643629.58 1.8734北方稀土6001110.0830 3.640.652218.33-24.02221920.48 2.2856

杭钢股份600126-0.4900-13.190.4184-36.59-8191.0283893.88 3.4497抚顺特钢6003990.219310.080.1703-14.26714.18112962.28 1.4667盛和资源6003920.0247 1.84-0.2141-5.96-19.3739150.00 1.2796宁夏建材6004490.04000.510.3795-22.15-92.3447818.108.7321宝钛股份600456-0.2090-2.53-0.3313-14.81-6070.2043026.578.1497山东药玻6005290.4404 5.26 1.2013 6.5016.7825738.018.5230国睿科技6005620.410011.53-0.2949 3.3018.9416817.86 3.6765海螺水泥600585 1.15169.05 1.1960-13.06-25.33399970.2612.9100华建集团6006290.224012.75-0.57877.90-6.4034799.98 1.8421福耀玻璃6006600.790014.250.9015 3.6017.27200298.63 6.2419宁波富邦600768-0.2200-35.02-0.5129 3.1217.8813374.720.5188马钢股份600808-0.3344-11.710.3939-21.85-689.22596775.12 2.6854亚泰集团6008810.02000.600.1400-23.63-68.16189473.21 4.5127博闻科技6008830.503516.71-0.1010-10.992612.8023608.80 3.0126新疆众和6008880.0523 1.04-0.910662.64162.0464122.59 5.0385西部黄金6010690.0969 3.940.115115.5125.5712600.00 2.4965中国铝业601600-0.0700-2.920.2066-9.0882.79958052.19 2.3811明泰铝业6016770.2688 4.66-1.09040.8227.8640770.247.4850金隅股份6019920.1989 3.390.3310-10.05-39.01311140.26 6.7772松发股份6032680.35007.00-0.3195-4.43-9.622200.00 6.0244方大集团0000550.0950 5.66-0.480939.2920.6742017.94 1.6961铜陵有色0006300.0200 1.220.6132 3.23-30.74956045.21 1.5443鞍钢股份000898-0.1230-1.870.7067-27.32-196.21614893.17 6.4932中钢国际0009280.572714.45-0.4048-14.33410.2441286.57 4.2449中材科技0020800.684610.27 1.219547.69282.1740000.00 6.8936中南重工0024450.1100 4.300.340518.8445.0950155.00 2.7030 2.2 数据的标准化处理 由于不同的变量之间存在着较大的数量级的差别,因此要对数据变量进行标准化处理。本文采用Z得分值法标准化的方法进行标准化,用x的值减去x的均值再除以样本的方差。也就是把个案转换为样本均值为0、标准差为1的样本。如果不同变量的变量值数值相差太大,会导致计算个案间距离时,由于绝对值较小的数值权数较小,个案距离的大小几乎由大数值决定,标准化过程可以解决此类问题,使不同变量的数值具有同等的重要性。经Z标准化输出结果见表 2.2。 表2.2 经Z标准化后的数据 ZX1ZX2ZX3ZX4ZX5ZX6ZX7

北航数理统计大作业-多元线性回归

应用数理统计多元线性回归分析 (第一次作业) 学院: 姓名: 学号: 2013年12月

交通运输业产值的多元线性回归分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找影响交通运输业发展的因素,包括工农业发展水平、能源生产水平、进出口贸易交流以及居民消费水平等,利用统计软件SPSS对各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,最后可以利用有效的最优回归模型对将来进行预测。 关键字:多元线性回归,逐步回归,交通运输产值,工业产值,进出口总额1,引言 交通运输业指国民经济中专门从事运送货物和旅客的社会生产部门,包括铁路、公路、水运、航空等运输部门。它是国民经济的重要组成部分,是保证人们在政治、经济、文化、军事等方面联系交往的手段,也是衔接生产和消费的一个重要环节。交通运输业在现代社会的各个方面起着十分重要的作用,因此研究交通运输业发展水平与各个影响因素间的关系显得十分重要,建立有效的数学相关模型对于预测交通运输业的发展,制定相关政策方案提供依据。根据经验交通运输业的发展受到工农业发展、能源生产、进出口贸易以及居民消费水平等众因素的影响,故建立一个完整精确的数学模型在理论上基本无法实现,并且在实际运用中也没有必要,一种简单有效的方式就是寻找主要影响因素,分析其与指标变量的相关性,建立多元线性回归模型就是一种有效的方式。 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。 回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进

北航数理统计聚类分析大作业

应用数理统计大作业(二) 部分省市经济类型的聚类和判别分析 学院:学号:姓名:班级: 机械工程及自动化学院 SY1007??? XXXXX 51班 2011年1月7日

目录 摘要 (1) 符号说明 (1) 0 引言 (1) 1 源数据的提取 (1) 2 聚类分析过程 (2) 2.1 基本概念 (2) 2.2 聚类分析过程 (2) 2.3判别分析 (5) 2.4分类结果分析 (7) 3 结论 (7) 参考文献 (8)

部分省市经济类型的聚类和判别分析 摘要 一个省市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等息息相关,本文利用统计软件SPSS,对北京市等13省市2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,得出了分类结果,分类结果和我们的直观判断相吻合。本文所进行的分析结果在一定程度上反映了这些省市的经济类型和经济特点。 关键词:经济类型,聚类分析,判别分析,SPSS 符号说明 符号说明 X1 地区生产总值 X2职工人均工资 X3第一产业在国民生产总值中占的比重 X4第二产业在国民生产总值中占的比重 X5第三产业在国民生产总值中占的比重0 引言 随着中国经济迅速发展,各个省市自治区的经济呈现出各自不同的发展态势。通过研究各省市的经济发展状况和经济类型对于正确认识我国的经济发展情况具有重要意义。一个省自治区直辖市的经济类型和众多因素比如地理位置、国民生产总值、人口素质等因素息息相关,本文利用功能强大的统计软件SPSS,对北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、河南省、广东省、四川省和山东省2008年的地区生产总值(亿元)、职工人均工资(元)、第一、二、三产业各自在国民生产总值中占的比重作为判别经济类型的五个因素,进行聚类分析,结果北京市和天津市属于一类,河北省、浙江省和河南省属于一类,辽宁省、安徽省、湖南省、湖北省、四川省属于一类,江苏省、山东省、广东省属于一类,这个结果和我们的直观判断一致。这个结果也充分说明了本文进行的分析是合理的,具有一定的科学性。 1 源数据的提取 本文所用的数据全来自2009年出版的《中国统计年鉴》,从中提取了有关北京市、天津市、河北省、辽宁省、江苏省、浙江省、安徽省、湖北省、湖南省、

北航数理统计期末考试题

材料学院研究生会 学术部 2011年12月 2007-2008学年第一学期期末试卷 一、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体2(,)N μσ的样本,令 )x x T -= , 试证明T 服从t -分布t (2) 二、(6分,B 班不做)统计量F-F(n,m)分布,证明 111(,)F F n m αααα-的(0<<1)的分位点x 是。 三、(8分)设总体X 的密度函数为 其中1α>-,是位置参数。x 1,x 2,…,x n 是来自总体X 的简单样本,试求参数α的矩估计和极大似然估计。 四、(12分)设总体X 的密度函数为 1x exp x (;) 0 , p x μμσσσ??-? -≥??? =????? ,其它, 其中,0,μμσσ-∞<<+∞>已知,是未知参数。x 1,x 2,…,x n 是来自总体X 的简单样本。 (1)试求参数σ的一致最小方差无偏估计σ∧ ; (2)σ∧ 是否为σ的有效估计?证明你的结论。

五、(6分,A 班不做)设x 1,x 2,…,x n 是来自正态总体211(,)N μσ的简单样本,y 1,y 2,…,y n 是来自正态总体222(,)N μσ的简单样本,且两样本相互独立,其中221122,,,μσμσ是未知参数,2212σσ≠。为检验假设012112:, :,H H μμμμ=≠可令12, 1,2,..., , ,i i i z x y i n μμμ=-==-则上述假设检验问题等价于0111:0, :0,H H μμ=≠这样双样本检验问题就变为单检验问题。基于变换后样本z 1,z 2,…,z n ,在显著性水平α下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B 班不做)设x 1,x 2,…,x n 是来自正态总体20(,)N μσ的简单样本,0μ已知,2σ未知,试求假设检验问题 22220010:, :H H σσσσ≥<的水平为α 的UMPT 。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方面? 八、(6分)设方差分析模型为 总离差平方和 试求A E(S ),并根据直观分析给出检验假设012:...0P H ααα====的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A 、B 、C 、D 外,还需考察A B ?,B C ?。今选用表78(2)L ,表头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。

北航应用数理统计考试题及参考解答

北航2010《应用数理统计》考试题及参考解答 09B 一、填空题(每小题3分,共15分) 1,设总体X 服从正态分布(0,4)N ,而12 15(,,)X X X 是来自X 的样本,则22 110 22 11152() X X U X X ++=++服从的分布是_______ . 解:(10,5)F . 2,?n θ是总体未知参数θ的相合估计量的一个充分条件是_______ . 解:??lim (), lim Var()0n n n n E θθθ→∞ →∞ ==. 3,分布拟合检验方法有_______ 与____ ___. 解:2 χ检验、柯尔莫哥洛夫检验. 4,方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5,多元线性回归模型=+Y βX ε中,β的最小二乘估计?β 的协方差矩阵?βCov()=_______ . 解:1?σ-'2Cov(β) =()X X . 二、单项选择题(每小题3分,共15分) 1,设总体~(1,9)X N ,129(,, ,)X X X 是X 的样本,则___B___ . (A ) 1~(0,1)3X N -; (B )1 ~(0,1)1X N -; (C ) 1 ~(0,1) 9X N -; (D ~(0,1)N . 2,若总体2(,)X N μσ,其中2σ已知,当样本容量n 保持不变时,如果置信度1α-减小,则μ的 置信区间____B___ . (A )长度变大; (B )长度变小; (C )长度不变; (D )前述都有可能. 3,在假设检验中,就检验结果而言,以下说法正确的是____B___ . (A )拒绝和接受原假设的理由都是充分的; (B )拒绝原假设的理由是充分的,接受原假设的理由是不充分的; (C )拒绝原假设的理由是不充分的,接受原假设的理由是充分的; (D )拒绝和接受原假设的理由都是不充分的. 4,对于单因素试验方差分析的数学模型,设T S 为总离差平方和,e S 为误差平方和,A S 为效应平方和,则总有___A___ .

数理统计第二次大作业——聚类与判别分析

地区生产总值及经济发展状况的统计分析 学号:姓名: 摘要:本文运用统计学方法,基于从2006和2007年度分地区生产总值的各项指标数据对各省市自治区经济发展状况进行了分类研究。研究结果显示了我国各省市的经济优势地区和经济薄弱地区,对更好地进行统筹规划,促进各地区经济健康协调发展有积极意义。 对各地区的经济发展状况进行的聚类和判别分析结果显示,北京﹑上海﹑山东﹑广东等东部沿海省份及直辖市在经济发展中处于领先地位,属于经济较发达地区;辽宁﹑湖南﹑河南等中部省份处于中游,属于中等发达地区;而位于我国西部的西藏﹑青海﹑宁夏等省份,经济发展较为缓慢,属于欠发达地区。分析结果与我国目前地区经济发展情况基本相符。 关键词:地区生产总值,地区经济发展, SPSS,聚类分析,判别分析 1.引言 国内生产总值是某国家领土面积内的经济情况的度量。是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。它不但可反映一个国家的经济表现,更可以反映一国的国力与财富。 地区生产总值是指由地方政府组织、支配的生产总值。是地方经济建设、政府机器运行和各方面事业发展的关键因素和物质基础。分地区生产总值可以较为准确反映地区经济发展状况,通过建立地区生产总值模型,对各地区经济发展状况进行分类,具有一定的准确性和合理性。 本文应用数理统计软件SPSS对各地区生产总值进行聚类和判别分析,分析和评定各地区经济发展情况,同时对各地区进行分类,确定经济优势地区和经济薄弱地区。 2.地区经济发展的聚类和判别分析 分地区生产总值主要包括的内容有: (1)第一产业: 包括农、林、牧、渔业。 (2)第二产业: 包括工业及建筑业。 (3)第三产业: 包括交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融 业、房地产业及其他产业。 (一)相关自变量的选择 本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐

北航2014级硕士研究生应用数理统计答案(B卷)

2014-2015 学年 第一学期期末试卷答案 学号 姓名 成绩 考试日期: 2015年1月13日 考试科目:《应用数理统计》(B 层) 一、填空题(本题共16分,每小题4分) 1.设122,,n x x x ,是来自正态总体2(,)N μσ的简单样本,则c = n m m - 时,统计量2 22112 2211 ()()m k k k n k k k m x x c x x η-=-=+-=-∑∑服从F -分布。 2. 设12,,n x x x ,是来自正态总体2 (0,)N σ的简单样本,用2 2 21 1?()n i i nx x n σ ===∑估计2σ,则均方误差2222?()E σσ σ- 42σ 。 3.设总体X 的密度函数为22 ,[0,] (;)0, [0,]x x p x x θθθθ?∈?=????,其中0θ>,12,,,n x x x 是 来自总体X 简单样本,则2()q θθ=的矩估计?q = 2 94 x 或2 1 2n i i x n =∑ 。 4.在双因素方差分析中,总离差平方和T S 的分解式为 T A B A B e S S S S S ?=+++ 其中2 111 ()p q r e ijk ij i j k S x x ?====-∑∑∑,11r ij ijk k x x r ?==∑, 则e S 的自由度是 (1)p q r - 或n pq -,其中n pqr = 。

二、(本题12分)设总体X 的密度函数为111,(0,1) (;)0,(0,1)x x f x x θ θθ-?∈?=???? ,其中0θ>, 12,,,n x x x 是来自总体X 的简单样本。 (1)求θ的极大似然估计?θ;(2)求θ的一致最小方差无偏估计;(3)问θ的一致最小方差无偏估计是否为有效估计?证 明你的结论。 解(1)似然函数为 (1)()1 1 {01}121 1 ()() (,,,)n n i x x n n i L x I x x x θ θθ-<≤<== ∏ 对数似然函数为 (1)(){01}121 1 ln ()ln (1)ln ln (,,,)n n i x x n i L n x I x x x θθθ <≤<==-+-+∑ 求导,有 2 1 ln ()1 ln n i i L n x θθθθ =?=--?∑ 令ln ()0L θθ?=?,可得θ的极大似然估计为1 1?ln n i i x n θ==-∑。 (2)因为 (1)()1 1 12{01}121 1 (,,,;)() (,,,)n n n i x x n n i f x x x x I x x x θ θθ-<≤<== ∏ (1)(){01}121 1 1 (,,,)exp{(1)ln }n n x x n i n i I x x x x θθ <≤<==-∑ 令1 ()n c θθ = ,(1)(){01}12()(,,,)n x x n h x I x x x <≤<= ,1 ()1w θθ = -,1 ln n i i T x ==∑,由于() w θ的值域(0,)+∞有内点,由定理2.2.4知1 ln n i i T x ==∑是完全充分统计量。而 1 1 1 1 (ln )(ln )i E x x x dx θθθ -= =-? 所以 1 1 (ln )(ln )n n i i i i E x E x n θ====-∑∑

北航数理统计回归分析大作业

数理统计(课程大作业1) 逐步回归分析 学院:机械工程学院 专业:材料加工工程 日期:2014年12月7日

摘要:本文介绍多元线性回归分析方法以及逐步回归法,然后结合实际,以我国1995-2012年的财政收入为因变量,选取了8个可能的影响因素,选用逐步回归法对各影响因素进行了筛选分析,最终确定了其“最优”回归方程。 关键字:多元线性回归 逐步回归法 财政收入 SPSS 1 引言 自然界中任何事物都是普遍联系的,客观事物之间往往都存在着某种程度的关联关系。为了研究变量之间的相关关系,人们常用回归分析的方法,而回归分析是数理统计中一种常用方法。数理统计作为一种实用有效的工具,广泛应用于国民经济的各个方面,在解决实际问题中发挥了巨大的作用,是一种理论联系实践、指导实践的科学方法。 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。 本文将以回归分析为方法,运用数理统计工具探求财政收入与各种统计指标之间的关系,总结主要影响因素,并对其作用、前景进行分析和展望。 2 多元线性回归 2.1 多元线性回归简介 在实际问题中,某一因素的变化往往受到许多因素的影响,多元回归分析的任务就是要找出这些因素之间的某种联系。由于许多非线性的情形都可以通过变换转化为线性回归来处理,因此,一般的实际问题都是基于多元线性回归问题进行处理的。对多元线性回归模型简要介绍如下: 如果随机变量y 与m )2(≥m 个普通变量m x x x 21,有关,且满足关系式: εββββ++++=m m x x x y 22110 2,0σεε==D E (2.1) 其中,2210,,,σββββm 是与m x x x 21,无关的未知参数,ε是不可观测的随机变量,),0(~2N I N σε。

北航应用数理统计大作业多元线性回归

多元线性回归分析 摘要:本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造线性回归模型。并对模型的回归显著性、拟合度、正态分布等分别进行检验,最终得到最优线性回归模型,寻找影响居民消费的各个因素。 关键字:回归分析;线性;相关系数;正态分布 1. 引言 变量与变量之间的关系分为确定性关系和非确定性关系,函数表达确定性关系。研究变量间的非确定性关系,构造变量间经验公式的数理统计方法称为回归分析。 回归分析是指通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程,这一数学表达式通常称为经验公式。一方面,研究者可以利用概率统计知识,对这个经验公式的有效性进行判定;另一方面,研究者可以利用经验公式,根据自变量的取值预测因变量的取值。如果是多个因素作为自变量的时候,还可以通过因素分析,找出哪些自变量对因变量的影响是显著的,哪些是不显著的。 回归分析目前在生物统计、医学统计、经济分析、数据挖掘中得到了广泛的应用。通过对训练数据进行回归分析得出经验公式,利用经验公式就可以在已知自变量的情况下预测因变量的取值。实际问题的控制中往往是根据预测结果来进行的,如在商品流通领域,通常用回归分析商品价和与商品需求之间的关系,以便对商品的价格和需求量进行控制。 本文查找2011年《中国统计年鉴》,取我国31个省市自治区直辖市2010年的数据,利用SPSS软件对影响居民消费的因素进行讨论构造多元线性线性回归模型。以探求影响居民消费水平的各个因素,得到最优线性回归模型。随后,我们对模型的回归显著性、拟合度、正态分布等分别进行检验,以考察线性回归模型的可信度。 本文将分为5章进行论述。在第2章,我们介绍多元线性回归模型的概念。第3章,我们进行模型的建立与数据的收集和整理。我们在第4章对数据进行处理,得出多元线性回归模型,并对其进行检验。在第5章,我们进行总结。2.预备知识 2.1 回归分析 回归分析研究的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。回归分析方法是通过建立统计模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效的工具。

北航数理统计期末考试题

北航数理统计期末考试题 2011年2007-2008学年第一学期期末试卷一、(6分,A班不做)设x1,x2,…,xn是来自正态总体的样本,令,试证明T服从t-分布t(2) 二、(6分,B班不做)统计量F-F(n,m)分布,证明。 三、(8分)设总体X的密度函数为其中,是位置参数。x1,x2,…,xn是来自总体X的简单 样本,试求参数的矩估计和极大似然估计。 四、(12分)设总体X的密度函数为,其中是未知参数。x1,x2,…,xn是来自总体X的简 单样本。 (1)试求参数的一致最小方差无偏估计; (2)是否为的有效估计证明你的结论。 五、(6分,A班不做)设x1,x2,…,xn是来自正态总体的简单样本,y1,y2,…,yn是 来自正态总体的简单样本,且两样本相互独立,其中是未知参数,。为检验假设可令则上述假设检验问题等价于这样双样本检验问题就变为单检验问题。基于变换后样本z1,z2,…,zn,在显著性水平下,试构造检验上述问题的t-检验统计量及相应的拒绝域。 六、(6分,B班不做)设x1,x2,…,xn是来自正态总体的简单样本,已知,未知,试求假 设检验问题的水平为的UMPT。 七、(6分)根据大作业情况,试简述你在应用线性回归分析解决实际问题时应该注意哪些方 面八、(6分)设方差分析模型为总离差平方和试求,并根据直观分析给出检验假设的拒绝域形式。 九、(8分)某个四因素二水平试验,除考察因子A、B、C、D外,还需考察,。今选用表,表 头设计及试验数据如表所示。试用极差分析指出因子的主次顺序和较优工艺条件。 列号试验号ABCD实验数据 12345671111111112.82111222228.23122112226.14122221135.35212121230.5621221214 .37221122133.3822121124.0十、(8分)对某中学初中12岁的女生进行体检,测量四个变量,身高x1,体重x2,胸围x3,坐高x4。现测得58个女生,得样本数据(略),经计算指标的协方差阵V的极大似然估计为且其特征根为。 (1)试根据主成分85%的选择标准,应选取几个主要成分(2)试求第一主成分。 2006级硕士研究生《应用数理统计》试题一、选择题(每小题3分,共12分) 1.统计量T~t(n)分布,则统计量T2的α(0α1)分位点xα(P{T2≤xα}=α)是()

北航-数理统计大作业

对中国各地财政收入情况的聚类分析和判 别分析 应用数理统计第二次大作业 学院名称 学号 学生姓名 摘要 我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因

变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。 关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型 1、引言 财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。 本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。 1.1 聚类分析 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就

北航数理统计第二次数理统计大作业 判别分析

数理统计大作业(二) 全国各省发展程度的聚类分析及判别分 析 指导教师 院系名称材料科学与工程院 学号 学生姓名 2015 年 12 月21 日

目录 全国各省发展程度的聚类分析及判别分析 (1) 摘要: (1) 引言 (1) 1实验方案 (2) 1.1数据统计 (2) 1.2聚类分析 (3) 1.3判别分析 (4) 2结果分析与讨论 (5) 2.1聚类分析结果 (5) 2.2聚类分析结果分析: (8) 2.3判别分析结果 (9) 2.4 Fisher判别结果分析: (11) 参考文献: (16)

全国各省发展程度的聚类分析及判别分析 摘要: 利用SPSS软件对全国31个省、直辖市、自治区(浙江、安徽、甘肃除外)的主要经济指标进行多种聚类分析,分析选择最佳聚类类数,并对浙江、湖南、甘肃进行类型判别分析。通过这两个方法对全国各省进行发展分类。本文选取了7项社会发展指标作为决定发展程度的影响因素,其中经济因素为主要因素,同时评估城镇化率和人口素质因素。各项数据均来自2014年国家统计年鉴。分析结果表明:北京市和上海市和天津市为同一类;江苏省和山东省和广东省为同一类型;河北、湖北、河南、湖南、四川、辽宁为同一类;其余的为另一类。 关键词:聚类分析、判别分析、发展 引言 聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称。它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。系统聚类分析又称集群分析,是聚类分析中应用最广的一种方法,它根据样本的多指标(变量)、多个观察数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此连结这些样品或指标,归成大小类群,构成分类树状图或冰柱图。 判别分析是根据多种因素(指标)对事物的影响来实现对事物的分类,从而对事物进行判别分类的统计方法。判别分析适用于已经掌握了历史上分类的每一个类别的若干样品,希望根据这些历史的经验(样品),总结出分类的规律性(判别函数)来指导未来的分类。 聚类分析与判别分析都是研究分类的,但是它们有所区别: (1)聚类分析一般寻求客观的分类方法,在进行聚类分析以前,对总体到底

北航数理统计第二次大作业

数理统计大作业(二) 全国各省、直辖市经济类型 聚类和判别分析 指导老师:冯伟 院系名称:航空科学与工程学院 学号: 姓名:

2014年12月25日 摘要 本文利用SPSS统计软件,选取了7个主要经济指标,利用聚类分析方法对我国26个省、直辖市的经济类型进行了分类,结果表明可以分为三类,并根据各省市当前的发展情况和经济水平对分类结果进行了评价分析,得出该分类结果是合理的。并采用判别分析的方法对剩下的5个省的经济类型进行了判别分类,结果表明各如分类正确率为100%,证明了分类结果的合理性。 关键词:聚类分析,系统聚类,判别分析,Fisher判别

目录 1 引言 (1) 2 聚类分析 (1) 2.1 基本概念 (1) 2.2 数据采集和整理 (2) 2.3 聚类分析过程 (3) 2.4 结果分析 (5) 3 判别分析 (6) 3.1 基本概念 (6) 3.2 判别分析过程 (6) 3.3 结果分析 (8) 4结论 (8) 5 参考文献 (8)

1 引言 进入21世纪后,中国经济迅速发展,财政收入、国内生产总值(GDP)等稳步增长,世界排名也名列前茅。2013年,我国GDP以90386.6亿美元的总量超过日本,仅次于美国。随着经济的快速发展,中国城市化进程的脚步也在不断加快。2012年8月国家统计局发布报告显示,十六大以来中国城市化水平进一步提高,城镇化率达51.27%,超过一半的人口已经居住在城镇中。 但是中国国土面积辽阔,各地区的地理位置、自然环境、资源分布、人口构成、开发程度等都存在较大的差异,因此各地区的经济发展状况也存在不同程度的差异,依照各省、市、区经济社会发展水平,可把全国大致分成东部、中部、西部三个经济地带。而这只是一个在较大区域内大划分,没有对各省市的经济水平做出更进一步的划分。显然研究各省市的经济水平差异,对于政府合理引导资源向薄弱省市适当倾斜具有一定的指导作用,对于国家制定总体发展计划也有一定的帮助。 考虑到各省市在各方面都存在较大的差异,评价各省市经济水平的指标要选择的合理,既要考察总量,也要将人均水平纳入考核中。从这方面考虑,从《国家统计年鉴2013》[1]上选取了我国26个省和直辖市2012年的7个经济数据来进行评价分类,即城乡居民储蓄存款、地区生产总值、居民消费水平、人均地区生产总值、农村居民纯收入、城镇居民年平均收入和公共财政预算收入。利用SPSS 统计软件进行聚类分析,并对聚类结果进行判别分析来判断聚类分析结果的合理性和正确性。 2 聚类分析 2.1 基本概念 聚类分析是研究对象的特征来对研究对象进行分类的多元分析技术的总称,分类问题在科学研究、生产实践、社会生活中到处可见。人们可以靠相关经验和专业知识对事物实现分类,但当反映事物的性质、特性的指标较多,且对分类要求较高时,仅凭经验和专业知识就不能达到确切的分类目的,于是数学方法就被引进到分类问题中来。 聚类分析的核心思想是,从一批样本的多个观测指标变量中,定义能度量样品间相似程度的统计量,在次基础上求出各样品之间的相似程度度量值,按相似

北航数理统计大作业(逐步回归)

BEIHANG UNIVERSITY 应用数理统计 第一次大作业 学号: 姓名:一 班级:B11班 2015年12月

民航客运量的多元线性回归分析 摘要:本文为建立以民航客运量为因变量的多元线性回归模型,选取了1996年至2013年的统计数据,包含国民生产总值,民航航线里程,过夜入境旅游人数,城镇居民可支配收入等因素,利用统计软件SPSS寸各因素进行了筛选分析,采用逐步回归法得到最优多元线性回归模型,并对模型的回归显著性、拟合度以及随机误差的正态性进行了检验,并采用2014年的数据进行检验,得到的结果达到预期,证明该模型建立是较为成功的。 关键词:多元线性回归,逐步回归法,民航客运量

1. 引言 随着社会的进步,人民生活水平的提高,如何获得更快捷方便的交通成为人们日益关注的问题。因为航空的安全性,快速且价格水平越来越倾向大众,越来越多的人们选择航空这种交通方式。近年来,我国的航空客运量已经进入世界前列,为掌握航空客运的动态,合理安排班机数量。科学地对我国民航客运量的影响因素的分析,并得出其回归方程,进而能够估计航空客运量是非常有必要的。本文收集整理了与我国航空客运量相关的历年数据,运用SPSS软件对数据进行 分析,研究1996年起至2013年我国民航客运量y (万人)与国民生产总值X i (亿元)、铁路客运量X2 (万人)、民航航线里程X3 (万公里)、入境过夜旅游人数X4 (万人)、城镇居民人均可支配收入X5 (元)的关系。采用逐步回归法建立线性模型,选出较优的线性回归模型。 2. 数据的统计与分析 本文在进行统计时,查阅《中国统计摘要》,《中国统计年鉴2014》以及中国知网数据查询中的数据,收集了1996年至2013年各个自变量因素的数据,分析它们之间的联系。整理如表1所示。

相关文档
相关文档 最新文档