文档库 最新最全的文档下载
当前位置:文档库 › 我国国内生产总值的多元线性回归分析

我国国内生产总值的多元线性回归分析

我国国内生产总值的多元线性回归分析
我国国内生产总值的多元线性回归分析

我国国内生产总值的多元线性回归分析

我国国内生产总值的多元线性回归分析改革开放以来,中国经济取得了令全世界震惊的巨大成就,持续25年年均增长率超过9%,经济总规模已经稳居世界第四。2010年中国经济增长率更是高达10%。因此,许多专家学者指出,我国目前的经济形势是上世纪90年代中期以来最好的。由此可见,GDP作为现代国民经济核算体系的核心指标,它的总量可以反映一个国家和地区的经济发展及人民的生活水平,其结构可反映社会生产与使用,投资与消费之间的比例关系及宏观经济效益,对于经济研究、经济管理都具有十分重要的意义。

本文运用1982—2011年国内生产总值与城乡居民存款年底、财政收入、居民消费价格指数以及货物进出口总额的相关数据,建立多元线性回归模型,对我国国内生产总值GDP的影响因素作计量模型的实证分析。表1为由《2012年中国统计年鉴》得到的1982-2011年的有关数据。

表11982—2011年国内生产总值及相关指标数据

1982 5323.35 447.31212.

33

102771.3

1983 5962.65 572.61366.

95

102860.1

1984 7208.05 776.621642.

86

102.71201.00

1985 9016.04 1622.60 2004.

82

109.32066.70

1986 10275.1

8

1471.45

2122.

01

106.52580.40

1987 12058.6

2

2067.60

2199.

35

107.33084.20

1988 15042.8

2

2659.16

2357.

24

118.83821.80

1989 16992.3

2

5196.40

2664.

90

209.94155.9

1990 18667.8

2

7119.60

2937.

10

216.45560.1

1991 21781.5

9244.90

3149.

48

223.87225.8

1992 26923.4

8

11757.30

3483.

37

238.19119.6

1993 35333.9

2

15203.50

4348.

95

273.111271

1994 48197.8

6

21518.80

5218.

10

33920381.9

1995 60793.7

3

29662.30

6242.

20

396.923499.9

1996 71176.5

9

38520.80

7407.

99

429.924133.8

1997 78973.0

3

46279.80

8651.

14

441.926967.2

2009

340902.81 260771.66 68518.30 519 150648.0

6 2010

401512.80 303302.49 83101.51 536.1 201722.1

5 2011

473104.05

343635.89

10387

4.43

565

236401.9

9

数据来源:国家统计局 《2012年统计年鉴》

一、 建立多元线性回归模型

1.1 变量选择

首先对所涉及的变量与数据进行说明,本文选取我国 “国内生产总值”

为被解释变量(用Y 表示),众所周知影响国内生产总值的因素有很多国内生产总值,因此我们选取了“城乡居民存款年底、财政收入、居民消费价格指数、货物进出口总额”为解释变量(分别用1X 、2X 、3X 、4X 表示),数据的时间跨度为1982—2011年我国国内生产总值及各项指标的时间序列数据。希望通过建立一个合适的回归模型来从理论上找出影响国内生产总值的因素,从而提出增加国内生产总值的方法。

1.2 模型构建

影响国内生产总值的因素有很多。本文着重考虑城乡居民存款年底、财

政收入、居民消费价格指数、货物进出口总额四个变量。随着城乡居民存款年底、财政收入、居民消费价格指数、货物进出口总额增加,国内生产总值不断提高,但仍存在国内生产总值增长缓慢的现象。因此为了了解现阶段我国国内生产总值增长缓慢的原因,分析各影响因素对经济增长的贡献情况,结合我国当前的宏观经济形势,对国家宏观经济政策提出一点自己的看法。现分析我国国内生产总值Y 与城乡居民存款年底1X 、财政收入2X 、居民消费价格指数3X 、货物进出口总额4X 的关系。利用Eviews 软件,做散点图:

图一 我国国内生产总值Y 与城乡居民存款年底1X 的散点图

图二我国国内生产总值Y与财政收入

X的散点图

2

X的散点图图三我国国内生产总值Y与居民消费价格指数

3

图四 我国国内生产总值Y 与货物进出口总额4X 的散点图

由上图可知:

我国国内生产总值Y 与城乡居民存款年底1X 、财政收入2X 、居民消费价格指数3X 、货物进出口总额4X 成线性关系,即:Y 随着)4,3,2,1(=i X i 的增加而增加。于是建立多元线性模型:

i i u X X X X Y +++++=443322110βββββ (1)

其中: i Y — 我国国内生产总值 ;1X —城乡居民存款年底 ;2X —财政收

入; 3X —居民消费价格指数; 4X —货物进出口总额; i μ—随机误差项注:这里假设i μ相互独立,且服从均值为0,

方差为1的正态分布;

二、 参数估计

最小二乘法(OLS 法),普遍用于线性回归模型中,利用最小二乘法可以

简单快捷地求得未知数据,且使得所得数据与实际数据之间误差的平方和为最小。运用EViews 软件,对数据进行OLS 回归分析,结果如下:

表2 EViews 回归结果

Dependent Variable: Y Method: Least Squares Date: 11/24/13 Time: 18:51 Sample: 1982 2011 Included observations: 30

Variable

Coefficient Std. Error t-Statistic Prob.

C -8218.578 1777.294 -4.624209 0.0001 X1 0.338696 0.065316 5.185504 0.0000 X2 2.644429 0.208139 12.70512 0.0000 X3 95.12859 7.689782 12.37078 0.0000 X4

0.176135

0.039906

4.413743

0.0002

R-squared

0.999542 Mean dependent var 114644.6 Adjusted R-squared 0.999468 S.D. dependent var 127824.0 S.E. of regression 2947.453 Akaike info criterion 18.96628 Sum squared resid 2.17E+08 Schwarz criterion 19.19982 Log likelihood -279.4942 F-statistic 13629.19 Durbin-Watson stat

0.803825 Prob(F-statistic)

0.000000

根据表2中EViews 软件输出结果可知:

578.82180-=∧β,339.01=∧β,644.22=∧β,129.953=∧β,176.04=∧

β 因此,建立多元线性回归方程为:

4321176.0129.95644.2339.0-8218.578X X X X Y i ++++=

三、 模型的检验 3.1 经济意义检验

在上述回归模型中,)4,3,2,1(,0=∧

∧i i ββ前者代表回归模型的截距,后者代表回归模型的斜率。由于01>∧

β,即:在其他解释变量2X 、3X 、4X 保持不变时,城乡居民存款年底每增加1亿元,国内生产总值将增加0.339亿元;

同理:在解释变量1X 、3X 、4X 保持不变时,财政收入每增加1亿元,国内生产总值将增加2.644亿元;在解释变量1X 、2X 、4X 保持不变时,居民消费价格指数每增加1单位,国内生产总值将增加95.129亿元;在解释变量1X 、

2X 、3X 保持不变时,货物进出口总额每增加1亿元,国内生产总值将增加

0.176亿元。实证结果与上述理论预期一致。系数10,ββ符合经济意义,均符合经济理论及实际情况。

3.2 统计检验

3.2.1 拟合优度检验(75.02≥R )

拟合优度检验主要是运用判定系数和回归标准差,检验模型对样本观测值的拟合程度。R 的取值范围是[0,1]。R 的值越接近1,说明回归直线对观测值的拟合程度越好;反之,R 的值越接近0,说明回归直线对观测值的拟合程度越差。根据表2输出结果可知:

9995.02=R ,9994.02=R

由9995.02=R 接近1,说明样本回归直线对观测值的拟合程度越好。

3.2.2 显著性检验

最小二乘法估计的)4,3,2,1(,0=∧

∧i i ββ是由)4,3,2,1(=i X i 和Y 的样本观测值求出,为了确定它们的可靠程度,要进行显著性检验,来确定是否

)4,3,2,1(,0=∧

∧i i ββ显著(不等于0)。 (1)t 检验

首先,对回归分析的估计值的显著性检验用t 检验,由EViews 软件输出结果,得:

040.0690.7208.0061.0294.17774

3

2

1

=====∧∧∧∧∧βββββS S S S S ,,,,

利用公式,得:

705

.1220813

.064443

.2,186.0065316.0338696.0,624.4294.1777578.82182

1

22110

0======-=-=

=

∧∧∧

∧∧

ββββββS t S t S t 414.403991

.017614

.0,371.126899.71286.954

3

443

3=====

=

∧∧

ββββS t S t

在05.0=?时,048.2)28(025.0=t ,因为0t =4.6242>2.048,所以在95%的置信度下拒绝原假设,说明截距项在回归方程显著不为零。由于1t 、2t 、3t 、

4t 均大于048.2)28(025.0=t ,因此解释变量城乡居民存款年底1X 、财政收入2X 、居民消费价格指数3X 、货物进出口总额4X 显著的影响国内生产总值Y 。

其次,由公式i

i

S t S t i ∧∧?∧

?∧+<<βββββ2

i 2

i -计算)4,3,2,1(=i i β的置信区间为:

680.4578476.118580-<<-β473.0205.01<<β071.3218.22<<β

877.110380.793<<β 2579.00944.04<<β

综上,得:

表2 参数i ^

β含置信区间

参数

参数估计值 95%的置信区间

-8218.578 [-11858.476 -4578.680]

0.3387 [0.205 0.473] 2.6445 [2.218 3.071] 59.1286 [7.380 110.877]

0.1762 [0.094 0.258]

由表2可知,在95%的置信度下拒绝回归系数为零的假设,说明解释变量i X 显著的影响Y 变量。 (2)F 检验

根据表2中Eviews 软件输出的结果可知:

19.13629=F

3β4

β2β1β0β

在5%的显著水平下,查F 分布表,得到临界值76.2)25,4(05.0=F ,可知

76.219.13629>=F ,表明回归方程的总体线性显著成立,即国内生产总值与城乡居民存款年底、财政收入、居民消费价格指数、货物进出口总额的线性关系显著,模型通过F 检验。

四、 回归模型的计量经济检验 4.1 多重共线性检验

利用Eviews 软件对模型的参数进行OLS 估计得到:

表2 EViews 回归结果

Dependent Variable: Y Method: Least Squares Date: 12/25/13 Time: 17:54 Sample: 1982 2011 Included observations: 30

Variable

Coefficient Std. Error t-Statistic Prob.

C -8218.578 1777.294 -4.624209 0.0001 X1 0.338696 0.065316 5.185504 0.0000 X2 2.644429 0.208139 12.70512 0.0000 X3 95.12859 7.689782 12.37078 0.0000 X4

0.176135

0.039906

4.413743

0.0002

R-squared

0.999542 Mean dependent var 114644.6 Adjusted R-squared 0.999468 S.D. dependent var 127824.0 S.E. of regression 2947.453 Akaike info criterion 18.96628 Sum squared resid 2.17E+08 Schwarz criterion 19.19982 Log likelihood -279.4942 F-statistic 13629.19 Durbin-Watson stat

0.803825 Prob(F-statistic) 0.000000

由上面表2中可以看出,2R 接近1,模型拟合度较好,F 检验和t 检验均显著,说明模型不存在多重共线性。

4.2 序列相关性检验

4.2.1 D-W 检验

由表2中Eviews 软件输出结果可知,0.804=DW ,在5%的显著性水平下,

30=n ,4=k ,查表的21.1=L d ,65.1=U d ,由于L d DW <=0.804,所以存在自相关性。 4.2.2 L-M 检验

表3 LM 检验结果

Breusch-Godfrey Serial Correlation LM Test:

F-statistic

12.79113 Probability 0.000184 Obs*R-squared

15.79729 Probability 0.000371

Test Equation:

Dependent Variable: RESID Method: Least Squares Date: 12/26/02 Time: 16:33

Presample missing value lagged residuals set to zero.

Variable

Coefficient Std. Error t-Statistic Prob.

C 2.999532 1283.049 0.002338 0.9982 X1 -0.023465 0.049987 -0.469429 0.6432 X2 -0.034664 0.149616 -0.231687 0.8188 X3 0.419588 5.577566 0.075228 0.9407 X4 0.040576 0.037506 1.081866 0.2905 RESID(-1) 1.014542 0.201399 5.037463 0.0000 RESID(-2)

-0.410788

0.233626

-1.758316 0.0920

R-squared

0.526576 Mean dependent var 2.89E-11 Adjusted R-squared 0.403074 S.D. dependent var 2736.641 S.E. of regression 2114.356 Akaike info criterion 18.35185 Sum squared resid 1.03E+08 Schwarz criterion 18.67880 Log likelihood -268.2778 F-statistic 4.263711 Durbin-Watson stat

2.232971 Prob(F-statistic) 0.004972

由表3检验结果表明,含一阶滞后变量时的05.000.0Pr <=ob ,故随机扰动项存在一阶序列相关性;含二阶滞后变量时的05.0092.0Pr >=ob ,故随机扰动项不存在二阶序列相关性。 4.2.3 序列相关性修正

采用科克伦-奥科特迭代法,得表4所示结果:

表4 科克伦-奥科特迭代回归结果

Dependent Variable: Y

Method: Least Squares

Date: 12/26/02 Time: 16:38

Sample (adjusted): 1984 2011

Included observations: 28 after adjustments

Convergence achieved after 15 iterations

Variable Coefficient Std. Error t-Statistic Prob.

C -6851.262 2542.199 -2.695014 0.0136

X1 0.330115 0.056358 5.857463 0.0000

X2 2.587201 0.187429 13.80363 0.0000

X3 90.24336 9.698446 9.304930 0.0000

X4 0.211095 0.039895 5.291315 0.0000

AR(1) 1.038094 0.219725 4.724522 0.0001

AR(2) -0.569574 0.216848 -2.626603 0.0158

R-squared 0.999770 Mean dependent var 122430.4 Adjusted R-squared 0.999704 S.D. dependent var 128865.4 S.E. of regression 2217.613 Akaike info criterion 18.45857 Sum squared resid 1.03E+08 Schwarz criterion 18.79162 Log likelihood -251.4200 F-statistic 15191.96 Durbin-Watson stat 2.221427 Prob(F-statistic) 0.000000

Inverted AR Roots .52+.55i .52-.55i

最后再用LM法检验序列相关性,得表5结果所示:

表5 LM检验结果

Breusch-Godfrey Serial Correlation LM Test:

F-statistic 0.852038 Probability 0.442210 Obs*R-squared 2.304577 Probability 0.315913

Test Equation:

Dependent Variable: RESID

Method: Least Squares

Date: 12/26/02 Time: 16:40

Presample missing value lagged residuals set to zero.

Variable

Coefficient Std. Error t-Statistic Prob.

C -184.9934 2570.364 -0.071972 0.9434 X1 0.003935 0.060214 0.065358 0.9486 X2 -0.022710 0.192210 -0.118150 0.9072 X3 0.292605 9.826906 0.029776 0.9766 X4 0.003029 0.042277 0.071656 0.9436 AR(1) 0.606080 0.585540 1.035078 0.3136 AR(2) -0.307554 0.321359 -0.957044 0.3506 RESID(-1) -0.758542 0.667130 -1.137022 0.2697 RESID(-2)

-0.207364

0.494431

-0.419400

0.6796

R-squared

0.082306 Mean dependent var 4.54E-08 Adjusted R-squared -0.304091 S.D. dependent var 1955.751 S.E. of regression 2233.405 Akaike info criterion 18.51553 Sum squared resid 94773843 Schwarz criterion 18.94374 Log likelihood -250.2175 F-statistic 0.213010 Durbin-Watson stat

2.011803 Prob(F-statistic) 0.984528

综上可知, 2.221=DW ,在5%的显著性水平下4,30==k n ,查表得到

65.1,21.1==U L d d ,U U d DW d -<=<42.221,05.03159.0Pr >=ob 检

验结果表明模型已经不存在序列相关性。

4.3 异方差性检验

4.3.1 无交叉项的怀特检验

表6 EViews 估计结果

White Heteroskedasticity Test:

F-statistic

0.473344 Probability 0.859886 Obs*R-squared

4.653100 Probability 0.793928

Test Equation:

Dependent Variable: RESID^2 Method: Least Squares Date: 12/26/02 Time: 16:42 Sample: 1984 2011 Included observations: 28

Variable

Coefficient Std. Error t-Statistic Prob.

C -13797826 14149839 -0.975122 0.3418 X1 -272.1303 742.6285 -0.366442 0.7181 X1^2 -0.000151 0.001585 -0.095298 0.9251 X2 1842.839 1780.732 1.034877 0.3137 X2^2 -0.004077 0.013919 -0.292912 0.7728 X3 151973.2 127057.4 1.196099 0.2464 X3^2 -278.5559 266.3085 -1.045990 0.3087 X4 -112.3209 712.6657 -0.157607 0.8764 X4^2

0.000199

0.002923

0.068079

0.9464

R-squared

0.166182 Mean dependent var 3688355. Adjusted R-squared -0.184899 S.D. dependent var 9120158. S.E. of regression 9927572. Akaike info criterion 35.31462 Sum squared resid 1.87E+15 Schwarz criterion 35.74283 Log likelihood -485.4047 F-statistic 0.473344 Durbin-Watson stat

2.093898 Prob(F-statistic) 0.859886

从表6中的无交叉项怀特检验可以看出,当显著性水平位0.05时,

51.15)8(653.42

05.02=<=χnR ,

所以不存在异方差性。实际上,2χ统计量的p 值为0.0997,大于0.05的水平,所以不存在异方差。 5.3.2 有交叉项的怀特检验

类似的,从下面有交叉项的怀特检验(见表7),当显著性当显著性水

平位0.05时,7.23)14(525.16205.02=<=χnR ,所以存在异方差性。实际上,

2χ统计量的p 值为0.282,大于0.05的水平,所以不存在异方差。

表7 EViews 估计结果

White Heteroskedasticity Test:

F-statistic

1.337268 Probability 0.303224 Obs*R-squared

16.52522 Probability 0.282362

Test Equation:

Dependent Variable: RESID^2 Method: Least Squares Date: 12/26/02 Time: 16:43

Sample: 1984 2011 Included observations: 28

Variable

Coefficient Std. Error t-Statistic Prob.

C -1.56E+08 61757259 -2.527795 0.0252 X1 -11910.72 7619.850 -1.563118 0.1420 X1^2 0.054719 0.080868 0.676639 0.5105 X1*X2 -0.382035 0.562874 -0.678722 0.5092 X1*X3 23.05595 22.77134 1.012499 0.3298 X1*X4 -0.004870 0.034108 -0.142770 0.8887 X2 64086.98 25478.81 2.515305 0.0258 X2^2 0.707075 0.843777 0.837988 0.4172 X2*X3 -134.6040 83.23100 -1.617233 0.1298 X2*X4 0.018261 0.082108 0.222400 0.8275 X3 898602.3 479999.9 1.872089 0.0839 X3^2 -1126.589 1078.220 -1.044861 0.3151 X3*X4 18.93321 20.66745 0.916088 0.3763 X4 -7933.119 7815.370 -1.015066 0.3286 X4^2

-0.005158

0.015407

-0.334761

0.7431

R-squared

0.590187 Mean dependent var 3688355. Adjusted R-squared 0.148849 S.D. dependent var 9120158. S.E. of regression 8414061. Akaike info criterion 35.03288 Sum squared resid 9.20E+14 Schwarz criterion 35.74656 Log likelihood -475.4603 F-statistic 1.337268 Durbin-Watson stat

2.703925 Prob(F-statistic) 0.303224

五、 模型的预测

综上所述,本文最终建立的多元线性回归模型为:

4321211.0243.90587.2330.0-6851.262X X X X Y i ++++=

5.1 样本范围内

由本文表1中选取的数据可知,2010年我国国内生产总值为401512亿元,城乡居民存款年底为303302.49亿元、财政收入83101.51亿元、

居民消费价格指数

536.1、货物进出口总额201722.15亿元,将数值

带入样本回归方程,得到2010年的就业人数预测值∧

2010Y :

812

.399164 201722.150.211536.190.243 83101.512.587303302.490.330-6851.262010=?+?+?+?+=∧

Y 而实际2010年我国国内生产总值2010Y 为401512亿元,相对误差为0.58%. 5.2 样本范围外

利用EViews 软件作出预测趋势图:

六、 模型评价

1、从计算结果来看,999468.02=R ,说明回归直线对观测值的拟合程度越好。实际上,本文所建立的模型没有考虑到所选取的数据是一个时间序列,前一年的数据可能对下一年的数据有影响,即存在自相关性,本文对初步建立的模型进行了自相关性检验,并对所建模型进一步优化修正。

2、由于模型中含有多个解释变量,两两解释变量间可能存在多重共线性,本文在对模型进行自相关性检验的同时,对模型进行了多重共线性、异方差检验。检查结果表明,修正后的模型不存在多重共线性、异方差性

3、从以上模型经分析可得出:我国的国内生产总值和城乡居民存款年底、财政收入、居民消费价格指数、货物进出口总额存在着正相关关系。我国自改革开放以来,对外贸易的规模不断扩大,进出口总额不断增长,进出口已经成为GDP增长的重要边际因素,对GDP增长的影响逐渐增大。。

4、我国是一个发展中国家,国家的经济发展水平最终要体现在人民生活水平上,只有人民的十活水平提高了,职工工资提高了,消费储蓄增加,才能刺激经济增长。只有不断提高劳动力的积极性,发挥出劳动力的智慧,才能使我国的经济实现实质上的增长,并最终使人民得到更多的实惠。

多元线性回归分析范例

国际旅游外汇收入是国民经济发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、交通等多方面的因素,本例研究第三产业对旅游外汇收入的影响。《中国统计年鉴》把第三产业划分为12个组成部分,分别为x1农林牧渔服务业,x2地质勘查水利管理业,x3交通运输仓储和邮电通信业,x4批发零售贸易和餐饮业,x5金融保险业,x6房地产业,x7社会服务业,x8卫生体育和社会福利业,x9教育文化艺术和广播,x10科学研究和综合艺术,x11党政机关,x12其他行业。采用1998年我国31 个省、市、自治区的数据,以国际旅游外汇收入(百万美元)为因变量y,以如上12 个行业为自变量做多元线性回归,其中自变量单位为亿元人民币。即样本量n=31,变量p=12。 利用SPSS软件对数据进行处理,输出: 图1 输入/移除变量 图1即输入了所有模型中的变量,分别为 x1:农林牧渔服务业 x2:地质勘查水利管理业 x3:交通运输仓储和邮电通信业 x4:批发零售贸易和餐饮业 x5:金融保险业 x6:房地产业 x7:社会服务业 x8:卫生体育和社会福利业 x9:教育文化艺术和广播 x10:科学研究和综合艺术 x11:党政机关 x12:其他行业

图2 模型概述 即回归方程对样本观测值的拟合程度,复相关系数R=0.875,决定系数R 2=0.935。由决定系数接近1,得出回归拟合的效果较好,但是并不能作为严格的显著性检验。由R 2决定模型优劣时需慎重,尤其是样本量与自变量个数接近时。 图3 回归方程显著性的F 检验 F=10.482,F α(n,n-p-1)=F α(30,18)=2.11(α=0.05),P 值=0.000,表明回归方程高度显著,即12个自变量整体对因变量y 产生显著线性影响。但是并不能说明回归方程中所有自变量都对因变量y 有显著影响,因此还要对回归系数进行检验。 图4 回归系数的显著性t 检验(t 0.05(20)=1.725) y 对12个自变量的线性回归方程为: 1234 5678 9101112y 205.388 1.438 2.622 3.2970.9465.521 4.068 4.16215.40417.3389.15510.536 1.37x x x x x x x x x x x x =--++--++-++-+

多元线性回归分析预测法

多元线性回归分析预测法 (重定向自多元线性回归预测法) 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释

因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。 设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x1对y的偏回归系数;同理b2为固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b0为常数项,为回归系数,b1为固定时,x2每增加一 个单位对y的效应,即x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得

多元回归分析法的介绍及具体应用

多元回归分析法的介绍及具体应用

————————————————————————————————作者: ————————————————————————————————日期: ?

多元回归分析法的介绍及具体应用 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。 1. 多元线性回归的定义 说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。 因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。 2. 多元回归线性分析的运用 具体地说,多元线性回归分析主要解决以下几方面的问题。 (1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们

回归分析概要(多元线性回归模型)

第二章 回归分析概要 第五节 多元线性回归分析 一 模型的建立与假定条件 在一元线性回归模型中,我们只讨论了包含一个解释变量的一元线性回归模型,也就是假定被解释变量只受一个因素的影响。但是在现实生活中,一个被解释变量往往受到多个因素的影响。例如,商品的消费需求,不但受商品本身的价格影响,还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。在分析这些问题的时候,仅利用一元线性回归模型已经不能够反映各变量间的真实关系,因此,需要借助多元线性回归模型来进行量化分析。 1. 多元线性回归模型的基本概念 如果一个被解释变量(因变量)t y 有k 个解释变量(自变量)tj x ,k j ,...,3,2,1=, 同时,t y 不仅是tk x 的线性函数,而且是参数0β和k i i ,...3,2,1=,β(通常未知)的线性函数,随即误差项为t u ,那么多元线性回归模型可以表示为: ,...22110t tk k t t t u x x x y +++++=ββββ ),..,2,1(n t = 这里tk k t t t x x x y E ββββ++++=...)(22110为总体多元线性回归方程,简称总体回归方程。 其中,k 表示解释变量个数,0β称为截距项,k βββ...21是总体回归系数。k i i ,...3,2,1=,β表示在其他自变量保持不变的情况下,自变量tj X 变动一个单位所引起的因变量Y 平均变动的数量,因而也称之为偏回归系数。 当给定一个样本n t x x x y tk t t t ,...2,1),,...,,(21=时,上述模型可以表示为: ???? ??? ???????????+++++=+++++=+++++=+++++=t tk k t t t k k k k k k u x x x y u x x x y u x x x y u x x x y ββββββββββββββββ (22110333223110322222211021112211101) 此时,t y 与tj x 已知,i β与t u 未知。 其相应的矩阵表达式为:

多元回归分析SPSS

多元线性回归分析预测法 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。

设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b 0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x 1对y的偏回归系数;同理b2为固定时,x2每增加一 个单位对y的效应,即,x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b 0为常数项,为回归系数,b1为固定时,x2每增加 一个单位对y的效应,即x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b 0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自 变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之 因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b 0,b1,b2的数值。亦可用下列矩阵法求得

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 毫无疑问,多元线性回归方程应该为: 上图中的x1, x2, xp分别代表“自变量”Xp截止,代表有P个自变量,如果有“N组样本,那么这个多元线性回归,将会组成一个矩阵,如下图所示: 那么,多元线性回归方程矩阵形式为: 其中:代表随机误差,其中随机误差分为:可解释的误差和不可解释的误差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。 2:无偏性假设,即指:期望值为0 3:同共方差性假设,即指,所有的随机误差变量方差都相等 4:独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示:

点击“分析”——回归——线性——进入如下图所示的界面:

将“销售量”作为“因变量”拖入因变量框内,将“车长,车宽,耗油率,车净重等10个自变量拖入自变量框内,如上图所示,在“方法”旁边,选择“逐步”,当然,你也可以选择其它的方式,如果你选择“进入”默认的方式,在分析结果中,将会得到如下图所示的结果:(所有的自变量,都会强行进入) 如果你选择“逐步”这个方法,将会得到如下图所示的结果:(将会根据预先设定的“F统计量的概率值进行筛选,最先进入回归方程的“自变量”应该是跟“因变量”关系最为密切,贡献最大的,如下图可以看出,车的价格和车轴跟因变量关系最为密切,符合判断条件的概率值必须小于0.05,当概率值大于等于0.1时将会被剔除)

多元线性回归分析—内容提要与案例

多元线性回归分析—内容提要 1.多元线性回归的数学模型 【模型的理论假设】设p x x x ,,,21 是) 2 ( ≥p 个自变量(解释变量),y 是因变量,则多元线性回归模型的理论假设是 εββββ+++++=p p x x x y 22110,),0(~2σεN , 其中,p ββββ,,,,210 是1+p 个未知参数,0β称为回归常数,p βββ,,,21 称为回归系数,),0(~2σεN 为随机误差. 【模型的建立】求p 元线性函数 p p x x x Ey ββββ++++= 22110 的经验回归方程 p p x x x y ββββ?????22110++++= , 其中,y ?是Ey 的统计估计,p ββββ?,,?,?,?210 分别是,,,,,210p ββββ 的统计估计,称为经验回归系数. 【模型的数据结构】设对变量向量y x x x p ,,,,21 的n 次观测得到的样本数据为 ),,,,(21i ip i i y x x x ,) 1 ( ,,2,1 +>=p n i .为了今后讨论方便,我们引进矩阵 ??????? ??=n y y y y 21,??????? ??=np n p p x x x x x x X 1221111111,?????? ? ??=p ββββ????10 ,????? ?? ??=n εεεε 21 于是,多元线性回归模型的数据结构为 εβ+=X y 称为多元样本回归方程,其中n p X rank <+=1)(,) ,(~21n n n n I O N ??σε且各个i ε相互独立. 由于矩阵X 是样本数据,X 的数据可以进行设计和控制,因此,矩阵X 称为回归设计矩阵或资料矩阵. 注释 对多元线性回归模型理论假设的进一步说明:

SPSS多元线性回归分析实例操作步骤

SPSS 统计分析 多元线性回归分析方法操作与分析 实验目的: 引入1998~2008年上海市城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率和房屋空置率作为变量,来研究上海房价的变动因素。 实验变量: 以年份、商品房平均售价(元/平方米)、上海市城市人口密度(人/平方公里)、城市居民人均可支配收入(元)、五年以上平均年贷款利率(%)和房屋空置率(%)作为变量。 实验方法:多元线性回归分析法 软件: 操作过程: 第一步:导入Excel数据文件 1.open data document——open data——open;

2. Opening excel data source——OK. 第二步: 1.在最上面菜单里面选中Analyze——Regression——Linear ,Dependent(因变量)选择商品房平均售价,Independents(自变量)选择城市人口密度、城市居民人均可支配收入、五年以上平均年贷款利率、房屋空置率;Method 选择Stepwise.

进入如下界面: 2.点击右侧Statistics,勾选Regression Coefficients(回归系数)选项组中的Estimates;勾选Residuals(残差)选项组中的Durbin-Watson、Casewise diagnostics默认;接着选择Model fit、Collinearity diagnotics;点击Continue.

3.点击右侧Plots,选择*ZPRED(标准化预测值)作为纵轴变量,选择DEPENDNT(因变量)作为横轴变量;勾选选项组中的Standardized Residual Plots(标准化残差图)中的Histogram、Normal probability plot;点击Continue.

多元回归分析法的介绍及具体应用

多元回归分析法的介绍及具体应用 在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。 1. 多元线性回归的定义 说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。 一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。 因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。 研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。 2. 多元回归线性分析的运用 具体地说,多元线性回归分析主要解决以下几方面的问题。 (1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它

多元线性回归模型案例分析.doc

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

多元线性回归分析

多元线性回归分析 为了研究两个变量之间的关系,最简单的方法是绘制散点图。就是把一个因素作为自变量x ,另一个因素作为因变量y ,将它们成对的观察值标在直角坐标图上,判断出各点分布是呈直线还是曲线,从而看出它们之间存在着怎样的关系,以上方法是解决两个变量之间的相关关系问题,然而,客观事物的变化往往受到多种因素的影响,即使其中一个因素起着主导作用,但有时其他因素的作用也是不可忽视的,这种对多因素的相关和回归,称为多元相关和回归因素分析,运算机理可以通过下面计算表示: 设影响因变量y 的自变量因素共有k 个:12,,,k x x x ,通过实验得到下列n 组观察值:(12,,,k x x x ,t y ), t=1,2,3 …n 。 一般地,如果因变量y 与解释变量12,,,k x x x 之间服从如下干系: 01122k k y b b x b x b x u =+++++ (4-1) 则对因变量y 及解释变量12,,,k x x x 作n 次观测后,所得到n 组观测样本 (t y ,12,,,t t k t x x x )(t=1,2, …,n)将满足如下关系: 01122 t t t k k t t y b b x b x b x u =++++ + (4-2) 这就是多元线性回归模型的一般形式。(t y ,12,,,t t k t x x x )(t=1,2,…,n)为第t 次观测样本,j b (j=0,2,…,k )为模型参数,t u 为随机误差项。 模型中的回归系数j b (j=0,2,…,k )就表示当其他解释变量不变的条件下,第j 个解释变量的单位变动对因变量均值的影响,多元线性回归模型中这样的回归系数,称为偏回归系数。 将n 次观测样本所遵从的n 个随机方程式(4-2)写成方程组形式,有: 1011122111k k y b b x b x b x u =+++++ 201 12 2 22 2 k k y b b x b x b x u =+++++ (4-3) …… …… …… 01122 n n n k k n n y b b x b x b x u =++++ + 其中,随机误差u 满足: ()0j E u = ()2 j V a r u σ = (4-4) (),0,j k C o v u u j k = ≠

多元线性回归分析案例

SPSS19.0实战之多元线性回归分析 (2011-12-09 12:19:11) 转载▼ 分类:软件介绍 标签: 文化 线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济研究数据库。 1.1 数据预处理 数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等。本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总。一般意义的数据预处理包括缺失值填写和噪声数据的处理。于此我们只对数据做缺失值填充,但是依然将其统称数据清理。 1.1.1 数据导入与定义 单击“打开数据文档”,将xls格式的全国各地区能源消耗量与产量的数据导入SPSS中,如图1-1所示。 图1-1 导入数据 导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型。单击菜单栏的“ ”-->“ ”将所选的变量改为数值型。如图1-2所示:

图1-2 定义变量数据类型 1.1.2 数据清理 数据清理包括缺失值的填写和还需要使用SPSS分析工具来检查各个变量的数据完整性。单击“ ”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等。如图1-3所示: 图1-3缺失值分析

表1-1 能源消耗量与产量数据缺失值分析 SPSS提供了填充缺失值的工具,点击菜单栏“ ”-->“ ”,即可以使用软件提供的几种填充缺失值工具,包括序列均值,临近点中值,临近点中位数等。结合本次实习数据的具体情况,我们不使用SPSS软件提供的替换缺失值工具,主要是手动将缺失值用零值来代替。 1.1.3 描述性数据汇总 描述性数据汇总技术用来获得数据的典型性质,我们关心数据的中心趋势和离中趋势,根据这些统计值,可以初步得到数据的噪声和离群点。中心趋势的量度值包括:均值(mean),中位数(median),众数(mode)等。离中趋势量度包括四分位数(quartiles),方差(variance)等。 SPSS提供了详尽的数据描述工具,单击菜单栏的“ ”-->“ ”-->“ ”,将弹出如图2-4所示的对话框,我们将所有变量都选取到,然后在选项中勾选上所希望描述的数据特征,包括均值,标准差,方差,最大最小值等。由于本次数据的单位不尽相同,我们需要将数据标准化,同时勾选上“将标准化得分另存为变量”。

多元线性回归方法介绍

多元线性回归方法介绍 回归分析主要研究因变量与自变量的关系,因变量是随机变量,自变量是因素变量,是可以加以控制的变量。多元回归分析一般解决以下问题:第一,确定因变量与多个因素变量之间联系的定量表达式,通常称为回归方程式或数学模型,并确定它们联系的密切程度;第二,通过控制可控变量的数值,借助于球而出的数学模型来预测或控制因变量的取值和精度;第三,进行因素分析,从影响因变量变化的因素中寻找出哪些因素对因变量的影响最为显著,哪些因素不显 著,以区别主要因素和次要因素。 在操作过程中,需要列出影响Y 的多个因素与Y 之间的关系方程。一般地,设因变量Y 于k 个自变量X1,X2,……,XK线性相关: Y=B0+ B1X1+ B2X2+ … + B k X k+ε(1) 其中Y 为可观察的随机变量,X1,X2,…,Xk为可观察的一般变量,B0,B1,B2,…,Bk为待定模型参数,其中B0为截距,ε为不可观测的随机误差。有n组独察的样本数据(yi,x i1,…,xik),i=1,2,…,n,带入方程(1)中,有: y i= b0+ b1x i1+ b2x i2+ … + b k x ik+ e i i=1,2,…, n其中n 个随机变量ei相互独立且服从同一正态分布Nor(0,σ2)。根据最小二乘原则,求B0,B1,B2,…,Bk的估计值b0,b1,…,bk,使上式的误差平方和 ∑(ei)2=∑[y i-(b0+b1x i1+b2x i2+…+b k x ik)]2最小,为此,分别将上式对b0,b1,…,bk求偏导数,令其等于0,当x1,x2,…,xk相互独立时,由极值原理, 可求出总体回归系数矩阵B 总体=[B0,B1,B2,…,Bk]T 的估计值矩阵B样本=[b0,b1,…,bk] T :B样本=(X T X) -1 X T X进而得到回归方程: y=b0+b1x1+b2x2+…+b k x k 本文将依据上述原理对后面的变量关系进行回归分析。

SPSS多元线性回归分析教程

线性回归分析的SPSS操作 本节内容主要介绍如何确定并建立线性回归方程。包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。为了确保所建立的回归方程符合线性标准,在进行回归分析之前,我们往往需要对因变量与自变量进行线性检验。也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验,这里不再重复。另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。 一、一元线性回归分析 1.数据 以本章第三节例3的数据为例,简单介绍利用SPSS如何进行一元线性回归分析。数据编辑窗口显示数据输入格式如下图7-8(文件7-6-1.sav): 图7-8:回归分析数据输入 2.用SPSS进行回归分析,实例操作如下: 2.1.回归方程的建立与检验 (1)操作 ①单击主菜单Analyze / Regression / Linear…,进入设置对话框如图7-9所示。从左边变量表列中把因变量y选入到因变量(Dependent)框中,把自变量x选入到自变量(Independent)框中。在方法即Method一项上请注意保持系统默认的选项Enter,选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。具体如下图所示:

图7-9 线性回归分析主对话框 ②请单击Statistics…按钮,可以选择需要输出的一些统计量。如Regression Coefficients(回归系数)中的Estimates,可以输出回归系数及相关统计量,包括回归系数B、标准误、标准化回归系数BETA、T值及显著性水平等。Model fit项可输出相关系数R,测定系数R2,调整系数、估计标准误及方差分析表。上述两项为默认选项,请注意保持选中。设置如图7-10所示。设置完成后点击Continue返回主对话框。 图7-10:线性回归分析的Statistics选项图7-11:线性回归分析的Options选项 回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反回归分析的假定,为此需进行多项残差分析。由于此部分内容较复杂而且理论性较强,所以不在此详细介绍,读者如有兴趣,可参阅有关资料。 ③用户在进行回归分析时,还可以选择是否输出方程常数。单击Options…按钮,打开它的对话框,可以看到中间有一项Include constant in equation可选项。选中该项可输出对常数的检验。在Options对话框中,还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程的准则,这里我们采用系统的默认设置,如图7-11所示。设置完成后点击Continue返回主对话框。 ④在主对话框点击OK得到程序运行结果。

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千克 X/元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千 克 X/元 - P 1/(元/ 千克) P 2/(元/千克) P 3/(元/千克) 1980 397 1992 — 911 1981 413 《 1993 931 1982 439 · 1994 1021 1983 ) 459 1995 1165 : 1984 492 1996 1349 | 1985 528 1997 % 1449 1986 560 , 1998 1575 1987 624 * 1999 1759 1988 * 666 2000 1994 ) 1989 717 2001 2258 ) 1990 768 2002 ! 2478 1991 843 , (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下:

输出结果如下: 所以,回归方程为: ] 123ln 0.73150.3463ln 0.5021ln 0.1469ln 0.0872ln Y X P P P =-+-++ 由上述回归结果可以知道,鸡肉消费需求受家庭收入水平和鸡肉价格的影响, 而牛肉价格和猪肉价格对鸡肉消费需求的影响并不显著。 验证猪肉价格和鸡肉价格是否有影响,可以通过赤池准则(AIC )和施瓦茨准则(SC )。若AIC 值或SC 值增加了,就应该去掉该解释变量。 去掉猪肉价格P 2与牛肉价格P 3重新进行回归分析,结果如下: ,

多元线性回归分析

摘要:中国是一个农业大国,几千年传统的原始落后的农耕社会使得中国的农业发展滞后于全社会经济的发展。新世纪中国发展的关键在于解决九亿农民的发展问题,其实质就在于提高农民的实际收入。建立投资额模型,研究某地区实际投资额与国民生产总值( GNP ) 及物价指数( PI ) 的关系,根据对未来GNP及PI的估计,预测未来投资额。以下是地区连续20年的统计数据,为了增加数据可比性,投资额和国民生产总值是以第一年为基期将数据换算后的。 : 关键词:投资额国民生产总值物价指数 1实验目的 掌握运用eviews软件进行多元回归分析的基本操作方法和步骤,并能够对软件运行结果进行解释。 2变量选择 建立投资额模型,研究某地区实际投资额与国民生产总值( GNP ) 及物价指数( PI ) 的关系,根据对未来GNP及PI的估计,预测未来投资额。以下是地区连续20年的统计数据,为了增加数据可比性,投资额和国民生产总值是以第一年为基期将数据换算后的。

下面是进行简单的多元回归: Dependent Variable: Y Method: Least Squares Date: 11/05/15 Time: 20:32 Sample: 1994 2013 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. X1 0.636132 0.068555 9.279108 0.0000 X2 -892.3898 127.2399 -7.013442 0.0000 C 334.7074 47.71633 7.014525 0.0000 R-squared 0.991022 Mean dependent var 234.8000 Adjusted R-squared 0.989965 S.D. dependent var 125.7070 S.E. of regression 12.59240 Akaike info criterion 8.041544 Sum squared resid 2695.663 Schwarz criterion 8.190904 Log likelihood -77.41544 Hannan-Quinn criter. 8.070701 F-statistic 938.2299 Durbin-Watson stat 0.828098 Prob(F-statistic) 0.000000 各个解释变量都都用过了t检验,总体也通过了F检验。 第二次作业 五、异方差的诊断与修正 1)图形检验法 首先,产生序列。e 2=resid^2

多元线性回归分析

4 关于公共租赁住房租金价格定价研究 摘要:公共租赁房在实施过程中仍然存在不少问题,如定价机制不合理、准入机 制不健全等问题,公共租赁房定价的高低是住房保障性的直接体现,是保障性资源能够切实满足中低收入住房困难家庭的关键因素。针对公共租赁房定价对公共租赁房政策的重大影响,本文将运用多元线性回归分析,研究影响我国城市公共租赁房租金形成的因素,进一步完善我国城市公共租赁房住房租金标准制定方面的对策。 关键词:公共租赁房租金定价影响因素多元线性回归 每个城市在制定公共租赁房租金水平时,政府必然会综合考虑当地的多方面的影响因素。由于每个城市的经济水平的差异化,在租金设置上“一刀切”的现象会影响中低等收入人群,使得需要保障的人群并没有得到保障,本文将从以下 几点进行研究影响公共租赁房的定价因素。 1.潜在宏观影响因素分析 1.1 地方生产总值对租金影响 生产总值(GDP)在分析衡量一个国家或地区的国民经济发展现实情况时是所有宏观经济指标里最重要的数据。很大程度上说明了经济发展的状况,而住房租金与地方经济发展密切相关。因此我们需要研究城镇公租房租金价格定价的时候,考虑到租赁住房的需求和供给都与地方经济发展有很大的关系,对城镇房屋租赁价格的研究而言,GDP 对其的影响是首当其冲应该被考虑的因素。 1.2 地方财政收入对租金影响 地方财政收入代表了一个地方政府的财力状况和地方税收收入情况。而因为我国土地财政盛行,一个地方的财政收入大小可以反应地方政府对房地产行业发展态度的侧面,并且税收收入多则说明该地区国民经济发展良好,进一步说国民经济发展良好的地区城市化进度一般较快。因此,考虑研究地方财政收入对城市租金的影响作用。 1.3 房价对租金影响 房屋租赁价格是其所有者房屋这种商品在一个时间段内的使用权出售给承租者所获取的金钱价值。有学者断言,房屋租金价格是房地产价格的另一种表现方式。因此,在这认为租金价格与房地产价格是存在一定关联的。 1.4 房地产固定投资对租金影响 从表面上看,房地产业的固定资产投资金额大,新增房屋数量的存在,理论

多元线性回归模型原理

研究在线性关系相关性条件下,两个或者两个以上自变量对一个因变量,为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上为复杂需借助计算机来完成。 计算公式如下: 设随机y与一般变量N,X2,…X k的线性回归模型为: y「° Ei 》2 Zk 其中I。,1,…鼻是k T个未知参数,:0称为回归常数,「,…“称为回归系数; y称为被解释变量;X[,x2,…x k是k个可以精确可控制的一般变量,称为解释变量。 当p =1时,上式即为一元线性回归模型,k _ 2时,上式就叫做多元形多元回归 模型。;是随机误差,与一元线性回归一样,通常假设 E( >0 var( 0 _'2 同样,多元线性总体回归方程为y x X X. 0 1 1 2 2 k k 系数\表示在其他自变量不变的情况下,自变量乂[变动到一个单位时引起的因变量y 的平均单位。其他回归系数的含义相似,从集合意义上来说,多元回归是多维空间上的一个平面。 多元线性样本回归方程为:7 = ? ■ ?X …* ? X, 0 1 1 2 2 k k 多元线性回归方程中回归系数的估计同样可以采用最小二乘法。由残差平方和 : SSE =為(y-?)=0 根据微积分中求极小值得原理,可知残差平方和SSE存在极小值。欲使SSE达到 最小,SSE对],「…乙的偏导数必须为零。 0 1 k 将SSE对、,],…込求偏导数,并令其等于零,加以整理后可得到k ? 1各方程 (y-?)X j = 0

-SSE 式: 2(y y) - 0 -SSE

多元线性回归实例分析

SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理 差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程为: 丫 = 十卩?十£ 毫无疑问,多元线性回归方程应该为: Y = 0十艮&十角兀2 +…十£ 上图中的x1, x2, xp分别代表自变量” xp截止,代表有P个自变量,如果有“N组样本, 那么这个多元线性回归, 将会组成一个矩阵,如下图所示: 记n组样本分别是心…,备= 12…?丹)■令 r = yi ■ ■ * <1 1 ■ w 工|1 X2I 兀12 X22 * ?t v ] 厂A? A ■ ■ ■■ £ 二 &2 1儿J J…兀即丿 其中:代表随机误差,其中随机误差分为:可解释的误差 差,随机误差必须满足以下四个条件,多元线性方程才有意义(一元线性方程也一样) 2 :无偏性假设,即指:期望值为0 3 :同共方差性假设,即指,所有的随机误差变量方差都相等 4 :独立性假设,即指:所有的随机误差变量都相互独立,可以用协方差解释。 今天跟大家一起讨论一下,SPSS---多元线性回归的具体操作过程,下面以教程教程数据 为例,分析汽车特征与汽车销售量之间的关系。通过分析汽车特征跟汽车销售量的关系,建立拟合多元线性回归模型。数据如下图所示: 那么,多元线性回归方程矩阵形式为: 和不可解释的误1:服成正太分布,即指:随机误差必须是服成正太分别的随机变量。

sales nestle type price eng:ine_s horsepow wheelbas width length curt 16 91? 16.360 0 21.5D0 1.8 140 101.2 673 172.4 39 384 19675 0 28.400 3.2225108 1 70 3 192.9 14.1 U 18.225 0 + 3.2 225106.9 70.5 192.0 8 58& 29 725 0 42 000 35 210 114 6 71.4 196 6 20.397 22255 0 23.990 1.8 150 102.S 69.2 178.0 13.780 23.555 0 33 950 2 8 200 1087 76.1 192.0 1 380 39 000 0 62.000 4.2310 113 0 74 0 1982 19 747 -0 26.990 2.5170 107.3 68.4 1760 9 231 2S675 0 33 400 28 193 107 J 63 5 176 0 17 637 36.125 0 38.900 2.8 193 111.4 70.9 188.0 91 561 12 475 0 21 975 3.1 175 109 0 72 7194 6 39.360 13 740 0 25.300 3 8 240 109.0 72 71962 27.851 20 190 0 31.965 3.8 205 113 8 74.7 2068 33257 13 360 0 27.8 S5 3 6 205 1122 73 5 200.0 6372& 22 525 0 39.B95 4.6 275 115.3 74.5 2072 16 943 27.100 0 44 475 46 275 112.2 75 0 201 0 6.536 25 725 0 39.665 4.6 275 108.D75.5 2006 11 185 18 225 0 31.010 3 0 200 1074 70.3 194.a 14 78S - 1 46.226 5.7 255 117.5 77.0 201.2 U5.51& 9 250 0 13.260 2.2 115 104.1 67 9 ieo9 135 126 11 225 0 16 535 3.1 170 107 0 694 190.4 24.62& 10310 0 18.890 3.1 175 107.5 72.S 2009 42.S93 11 525 Q 19 390 34 130 110 5 72 1197.9 点击分析回归——线性——进入如下图所示的界面:

相关文档