文档库 最新最全的文档下载
当前位置:文档库 › 第三章回归分析基础

第三章回归分析基础

第三章回归分析基础
第三章回归分析基础

第三章 回归分析基础

3.1 回归模型简介

一、数据、变量与模型

数据是进行模型分析的基础。一般地,数据可分为三类:一类为截面数据(Cross-Section Data ),一类为时间序列数据(Time-Series Data), 另一类为平行数据(Panel Data )或混合数据(Mixed Data)。

截面数据研究个体在某个时点上的变化情况。例如,2001年1月末,全国各省、自治区、直辖市的国内生产总值(GDP )、财政收入、财政支出、货币发行量、固定资产投资额、进出口总额等,均为截面数据。再如,在某一时点上,某地区家庭费用开支数据,也是典型的截面数据。

时间序列数据是研究个体在一定时期内的变化情况。时间序列数据在日常生活中随处可见。例如,建国以来我国历年的国内生产总值(GDP )数据、居民消费额数据、零售物价指数数据等,均为时间序列数据。

平行数据是截面数据与时间序列数据的复合体,它既研究某段时间内个体的变化情况,又研究个体在每个时点上的变化情况。

变量是构成模型的框架,是对个体不确定性的一种因素度量。一般可将它分为两类:内生变量(Endogenous Variable )和外生变量(Exogenous Variable )。

内生变量是指由经济系统本身决定的变量。外生变量则指经济系统本身无法决定、并由外部因素决定的变量。内生产变量也称联合决定变量(Jointly-Determined Variables)。外生变量也称前定变量(Predetermined Variables)。例如,在简单的原油供求模型:

1111q a b p c y ε=+++(需求方程) 2222

q a b p c R ε=+++(供给方程) 中,原油总量q 和原油价格p 均为内生变量,而国民收入y 和降雨量R 均为外生变量。

值得注意的是,内生变量与外生变量的认定并不是一成不变的,在一定条件下二者可以相互转换,应视研究对象和研究目的的不同而不同。此外,内生变量与外生变量的划分直接关系到模型参数的估计与推断,这是后话。

模型是数据与变量的有机合成,它以一定的经济理论为指导,并与变量的结构形式有关,是对经济关系最直观的表述。按照不同的标准,可将模型分为不同的类型。从方程个数角度划分,可将模型分为三类:第一类为单方程模型。例如,研究货币投放量x 与国内收入y 之间的关系,可建立方程:

,1,2,,t t t y x t N αβε=++=

这是一个时间序列的单方程经济计量模型,其中,t ε为随机误差项。

第二类模型为多方程模型。例如,在研究教育消费支出()t y 与收入()t x 的关系,

以及住房消费支出()t z 与收入()t x 的关系时,有如下方程组: 11t t t y a b x u =++ 22t t t z a b x ν=++

其中,t u 和t ν均为随机误差项。在此二方程间没有必然联系,可以放在一起研究,也可以拆开单独研究。放在一起研究的好处是可同时分析教育与

住房消费支出的结构行为,便于更深入地发掘二者之间内在的关联性。

第三类模型为联立方程组。联立方程组模型的显著特点是:方程之间存在高度的结构依存关系。例如,下面是一个三方程的供给—需求模型:

1231S

t t t t Q P P αααε-=+++ (供给方程) 123D t t t t Q P Y u βββ=+++ (需求方程)

D S t t Q Q = (平衡方程)

在此方程组中,由于供给方程、需求方程和平衡条件共同决定了市场处于均衡时的价格和供给量(也即需求量),故变量D

t Q 、S

t Q 和t P 为内生变量,它们的值由模型内的方程确定。同时,1t P -和t Y (收入)并不由模型直接决定,是外生变量。这里,价格滞后变量1t P -虽本质上仍由模型内部来决

定——由价格变量t P 的前期值确定,但通常的做法是,只要包含滞后内生变量的方程的误差项不存在序列相关,则认定该滞后内生变量为先决变量,即外生变量。显然,此供给—需求模型的三个方程间存在结构依存关系,它不同于多方程模型。

二、模型的拟合

建立模型的目的是通过探讨变量间的依存关系,定量、科学地反映经济问题的本质,发现规律,预测未来,把握事物的发展动向。由于变量间结构依存关系通常都很复杂,因此,我们采取循序渐近的方法进行研究。也即先简单后复杂、先特殊后一般的方法。

假定我们对变量X 和Y 之间的关系感兴趣,并由散点图可以看出:X 与Y 之间存在近似的线性关系。我们的任务是如何具体求出X 与Y 之间这种近似的拟合直线,并且,在某种意义下这条拟合直线为“最佳拟合直线”。“最佳”的标准有很多,但最常用的和最基本的即为“最小二乘准则”,或称“最小二乘原理”。我们先介绍它的基本思想和基本公式。

最小二乘原理是求最佳拟合直线,使各个样本点到该直线的离差平方和达到最小。最小二乘原理的研究始于十九世纪初,1806年和1809年先后由著名数学家A. M. Legendre 和 C. F. Gauss 独立地提出,并将它应用于观测数据的误差分析。1900年,A. A. Markov 证明了线性单方程模型下回归系数的最小二乘估计在线性无偏差估计类中具有最小的方差。即证明了著名的Gauss-Markov 定理,从而确立了最小二乘法(或原理)在模型参数估计理论中的地位。印度统计学家C. R. Rao 在二十世纪中叶系统地发展了最小二乘理论,形成所谓“最小二乘统一理论”,极大地推动了最小二乘理论的研究,为模型的广泛应用奠定了坚实基础。

设有n 个观测点(),,i i X Y 1,2,,i n = ,并且,X 和Y 之间存在理论方程:

Y a bX =+

由于有观测误差等因素存在,我们可写出X 和Y 之间如下的回归模型:

,Y a bX e =++ 2~(0,)n e I σ

最小二乘原理是求参数a 和b 的估计 a

和b ,使拟合直线 Y a bX =+ 与各个样本点(),i i X Y 之间的整体误差达到极小。亦即,有公式:

2

21

1

()n

n

i i i i i Minimize Y Y Minimize e ==-=∑∑

以后,称 a

为拟合直线的截距估计值,称b 为拟合直线斜率的估计值,而称 i Y 为第i 个观测i

Y 的预测值。 利用求导理论,不难推导出 a

和b 的计算公式。事实上,为使

21

()n i i i y y =-∑达到最小,可对21

()n

i i i y a bx =--∑求关于a 和b 的偏导数,并令其为0,得到:

()()2

1120n n

i i i i i i y a bx y a bx a ==?--=---=?∑∑ ()()2

11

20n n

i i i i i i y a bx y a bx b ==?--=---=?∑∑ 化简方程得到如下正规方程组:

11

n

n

i

i i i y

an b X ===+∑∑ (3.1.1)

21

1

1

n

n n

i i

i i i i i x y

a X

b X ====+∑∑∑ (3.1.2)

1

n

i

i X

=∑和n 分别乘以(3.1.1)和(3.1.2)两端后,再将二方程相减,

得到:

2

2

1

111

1n n n

n

n i i i

i i i i i i i i b n x y X y n x X =====????

??=--?? ?????

?????

?

∑∑∑∑

1

1

n

n

i

i

i i Y

X

a

b

Y bX

n

n

===-=-∑∑

亦即:

2

2x y n x y b x n x ∑-=∑- a

y b x =-

现举例说明最小二乘原理的应用。

例2.1.1某省1978~1986年居民消费品购买力y 与居入货币收入x 的统计数据如下表所示(单位:10亿元):

表2.1.1购买力与货币收入数据

年份 x y xy 2x 2y

1978 8.5 11.6 98.6

134.56 72.25 1979 11.1 14.1 156.51 198.81 123.21 80 13.6 17.1 232.56 292.41 184.96 81 15.8 19.6 309.68 384.16 249.64 82 17.6 22.1 388.96 488.41 309.76 83 20.5 25.6 524.80 655.36 420.25 84 27.8 33.6 934.08 1128.96 772.84 85 33.5 40.5 1356.75 1640.25 1122.25 86 39.2 47.8 1873.76

2284.84 1536.64 ∑

187.6 232.0 5875.70 7207.76

4791.80

平均

20.84 25.78

(1)试建立y 对x 的一元线性回归模型;

(2)对回归方程进行显著性检验;

(3)设居民货币收入下年将增长19%,试预测居民消费品购买力; (4)在置信度95%下求1987年居民消费品购买力的区间估计、斜率估计分别为:

222

95875.70187.62320.8472()97207.76(232)n xy x y b

n x x ∑-∑∑?-?===∑-∑?- (187.60.8472232)/90.9945y x a b n n

∑∑=-=-?=-

故拟合直线为:

0.99450.8472y x =-+ 回归方程的显著性检验

采用相关系数r 检验。

()()(

)

,n

n

i

i

i i

x

x

y y x y

nxy

r x y ---=

∑∑

L

计算得:(,)0.9997r x y 。查水平0.01α=,自由度为2927n -=-=的相关系数临界值表,得临界值(2)0.798r n α-=。可见,

(,)(2)r x y r n α>-,故回归方程高度显著,初步可应用于预测。

(3)若居民货币收入下年增长19%,则有:

1047.8(119%)56.882x =+

代入拟合直线方程,得到:

10

10??0.99450.847256.882y a bx =+=-+? 47.20 (10亿元)472=(亿元)

(4)先求剩余平方和:

22(1)(10.9997)(4791.8187.620.84)0.5293yy Q r L =-=-?-?

于是,剩余标准差为0.2750s == 。故置信区间的宽度为:

()()

02222222d t n s t n s αα=?-??-

(

)2

220.27505.78

t n α=?- ()2

220.3790t n α

?-?

取显著水平0.05α=,则有:

(

)00.05

92 2.360.37900.892d t S =-?=?

从而10y 的置信度为0.95的置信区间为:

()

()()10

10,47.200.89,47.200.8946.31,48.09y d y d -+=-+=

即该省1987年的居民消费品购买力将有95%的把握程度落入463.1亿元与

480.9亿元之间。

下面的例子取自《Econometric,models and Economic Forecasts (4th Edition),1998》罗伯特S 。平荻克(Robert S.Pindyck )丹尼尔L.鲁宾劳尔德(Daniel L .Rubinfeld )钱小军等译]

The McGraw-Hill Companies,lnc 《计量经济模型与经济预测》1999.11.北京 机械工业出版社。 例2.1.2平均成绩。

例2.1.4 公用事业公司股票价格分析(P7)

3.2 多元线性回归模型

现在,我们将上节讨论的一元线性回归模型推广至多元线性回归模型的情形。

一、 经典线性回归模型与GM 假定

我们讨论的经典线性回归模型如下:

1122133111k k Y X X X ββββε=+++++

212

22

3322k k Y X X X ββββε=+++++ (3.2.1)

…………………………………………………

12233N N N k kN N Y X X X ββββε=+++++

其矩阵表达形式为:

Y X βε=+ (3.2.2) 其中

12N Y Y Y Y ?? ? ?= ? ? ??? 21

122

22111k k N k N X X X X X X

X ?? ?

?= ?

? ???

12N ββββ?? ? ?= ? ? ??? 12N εεεε??

? ?= ? ? ???

(3.2.3) 并且,

Y —— 响应变量(或因变量)观测值的1N ?阶列向量; X —— 解释变量(或自变量)观测值的N k ?阶设计矩阵; β —— 未知参数的1k ?阶列向量,并称之为回归系数向量;

ε ——1N ?阶随机误差向量(或扰动向量)

矩阵X 中的每个元素ji X 均有两个下标,第一个表示相应的列(变量),第一个表示相应的行(观测值)。X 的每一列代表一个变量的N 个观测值向量,截距项的所有观测值都等于1。

经典线性回归模型的假设条件可以表述如下: (1)模型形式由 (2.1)线性地确定——线性性假定。

(2)X 的元素不是随机的,且具有有限的方差。此外,X 的秩为k , rank ( X ) = k ,即X 为列满秩矩阵,并要求k 小于观测值个数N 。称此条件为无完全共线性假定。

(3)ε满足E (ε)= 0,且方差--协方差矩阵为2

()N E I εεσ'=。进一步,如作假设检验,则还假定ε服从正态分布2

(0,)N N I σ。其中,N I 为N 阶单位矩阵其中,而ε'表示ε的转置向量。

在文献中称此组条件为高斯—马尔可夫(Gauss-Markov )条件,简称为GM 条件或GM 假定。

系数矩阵X 的秩为k 的假设条件保证了解释变量12,,,k X X X 之间不存在完全共线性,其各自包含的信息是独立的,不相互重叠。完全共线性即X 的某一列是其余各列的线性组合。此时,X 的秩就小于k 。在GM 条件中,关于误差向量ε的假设条件是最强的,它们保证了模型参数在普通最小二乘估计过程中的统计与算术特性。条件(3)除正态性假定之外,还包含两个最重要的假定条件——序列无关性和方差齐性。事实上,由于E (ε)= 0,即ε满足无偏性假定,故误差向量ε的方差一协方差矩阵

2()N E I εεσ'=可以表示如下:

()1212(),,,N N E E εεεεεεεε?????? ???

?'=?? ??? ? ???????

()()

()()()()()()()21121221222

12N N N N N E E E E E E E E E εεεεεεεεεεεεεεε??

?

?

=

? ?

? ??

?

()

()()()()()()()()1121212212,,,,,,N N N N N Var Cov Cov Cov Var Cov Cov Cov Var εεεεεεεεεεεεεεε??

?

?

= ? ?

??

?

可见,误差向量

ε的每个分量i ε的方差为常数,2()i Var εσ=,

1,2,,i N = ,在文献中称此条件为误差向量ε满足方差齐性假定;而任

意两个分量i ε与j ε 之间的协方差为0,即(,)0i j Cov εε=,,i j ≠

,1,2,,i j N = ,从而误差分量12,,,N εεε 之间两两不相关,在文献中

称此条件为误差向量ε满足序列无关性假定。

称满足上述GM 假定的模型为经典线性回归计量模型。这一模型是传统经济计量模型的核心,也是在二十世纪50年代中叶以前得到广泛研究、并取得理想结果的模型。有关此模型的研究及其应用,构成了传统经济计量学的主体。

二、 最小二乘原理与模型参数估计

线性模型参数估计问题的研究可以追溯到十九世纪初。著名数学家勒让德(A .M .Legendre )和高斯(C .F .Gauss )先后于1806年和1809年独立地把最小二乘原理应用于观测数据的误差分析。后来,前苏联数学

家马尔可夫(A .A .Markov )于1900年证明了最小二乘估计的方差最小性质,即著名的Gauss -Markov 定理,奠定了最小二乘原理在参数估计理论中的地位。数学家利用R .C .Bose 于1944年引入的可估函数概念,以及广义逆矩阵的应用,使得设计阵为列降秩时的线性模型参数估计理论表述得更加严格而简洁。误差协方差降为奇异阵的线性模型研究则始于二十世纪60年代中期。Goldman 和Zelen 率先提出了用满秩线性变换把模型化为方差--协方差阵是2

()N E I εεσ'=且带线性约束的情形。后来,印度统计学家C .R .Rao 采用推广最小二乘法的途径,提出了 “最小二乘统一理论”(The Unified Theory of Least Squares )。这种方法既适用于设计矩阵列满秩或列降秩,又适用于方差--协方差陈奇异情形。而几乎在同一时期,C .R .Rao 还提出了另一种方法“分块逆矩阵法”。当然,还存在其它一些估计方法,如极小极大估计法等。这些结果构成了线性经济计量模型最小二乘估计理论的基本内容。

本段仅讨论设计矩阵具有列满秩的经典线性经济计量模型的参数估计问题。对于其它更广泛的线性经济计量模型,则由于时间关系在此省略。

在最小二乘原理下,我们的目的是寻找参数向量β的估计?β

,使下式成立:

2

2

m i n Y X Y X β

β

β-=- (3.2.4)

称满足(3.2.4)式的?β为β的一个最小二乘解(简称LS 解)。

现记2

2

()2,S Y X Y

Y X X X ββ

βββ'''=-=-+ 则求β的LS

解,等价于求()S β的最小值。利用矩阵微商理论,有:

()Y X X Y ββ

'?'=?,

()2X X X X ββββ

''?'=?

故成立:

()22S X Y X X βββ

?''=-+?

()0S ββ

?=?,求得正规方程组:

X X X Y β''= (3.2.5)

在GM 假定下,由于X 列满秩,故X X '的逆矩阵存在。由正规方程组(3.2.5)解得回归系数向量β的LS 解为:

1?()X X X Y β

-''= (3.2.6) 此外,由于X 列满秩,故β的一切线性函数c β'均为可估函数,因而β也

为可估函数。不难算得()

?E β

β=,故?β为β的无偏估计。此时,我们称LS 解?β

为β的最小二乘估计,简称为β的LS 估计。亦即,只有当β可估时,我们才称?β

为β的LS 估计;否则,我们称?β为β的LS 解。 所谓线性组合c β'为可估函数是指:存在1N ?向量a ,使成立

()E a Y c β''=对一切β均成立。c β'是否为可估函数,可以通过下述定

理来验证和判断:

定理3.2.1 c β'为可估函数?()c X μ'∈。其中,()X μ'表示矩阵

X '的列向量张成的线性子空间。

此定理表明:使c β'可估的全体向量c 构成线性子空间()X μ'。

将(3.2.6)代入模型(3.2.2),并记??Y

X β=,??Y Y ε=-,分别称?Y 和?ε

为预测值向量与残差向量。故有:

1??()X

Y X X X X X Y P Y β-''== (3.2.7) 不难验证,1

()X P X X X X -'

'=为对称的幂等矩阵,从而为正交投影矩阵,并且,X P 使Y 在线性空间()X μ上的正交投影为??Y

X β=。具体几何解释见下图。

三、最小二乘原理与模型参数估计

我们首先指出:对于任意一个可估函数c β',其无偏估计有无穷多个。事实上,设()X μ为矩阵X 的列张成的线性空间,()X μ⊥

为其正交补空

间。假定a Y '为c β'的一个无偏估计,则对任意向量()b X μ⊥

∈,由于有:

(){}

()()E a b Y E a Y E b Y '''+=+

c b X ββ''=+=c β'

从而()a b Y '+也是c β'的一个无偏估计,即有无穷多个c β'的无偏估计。于是,对任意线性函数c β',它的线性无偏估计或者有无穷多个,或者一个也没有。进一步,当c β'为可估函数时,在其无穷多个线性无偏估计中,方差最小者称为最佳线性无偏估计(Best Linear Unbiased Estimate ),简记

为BLU 估计。

定理3.2.2(Gauss -Markov 定理)对任意可估函数c β',LS 估计?c β

'为其惟一的BLU 估计。

证明:由(3.2.6)知,?c β

'为c β'的无偏估计,并且,它关于Y 为线性函数。下证?c β

'在线性无偏估计类中具有最小的方差。事实上,有: 1

()(())Var c Var c X X X Y β

-''''= 21121()()()c X X X X X X c c X X c σσ---''''''==

现设a Y '为c β'的任一个线性无偏估计,则有:

()E a Y c β''=

即有:

a X c ββ''=

从而有:

X a c '=

于是,有:

()()

21?()Var a Y Var c a a c X X c βσ-'''''??-=-??

()()211()()0a c X X X a c X X X σ--'''''''''=--≥

并且,等号成立当且仅当1

()a c X X X -''''=,亦即,当且仅当a Y '=?c β'。

证毕。

Gauss -Markov 定理的证明,为LS 估计在线性计量模型参数估计理论中的广泛应用奠定了基础。在二十世纪50年代前,人们一直使用LS 估计来对线性计量模型参数作出估计,并认为是最好的估计。直到1956年,

统计学家Stein 发现:在多元正态总体(),p N θ∑中,当3p ≥时,均值θ的LS 估计,在均方误差(Mean Squares Error ,简记为MSE )意义下为不可容许估计,亦即,还有比LS 估计更好的估计存在。这一震惊统计学界和经济计量学界的发现,导致了模型参数有偏估计的研究,并发展了著名的James —Stein 理论,极大地推动了模型参数估计理论的发展。直到今天,这一领域仍然是经济计量学、统计学及经济建模理论研究的热点和难点。尤其是在非传统假定下的相关理论研究。

四、残差与方差估计

现讨论模型(3.2.2)在Gauss -Markov 假定下尺度参数2

σ的估计问

题。为此,先对残差向量?ε

的性质作一介绍。 不难看出:

1

??(())Y X I X X X X Y ε

β-''=-=- ()()X I P Y I H Y

=-- (3.2.8) 并称

1()X H P X X X X -''=

为帽子矩阵,它使得:

?HY Y

= (3.2.9) 帽子矩阵H 在现代经济计量建模和统计建模中起着十分重要的作用,由于涉及内容广泛,在此不作详细探讨。

下面给出残差向量?ε

的基本性质: (1)?()0.E ε

= (2)2

?()().Cov I H ε

σ=-由此可知,残差向量?ε不满足方差齐性条

件。

(3)若2

(0,)N N I εσ ,则2

?(0,())N I H ε

σ- 。 残差向量?ε

的重要应用是改造方差2

σ的估计。我们有: 定理3.2.3 2

'

2

?Y X N k

N k

βεεσ

-==

--为2

σ的一个无偏估计。其中,

k = rank (X ),并记 2

RSS Y X β

=-,称之为残差平方和。 证明:因为()I H -为幂等矩阵,故有:

'

()Y I H Y εε

'=- (3.2.10) 利用公式:

()()E X AX tr A A μμ''=∑+ (3.2.11) 其中,X 为1p ?维随机向量,(),(),E X Cov X μ==∑ 而A 为p p ?对称方阵,则有:

[]'

()()()()()()E X I H X tr I H Cov Y εε

ββ'=-+- (3.2.12) 但由于

1()()0X I H X X HX X P X X X X X X X -''-=-=-=-=

故有

'

()E εε

=[]()()tr I H Cov Y - =2σ()tr I H - ()()2122

()()k N tr X X X X N tr I N k σσσ-??''=-=-=-?????? 亦即, '

2?/()N k σεε

=-为2σ的无偏估计。 证毕。 关于参数2σ的估计,还有许多其它方法。例如,2

σ的最优二次无偏

估计、最小范数二次无偏估计等。在此,不作进一步探讨。

五、正态线性模型

若将模型(3.2.2)中的误差项ε进一步设定为服从正态分布的随机向量,即2

(0,)N N I εσ ,则有正态线性模型:

Y X βε=+, 2

(0,)N N I εσ

(3.2.13) 对此,我们有:

定理3.2.4 设c β'为任一可估函数, β

为β的任一LS 解,则有: (1) c β'为c β'的极大似然估计(ML 估计),且有:

()()

12~,c N c c X X c β

βσ-'''' (2)

2

n k n

σ-为2σ的ML 估计,且有: () ()222

~n k n k σ

χσ--

(3) c β

'与 2

σ相互独立。 证明:β和2σ的似然函数为:

()()()()2

2

21,;2exp 2n

n L y y X y X βσπσββσ--??

'=---????

()

(){}22

2exp 22n n y y y X X X πσβββσ-

-''''=--+

在上式取对数,并对β和2

σ分别求微商,令其等于零,得:

()n 2l 1

0L X y X X ββσ

?''=-=?

()()n 224l 1

022L n y X y X ββσσσ

?'=-+--=? 解此方程组,得β和2

σ的ML 估计分别为:

()1

X X X y β

-''= 2221111n k y X n n

σβσ-=-=

又对任何函数c β',?c β

'为其ML 估计。而?c β'为y 的线性函数,()2~,n n y N X I βσ,故有: ()()

12~,c N c c X X c β

βσ-''' 另一方面,()0I H X -= ,故有:

() ()2

2

22

n k y I H y σ

ε

εσσσ''--== =

()()()

2

y X I H y X ββσ

'---

=()z I H z '- 其中,

()()~0,n n z y x N I βσ=-,再由I H -的幂等性,以及

()()()()1

rank I H tr I H n tr H n tr x x X X n k -''-=-=-=-=-

故有:

() 2

2

2

~n r n k σ

χσ

--

最后,由于 c β

'和 2σ分别为正态向量y 的线性型和二次型,而()()10c X X X I H -'''-=,故知 c β

'和 2σ相互独立。 六.回归模型的检验、置信区间与预测控制

1. 一元回归模型的检验、置信区间与预测

(1)回归系数β的假设检验。 对于一元正态线性回归模型

()2,~0,,1,2,,i i i i y x N i n αβεεσ=++=

设 α和 β分别为α和β的LS 估计。下面讨论对回归系数β所作的假设检验:

00:H ββ=,其中0β为已知常数。

由定理2.2.4知,在0H 成立下,有:

()~2T t n =

-

其中, ()

2

21

122n i i

i y x n n εεσαβ='==----∑为2

σ的无偏估计。事实上,

由于 ()

2

2

1

~,n

i

i N x x ββσ=??

- ??

?

∑,故有:

()~0,1U N =

() ()2

2222~2n n χσ

σχ=--,且 2σ

与 β相互独立,故知:()~2T t n -分布。其次,当假设00:H ββ=不成立时,亦即β的真值与0β偏差较大时,作为β的估计 β也将趋于0

β偏差较大,从而T 趋向于偏大。

综上,我们得到检验0H 的方法:对给定显著性水平α,查表求得

()2

2t n α

-,并计算观测值T 。若有()2

2T

t n α

≥-,则接受假设0H ,认

为回归系数β与0β无显著性差异。

(2)线性回归模型的显著性检验

要检验一元线形回归模型中x 与y 有无线性关系,归结为检验假设

0:0H β=,可见,在一元回归下模型的显著检验归结为对回归系数的显

著性检验。于是,对给定显著性水平α,检验统计量为:

()~2T t n =

-

查自由度2n -,水平为2α的七分布表,可得临量值

(

)22t n α

-,

若()2

2T t n α

≥-,则认为线形回归模型显著,否则,认为线形回归模型

不显著。

(3)回归系数β的置信区间。

()~2t n -,故对给定显著性水平α,

有:

()2

21P t n αα?

?

≤-=-???

从而,β的置信度为()1α-的置信区间为:

(2

2t n α

βσ±-

(4)预测与控制

当我们获得预测方程:

y x αβ=+后,要对预测未来的一个x 值p x x =预测相应的y 值0y 。显然,0y 的预测值为 0

y x αβ=+这个预测值的好坏与误差的大小有关,因而需要给出一个0y 的预测区间。此模型的预

第三章回归分析基础

第三章 回归分析基础 3.1 回归模型简介 一、数据、变量与模型 数据是进行模型分析的基础。一般地,数据可分为三类:一类为截面数据(Cross-Section Data ),一类为时间序列数据(Time-Series Data), 另一类为平行数据(Panel Data )或混合数据(Mixed Data)。 截面数据研究个体在某个时点上的变化情况。例如,2001年1月末,全国各省、自治区、直辖市的国内生产总值(GDP )、财政收入、财政支出、货币发行量、固定资产投资额、进出口总额等,均为截面数据。再如,在某一时点上,某地区家庭费用开支数据,也是典型的截面数据。 时间序列数据是研究个体在一定时期内的变化情况。时间序列数据在日常生活中随处可见。例如,建国以来我国历年的国内生产总值(GDP )数据、居民消费额数据、零售物价指数数据等,均为时间序列数据。 平行数据是截面数据与时间序列数据的复合体,它既研究某段时间内个体的变化情况,又研究个体在每个时点上的变化情况。 变量是构成模型的框架,是对个体不确定性的一种因素度量。一般可将它分为两类:内生变量(Endogenous Variable )和外生变量(Exogenous Variable )。 内生变量是指由经济系统本身决定的变量。外生变量则指经济系统本身无法决定、并由外部因素决定的变量。内生产变量也称联合决定变量(Jointly-Determined Variables)。外生变量也称前定变量(Predetermined Variables)。例如,在简单的原油供求模型: 1111q a b p c y ε=+++(需求方程) 2222 q a b p c R ε=+++(供给方程) 中,原油总量q 和原油价格p 均为内生变量,而国民收入y 和降雨量R 均为外生变量。 值得注意的是,内生变量与外生变量的认定并不是一成不变的,在一定条件下二者可以相互转换,应视研究对象和研究目的的不同而不同。此外,内生变量与外生变量的划分直接关系到模型参数的估计与推断,这是后话。

应用回归分析课后答案

应用回归分析课后答案 第二章一元线性回归 解答:EXCEL结果: SUMMARY OUTPUT 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值5 方差分析 df SS MS F Significance F 回归分析125 残差3 总计410 Coefficients标准误差t Stat P-value Lower 95%Upper 95%下限%上限% Intercept X Variable 15 RESIDUAL OUTPUT 观测值预测Y残差 1 2 3 4 5 SPSS结果:(1)散点图为:

(2)x 与y 之间大致呈线性关系。 (3)设回归方程为01y x ββ∧ ∧ ∧ =+ 1β∧ = 12 2 1 7()n i i i n i i x y n x y x n x -- =- =-=-∑∑ 0120731y x ββ-∧- =-=-?=- 17y x ∧ ∴=-+可得回归方程为 (4)22 n i=1 1()n-2i i y y σ∧∧=-∑ 2 n 01i=1 1(())n-2i y x ββ∧∧=-+∑ =222 22 13???+?+???+?+??? (10-(-1+71))(10-(-1+72))(20-(-1+73))(20-(-1+74))(40-(-1+75)) []1 169049363 110/3= ++++= 1 330 6.13 σ∧=≈ (5)由于2 11(, )xx N L σββ∧ :

t σ ∧ == 服从自由度为n-2的t分布。因而 /2 |(2)1 P t n α α σ ?? ?? <-=- ?? ?? 也即: 1/211/2 (p t t αα βββ ∧∧ ∧∧ -<<+=1α - 可得 1 95% β∧的置信度为的置信区间为(7-2.3537+2.353即为:(,) 2 2 00 1() (,()) xx x N n L ββσ - ∧ + : t ∧∧ == 服从自由度为n-2的t分布。因而 /2 (2)1 P t n α α ∧ ?? ?? ?? <-=- ?? ?? ?? ?? ?? 即 0/200/2 ()1 pβσββσα ∧∧∧∧ -<<+=- 可得 1 95%7.77,5.77 β∧- 的置信度为的置信区间为() (6)x与y的决定系数 2 21 2 1 () 490/6000.817 () n i i n i i y y r y y ∧- = - = - ==≈ - ∑ ∑ (7)

应用回归分析,第5章课后习题参考答案.docx

第5 章自变量选择与逐步回归 思考与练习参考答案 自变量选择对回归参数的估计有何影响? 答:回归自变量的选择是建立回归模型得一个极为重要的问题。如果模型中丢 掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关 性,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。 自变量选择对回归预测有何影响? 答:当全模型(m元)正确采用选模型(p 元)时,我们舍弃了m-p 个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差, 所以全模型正确而误用选模型有利有弊。当选模型(p 元)正确采用全模型(m 元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选 模型的大,所以回归自变量的选择应少而精。 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 答:如果所建模型主要用于预测,则应使用C p 统计量达到最小的准则来衡量回 归方程的优劣。 试述前进法的思想方法。 答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm 建立m个一元线性回归方程, 并计算 F 检验值,选择偏回归平方和显著的变量(F 值最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的 F 检验值,选择偏回归平方和显著的两变量变 量(F 值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再 引入一个变量,建立m-2 个三元线性回归方程,计算它们的 F 检验值,选择偏

应用回归分析第三章课后习题整理

y1 1 x11 x12 x1p 0 1 3.1 y2 1 x21 x22 x2p 1 + 2 即y=x + yn 1 xn1 xn2 xnp p n 基本假定 (1) 解释变量x1,x2…,xp 是确定性变量,不是随机变量,且要求 rank(X)=p+1

n 注 tr(H) h 1 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中 自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较 多,使样本量与自变量的个数接近时, R 2易接近1,其中隐藏一些虚 假成分。 3.5当接受H o 时,认定在给定的显著性水平 下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意 义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描 述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面 可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新 考虑建模问题。 当拒绝H o 时,我们也不能过于相信这个检验,认为这个回归模型 已经完美了,当拒绝H o 时,我们只能认为这个模型在一定程度上说明 了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我 们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计 值1, 2, p 比一般的经验回归方程减少了一个未知参数,在变量较 SSE (y y)2 e12 e22 1 2 1 E( ) E( - SSE* - n p 1 n p n 2 [D(e) (E(e ))2 ] 1 n (1 1 n 2 en n E( e 1 1 n p 1 1 n p 1 1 "1 1 n p 1 J (n D(e) 1 (p 1)) 1_ p 1 1 1 n p 1 2 2 n E(e 2 ) (1 h ) 2 1

应用回归分析,第8章课后习题参考答案

第8章 非线性回归 思考与练习参考答案 8.1 在非线性回归线性化时,对因变量作变换应注意什么问题? 答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如: (1) 乘性误差项,模型形式为 e y AK L αβε =, (2) 加性误差项,模型形式为y AK L αβ ε = + 对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。 一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。 8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表8.15 生产率x (单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y (%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图: 5000.00 4000.003000.002000.001000.00x 12.00 10.00 8.006.00 y

从散点图大致可以判断出x 和y 之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS 输出结果如下: Model Summ ary .981 .962 .942 .651 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x. ANOVA 42.571221.28650.160.001 1.6974.424 44.269 6 Regression Residual Total Sum of Squares df Mean Square F Sig.The independent variable is x. Coe fficients -.001.001-.449-.891.4234.47E -007.000 1.417 2.812.0485.843 1.324 4.414.012 x x ** 2 (Constant) B Std. E rror Unstandardized Coefficients Beta Standardized Coefficients t Sig. 从上表可以得到回归方程为:72? 5.8430.087 4.4710y x x -=-+? 由x 的系数检验P 值大于0.05,得到x 的系数未通过显著性检验。 由x 2的系数检验P 值小于0.05,得到x 2的系数通过了显著性检验。 (2)指数曲线 Model Summ ary .970 .941 .929 .085 R R Square Adjusted R Square Std. E rror of the Estimate The independent variable is x.

应用回归分析课后习题第3章11题

3.11研究货运总量y (万吨)与工业总产值1x (亿元)、农业总产值2x (亿元)、居民非商品支出3x (亿元)的关系。数据如表3-9所示。 (1)计算出y ,1x ,2x ,3x 的相关系数矩阵。 所以y ,1x ,2x ,3x 的相关系数矩阵为: ????? ? ? ??1547.0398.0724.0547.01113.0731.0398.0113.01556 .0724.0731.0556.01 (2)求y 关于1x ,2x ,3x 的三元线性回归方程。 编号 1 2 3 4 5 6 7 8 9 10 货运总量y (万吨) 160 260 210 265 240 220 275 160 275 250 工业总产值x1(亿 元) 70 75 65 74 72 68 78 66 70 65 农业总产值x2(亿 元) 35 40 40 42 38 45 42 36 44 42 居民非商品支出x3 (亿元) 1.0 2.4 2.0 3.0 1.2 1.5 4.0 2.0 3.2 3.0

由系数表可以知道,y 关于1x ,2x ,3x 的三元线性回归方程为: 280.348447.12101.7574.3321-++=x x x y (3)对所求得的方程作拟合优度检验。 由模型汇总可知,样本的决定系数为0.806,所以可以认为回归方程为样本观测值的拟合程度较好,即回归方程的显著性较高。 (4)对回归方程作显著性检验。 对方差分析表可以知道p 值为0.015<0.05 说明自变量1x ,2x ,3x 对因变量y 产生的线性影响较显著。而F=8.283>74.405.0=F 时,就拒绝原假设,认为在显著性水平0.05下,y 与1x , 2x ,3x 有显著的线性关系,即回归方程是显著的。

应用回归分析第章课后习题答案

第6章 6.1 试举一个产生多重共线性的经济实例。 答:例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。 6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在; 2、参数估计量经济含义不合理; 3、变量的显著性检验失去意义; 4、模型的预测功能失效。 6.3 具有严重多重共线性的回归方程能不能用来做经济预测? 答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。 6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。 6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。 5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社

应用回归分析-第3章课后习题参考答案

第3章 多元线性回归 思考与练习参考答案 3.1 见教材P64-65 3.2 讨论样本容量n 与自变量个数p 的关系,它们对模型的参数估计有何影响? 答:在多元线性回归模型中,样本容量n 与自变量个数p 的关系是:n>>p 。如果n<=p 对模型的参数估计会带来很严重的影响。因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。 2. 解释变量X 是确定性变量,要求()1rank p n =+

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1 y x =β 基本假定: (1) 诸1234n x ,x x ,x x ……非随机变量,rank (x )=p+1,X 为满秩矩阵 (2) 误差项()()200i i j E ,i j cov ,,i j ?ε=? ?δ=?εε=??≠?? (3)()2 0i i j ~N ,,?εδ??εε??诸相互独立 3.2 ()10111 ?X X X X |rank(X X )p rank(X )p n p -'β'≠'=+≥+≥+存在,必须使存在。即|则必有故 3.3 ()()()() ()22 11 122 12 22211111111 n n n i i ii i i i n ii i n i i E e D e h n h n p ?E E e n p n p n p =====??==-δ ????? =-δ=--δ ??? ??∴δ ==--δ=δ ? ----??∑∑∑∑∑ 3.4 并不能这样武断地下结论。2 R 与回归方程中的自变量数目以及样本量n 有关,当样本量n 与自变量个数接近时,2 R 易接近1,其中隐含着一些虚假成分。因此,并不能仅凭很大的2 R 就模型的优劣程度。 3.5 首先,对回归方程的显著性进行整体上的检验——F 检验 001230p H :β=β=β=β==β=……

接受原假设:在显著水平α下,表示随机变量y 与诸x 之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y 与诸x 之间有显著的线性关系 第二,对单个自变量的回归系数进行显著性检验。 00i H :β= 接受原假设:认为i β=0,自变量i x 对y 的线性效果并不显著 3.6 原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。 3.7 11 22 011122201122p p p p p p p ?????y x x x ??????y y (x x )(x x )(x x )????y x x )x x )x x )y =β +β+β++β-=β+β-+β-++β--ββ=-+-++-=对最小二乘法求得一般回归方程: ……对方程进行如下运算: …… ……*j j ?+β=……即 3.8 121321233132212312212331 312311232332 13 231313********* 111 r r r r r r r r r r r r r r r r r r r r r ?? ?= ? ????==-?= =-?= =-即证

第三章回归分析原理

第三章 回归分析原理 3·1、一元线性回归数学模型 按理说,在研究某一经济现象时,应该尽量考虑到与其有关各种有影响的因素或变量。但作为理论的科学研究来说,创造性地简化是其的基本要求,从西方经济学的基本理论中,我们可以看到在一般的理论分析中,至多只包含二、三个 变量的数量关系的分析或模型。 这里所讨论的一元线性回归数学模型,是数学模型的最简单形式。当然要注意的是,这里模型讨论是在真正回归意义上来进行的,也可称之为概率意义上的线性模型。 在非确定性意义上,或概率意义上讨论问题,首先要注意一个最基本的概念或思路问题,这就是总体和样本的概念。 我们的信念是任何事物在总体上总是存在客观规律的,虽然我们无论如何也不可能观察或得到总体,严格说来,总体是无限的。而另一方面,我们只可能观察或得到的是样本,显然样本肯定是总体的一部分,但又是有限的。 实际上概率论和数理统计的基本思想和目的,就是希望通过样本所反映出来的信息来揭示总体的规律性,这种想法或思路显然存在重大的问题。但另一方面,我们也必须承认,为了寻找总体的规律或客观规律,只能通过样本来进行,因为我们只可能得到样本。 在前面我们已经知道,用回归的方法和思路处理非确定性问题或散点图,实际上存在一些问题,亦即只有在某些情况下,回归的方法才是有效的。因此,在建立真正回归意义上建立其有效方法时,必须作出相应的假设条件。 基本假设条件: (1)假设概率函数)|(i i X Y P 或随机变量i Y 的分布对于所有i X 值,具有相同的方差2σ ,且2σ 是一个常数,亦即)(i Y Var =)(i Var μ=2σ。 (2)假设i Y 的期望值)(i Y E 位于同一条直线上,即其回归直线为 )(i Y E =i X βα+ 等价于 0)(=i E μ 这个假设是最核心的假设,它实际上表明)(i Y E 与i X 之间是确定性的关系。 (3)假设随机变量i Y 是完全独立的,亦即。j i u u Cov Y Y Cov j i j i ≠==,0),(),(

应用回归分析 课后习题参考答案

第二章 一元线性回归分析 思考与练习参考答案 一元线性回归有哪些基本假定? 答: 假设1、解释变量X 是确定性变量,Y 是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=?2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, ?2 ) i=1,2, …,n 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n 误差εi (i=1,2, …,n )仍满足基本假定。求 β1的最小二乘估计 解: 得: 证明(式),?e i =0 ,?e i X i =0 。 证明:∑∑+-=-=n i i i n i X Y Y Y Q 1 2102 1 ))??(()?(ββ 其中: 即: ?e i =0 ,?e i X i =0 211 1 2)?()?(i n i i n i i i e X Y Y Y Q β∑∑==-=-=0)?(2?11 1 =--=??∑=i i n i i e X X Y Q ββ) () (?1 2 1 1 ∑∑===n i i n i i i X Y X β01????i i i i i Y X e Y Y ββ=+=-0 1 00??Q Q β β ??==??

回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。 答:由于εi ~N(0, ?2 ) i=1,2, …,n 所以Y i =β0 + β1X i + εi ~N (β0+β1X i , ?2 ) 最大似然函数: 使得Ln (L )最大的0 ?β,1?β就是β0,β1的最大似然估计值。 同时发现使得Ln (L )最大就是使得下式最小, ∑∑+-=-=n i i i n i X Y Y Y Q 1 21021 ))??(()?(ββ 上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi ~N (0, ?2 )的假设下求得,最小二乘估计则不要求分布假设。 所以在εi ~N(0, ?2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。 证明0 ?β是β0的无偏估计。 证明:)1[)?()?(1 110∑∑==--=-=n i i xx i n i i Y L X X X Y n E X Y E E ββ )] )(1 ([])1([1011i i xx i n i i xx i n i X L X X X n E Y L X X X n E εββ++--=--=∑∑== 1010)()1 (])1([βεβεβ=--+=--+=∑∑==i xx i n i i xx i n i E L X X X n L X X X n E 证明 证明: )] ()1([])1([)?(102110i i xx i n i i xx i n i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== () ) 1()1()?(2 2 2 1 2 2 xx n i i L X n X X X n Var +=-+=∑=σσβ

第一章课后习题解答(应用回归分析)

1、 变量间统计关系和函数关系的区别是什么 答:函数关系是一种确定性的关系,一个变量的变化能完全决定另一个变量的变化;统计关系是非确定的,尽管变量间的关系密切,但是变量不能由另一个或另一些变量唯一确定。 2、 回归分析与相关分析的区别和联系是什么 答:联系:刻画变量间的密切联系; 区别:一、回归分析中,变量y 称为因变量,处在被解释的地位,而在相关分析中,变量y 与x 处于平等地位;二、相关分析中y 与x 都是随机变量,而回归分析中y 是随机的,x 是非随机变量。三、回归分析不仅可以刻画线性关系的密切程度,还可以由回归方程进行预测和控制。 3、 回归模型中随机误差项ε的意义是什么主要包括哪些因素 答:随机误差项ε的引入,才能将变量间的关系描述为一个随机方程。主要包括:时间、费用、数据质量等的制约;数据采集过程中变量观测值的观测误差;理论模型设定的误差;其他随机误差。 4、 线性回归模型的基本假设是什么 答:1、解释变量非随机;2、样本量个数要多于解释变量(自变量)个数;3、高斯-马尔科夫条件;4、随机误差项相互独立,同分布于2(0,)N σ。 5、 回归变量设置的理论根据在设置回归变量时应注意哪些问题 答:因变量与自变量之间的因果关系。需注意问题:一、对所研究的问题背景要有足够了解;二、解释变量之间要求不相关;三、若某个重要的变量在实际中没有相应的统计数据,应考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标;四、解释变量并非越多越好。 6、 收集、整理数据包括哪些内容 答:一、收集数据的类型(时间序列、截面数据);二、数据应注意可比性和数据统计口径问题(统计范围);三、整理数据时要注意出现“序列相关”和“异

第三章回归测法

第三章 回归预测法 基本内容 一、一元线性回归预测法 是指成对的两个变量数据分布大体上呈直线趋势时,运用合适的参数估计方法,求出一元线性回归模型,然后根据自变量与因变量之间的关系,预测因变量的趋势。由于很多社会经济现象之间都存在相关关系,因此,一元线性回归预测具有很广泛的应用。进行一元线性回归预测时,必须选用合适的统计方法估计模型参数,并对模型及其参数进行统计检验。 1、建立模型 一元线性回归模型: i i i x b b y μ++=10 其中,0b ,1b 是未知参数,i μ为剩余残差项或称随机扰动项。 2、用最小二乘法进行参数的估计时,要求i μ满足一定的假设条件: ①i μ是一个随机变量; ②i μ的均值为零,即()0=i E μ; ③在每一个时期中,i μ的方差为常量,即()2 σμ=i D ; ④各个i μ相互独立; ⑤i μ与自变量无关; 3、参数估计 用最小二乘法进行参数估计,得到的0b ,1b 的公式为: ()()() ∑∑---= 2 1x x y y x x b x b y b 10-= 4、进行检验 ①标准误差:估计值与因变量值间的平均平方误差。其计算公式为:()2 ?2 --= ∑n y y SE 。 ②可决系数:衡量自变量与因变量关系密切程度的指标,在0与1之间取值。其计算公式 为:()()()() ()()∑∑∑∑∑---=??? ??? ? ? ----=222 2 2 2 ?1y y y y y y x x y y x x R 。

③相关系数;计算公式为:()()()() ∑∑∑----=2 2 y y x x y y x x r 。 ④回归系数显著性检验 i 检验假设:0:10=b H ,0:11≠b H 。 ii 检验统计量:b S b t 1 = ~()2-n t ,其中() ∑-=2 x x SE S b 。 iii 检验规则:给定显著性水平α,若αt t >,则回归系数显著。 ⑤回归模型的显著性检验 i 检验假设::0H 回归方程不显著 ,:1H 回归方程显著。 ii 检验统计量:()()() 2??2 2 ---= ∑∑n y y y y F ~()2,1-n F 。 iii 检验规则:给定显著性水平α,若()2,1->n F F α,则回归方程显著。 ⑥得宾—沃森统计量(D —W ):检验i μ之间是否存在自相关关系。 ()∑∑==--= -n i i n i i i W D 1 222 1μ μμ,其中i i i y y ?-=μ。 5、进行预测 小样本情况下,近似的置信区间的常用公式为:置信区间=tSE y ±?。 二、多元线性回归预测法 社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归成为多元回归。多元回归与医院回归类似,可以用最小二乘法估计模型参数。也需对模型及模型参数进行统计检验。选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。 1、 建立模型—以二元线性回归模型为例 二元线性回归模型:222110i i x b x b b y μ+++=。类似使用最小二乘法进行参数估计。 2、 拟合优度指标 ①标准误差:对y 值与模型估计值之间的离差的一种度量。其计算公式为: ()3 ?2 --= ∑n y y SE

应用回归分析 课后答案 浙江万里学院

2.1 一元线性回归有哪些基本假定? 答: 假设1、解释变量X 是确定性变量,Y 是随机变量; 假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi )=0 i=1,2, …,n Var (εi )=σ2 i=1,2, …,n Cov(εi, εj )=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X 之间不相关: Cov(X i , εi )=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi ~N(0, σ2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Y i =β1X i +εi i=1,2, …,n 误差εi (i=1,2, …,n )仍满足基本假定。求β1的最小二乘估计 解: 得: 2.3 证明(2.27式),∑e i =0 ,∑e i X i =0 。 证明: 其中: 即: ∑e i =0 ,∑e i X i =0 2.4回归方程E (Y )=β0+β1X 的参数β0,β1的最小二乘估计与最大似然估计在什么条件下等价?给出证明。 ∑∑+-=-=n i i i n i X Y Y Y Q 1 21021 ))??(()?(ββ211 1 2 )?()?(i n i i n i i i e X Y Y Y Q β∑∑==-=-= 01????i i i i i Y X e Y Y ββ=+=-0 1 00??Q Q β β ??==??

答:由于εi ~N(0, σ2 ) i=1,2, …,n 所以Y i =β0 + β1X i + εi ~N (β0+β1X i , σ2 ) 最大似然函数: 使得Ln (L )最大的0 ?β,1?β就是β0,β1的最大似然估计值。 同时发现使得Ln (L )最大就是使得下式最小, 上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi ~N(0, σ2 )的假设下求得,最小二乘估计则不要求分布假设。 所以在εi ~N(0, σ2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。 2.5 证明0 ?β是β0的无偏估计。 证明:)1[)?()?(111 0∑∑==--=-=n i i xx i n i i Y L X X X Y n E X Y E E ββ )] )(1 ([])1([1011i i xx i n i i xx i n i X L X X X n E Y L X X X n E εββ++--=--=∑∑== 1010)()1 (])1([βεβεβ=--+=--+=∑∑==i xx i n i i xx i n i E L X X X n L X X X n E 2.6 证明 证明: )] ()1([])1([)?(102110i i xx i n i i xx i n i X Var L X X X n Y L X X X n Var Var εβββ++--=--=∑∑== 2 2221 2]1[])(2)1[(σσxx xx i xx i n i L X n L X X X nL X X X n +=-+--=∑= 2.7 证明平方和分解公式:SST=SSE+SSR ∑∑+-=-=n i i i n i X Y Y Y Q 1 2102 1 ))??(()?(ββ() ) 1()1()?(2 2 2 1 2 2 xx n i i L X n X X X n Var +=-+=∑=σσβ

应用回归分析第三版·何晓群-第三章所有习题答案

应用回归分析第三章习题 3.1 基本假定: (1) rank (x )=p+1,X 为满秩矩阵 (2 (3 3.2 3.3 3.4 n 有关,当样本量n 1,其中隐含着一些虚假成分。因此,就模型的优劣程度。 3.5 首先,对回归方程的显著性进行整体上的检验——F 检验

接受原假设:在显著水平α下,表示随机变量 y与诸x之间的关系由线性模型表示不合适 拒绝原假设:认为在显著性水平α下,y与诸x之间有显著的线性关系 第二,对单个自变量的回归系数进行显著性检验。 y的线性效果并不显著 3.6 原始数据由于自变量的单位往往不同,会给分析带来一定的困难;又由于设计的数据量较大,可能会以为舍入误差而使得计算结果并不理想。中心化和标准化回归系数有利于消除由于量纲不同、数量级不同带来的影响,避免不必要的误差。 3.7 3.8

3.9 由上两式可知,j个因素的重要程度, 3.10 【没整出来……】 3.11 (1)计算可知,y与x1 x2 x3 的相关关系是:

则相关关系矩阵如下: (3)拟合优度检验

决定系数R2=0.708 R=0.898较大所以认为拟合度较高 (4)对回归方正作整体显著性检验 ANOVA b Model Sum of Squares df Mean Square F Sig. 1Regression13655.37034551.7908.283.015a Residual3297.1306549.522 Total16952.5009

ANOVA b Model Sum of Squares df Mean Square F Sig. 1Regression13655.37034551.7908.283.015a Residual3297.1306549.522 Total16952.5009 a. Predictors: (Constant), 居民非商品支出x3, 工业总产值x1, 农业总产值x2 b. Dependent Variable: 货运总量y F=8.283 取α=0.05时 P=0.015<0.05所以认为回归方程在整体上拟合的好 (5)对每个回归系数作显著性检验 α=0.05时,x3并未通过显著性检验

应用回归分析第三章课后习题整理

=??????? ??yn y y 21 ? ?111 12111xn x x 22212xn x x ???????xnp p x p x 21 ??????? ??p βββ 10 +? ??? ??? ??n εεε 21即y=x β+ε 基本假定 (1)解释变量x1,x2...,xp 是确定性变量,不是随机变量,且要求rank(X)=p+1

1 )())1((11)1(11)1(11)(11]))(()([11)(11)(11)11()(21)(1 2221112112 1 12 1 2 22222 +===?+-?--=---=---=--=+--=--=--=--=++=-=∑∑∑∑∑∑∑∑∑========∧=∧ p h H tr p n p n h p n h p n e D p n e E e D p n e E p n e E p n SSE p n E E en e e y y SSE n n n n n n n n n τττττττττττττττττττττσσσσσ注 不能断定这个方程一定很理想,因为样本决定系数与回归方程中自 变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较多,使样本量与自变量的个数接近时,2R 易接近1,其中隐藏一些虚假成分。 当接受H 0时,认定在给定的显著性水平α下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新考虑建模问题。 当拒绝H 0时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H 0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。 中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计值 p ∧ ∧ ∧ βββ ,,21比一般的经验回归方程减少了一个未知参数,在变量较多

应用回归分析 第三章课后习题整理汇编

3.1=??????? ??yn y y 21 ??111 12111xn x x 22212xn x x ???????xnp p x p x 21 ??????? ??p βββ 10 +?????? ? ??n εεε 21即y=x β+ε 基本假定 (1)解释变量x1,x2...,xp 是确定性变量,不是随机变量,且要求rank(X)=p+1

1 )())1((11)1(11)1(11)(11]))(()([11)(11)(11)11()(21)(1 2221112112 1 12 1 2 22222 +===?+-?--=---=---=--=+--=--=--=--=++=-=∑∑∑∑∑∑∑∑∑========∧=∧ p h H tr p n p n h p n h p n e D p n e E e D p n e E p n e E p n SSE p n E E en e e y y SSE n n n n n n n n n τττττττττττττττττττττσσσσσ注 3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n 有关,当样本量个数n 太小,而自变量又较多,使样本量与自变量的个数接近时,2R 易接近1,其中隐藏一些虚假成分。 3.5当接受H 0时,认定在给定的显著性水平α下,自变量x1,x2, xp 对因变量y 无显著影响,于是通过x1,x2, xp 去推断y 也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显著影响;另一方面可能是在考虑自变量时,把影响因变量y 的自变量漏掉了,可以重新考虑建模问题。 当拒绝H 0时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H 0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2, xp 与自变量y 的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。 3.6中心化经验回归方程的常数项为0,回归方程只包含p 个参数估计值p ∧ ∧ ∧ βββ ,,21比一般的经验回归方程减少了一个未知参数,在变量较

相关文档
相关文档 最新文档