文档库 最新最全的文档下载
当前位置:文档库 › 应用回归分析-第4章课后习题参考答案.

应用回归分析-第4章课后习题参考答案.

应用回归分析-第4章课后习题参考答案.
应用回归分析-第4章课后习题参考答案.

第4章违背基本假设的情况

思考与练习参考答案

4.1 试举例说明产生异方差的原因。

答:例4.1:截面资料下研究居民家庭的储蓄行为

Y i=β0+β1X i+εi

其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。

由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。

例4.2:以某一行业的企业为样本建立企业生产函数模型

Y i=A iβ1K iβ2L iβ3eεi

被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。

4.2 异方差带来的后果有哪些?

答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:

1、参数估计量非有效

2、变量的显著性检验失去意义

3、回归方程的应用效果极不理想

总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。

4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。

答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差

的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。

加权最小二乘法的方法:

4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。

答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:

∑=----=n

i ip p i i i p w x x y w Q 1211010)( ),,,(ββββββ

(2)

加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pw w w βββ?,,?,?10 使式(2)的离差平方和w Q 达极小。所得加权最小二乘经验回归方程记做

22011

1

???()()N N

w i i i i i i

i i Q w y y w y x ββ===-=--∑∑22

__

1

_

2

_

_

02

222

()()

?()?1

11

1

,i i N

w i

i

i w i w

i w

w

w w w kx i i

i i

m

i i i m

i

w x

x y y x x y x w kx x kx w x σβββσσ==---=-=

=

===∑∑1N i =1

1表示=或

p

pw w w w x x y βββ????110+++= (3) 多元回归模型加权最小二乘法的方法:

首先找到权数i w ,理论上最优的权数i w 为误差项方差2i σ的倒数,即

2

1

i

i w σ

=

(4)

误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的

加权最小二乘估计pw w w βββ?,,?,?10 就是参数p βββ,,,10 的最小方差线性无偏估计。

一个需要解决的问题是误差项的方差2i σ是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差2i σ通常与自变量的水平有关(如误差项方差

2i σ随着自变量的增大而增大),可以利用这种关系确定权数。例如2i σ与第j 个自

变量取值的平方成比例时, 即2i σ=k 2

ij x 时,这时取权数为

21

ij

i x w =

(5)

更一般的情况是误差项方差2i σ与某个自变量j x (与|e i |的等级相关系数最大

的自变量)取值的幂函数m ij x 成比例,即2i σ=k m

ij x ,其中m 是待定的未知参数。此

时权数为

m ij

i x w 1

=

(6) 这时确定权数i w 的问题转化为确定幂参数m 的问题,可以借助SPSS 软件解决。

4.5(4.5)式一元加权最小二乘回归系数估计公式。 证明: 由 得:

2

2011

1

???()()N N

w i i i i i i

i i Q w y y w y x ββ===-=--∑∑0

1

00??Q

Q

β

β

??==??

加权变换残差图,根据绘制出的图形说明加权最小二乘估计的效果。

解:用公式iw i iw e w e '计算出加权变换残差'iw

e ,分别绘制加权最小二乘估计后的残差图和加权变换残差图(见下图)。

根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。

4.9 参见参考文献[2],表4.12(P138)是用电高峰每小时用电量y与每月总用电量x的数据。

(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。

解:SPSS输出结果如下:

由上表可得回归方程为:

?0.8310.004

=-+

y x

残差图为:

解:a由残差散点图可以明显看出存在异方差,误差的方差随着x的增加而增大。

Cor relations

1.000.318*

..021

5353

.318* 1.000

.021.

5353

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

x

absei

Spearm an's rho

x absei

Correlation is significant at the 0.05 level (2-tailed).

*.

得到等级相关系数0.318

s

r ,P值=0.021,认为残差绝对值

i

e与自变量

i

x显著相关,存在异方差。

(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程;解:SPSS输出结果如图:

由上述表可得,在 1.5m =时对数似然函数达到最大,则幂指数的最优取值为

1.5m =。加权后的回归方程为:?0.6830.004w y x =-+。

计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:

0.321s r =,P 值为0.019<0.05,即加权最小二乘法没有消除异方差,只是消除

异方差的不良影响,从而对模型进行一点改进。

(4)用方差稳定变换y y =

'消除异方差。

解:对应变量做方差稳定变换(y y =')后,用最小二乘法做回归,SPSS 结果

如下表:

则回归方程为:?0.5822+0.0009529y

x '=。 保存预测值?i y

',计算出残差的绝对值后,计算等级相关系数,见下表:

其中0.160s r =,P 值=0.254>0.05,说明异方差已经消除。

4.10 试举一可能产生随机误差项序列相关的经济例子。

答:例如,居民总消费函数模型:

C t =β0+β1Y t + ε t t=1,2,…,n

由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 )。

4.11 序列相关性带来的严重后果是什么?

答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题: 1.

参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估

计值的方差大于无自相关性时的方差。 2. 均方误差MSE 可能严重低估误差项的方差

3.

变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在

参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t 值和F 值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。

4. 当存在序列相关时,β 仍然是β的无偏估计,但在任一特定的样本中,β

可能严重歪曲β的真实情况,即最小二乘法对抽样波动变得非常敏感

5. 模型的预测和结构分析失效。

4.12 总结DW 检验的优缺点。

答:优点:1.应用广泛,一般的计算机软件都可以计算出DW 值; 2.适用于小样本;

3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。

缺点:1. DW 检验有两个不能确定的区域,一旦DW 值落入该区域,就无法判断。此时,只有增大样本容量或选取其他方法;

2.DW 统计量的上、下界表要求n>15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;

3.DW 检验不适应随机项具有高阶序列相关性的检验。

4.13 表4.13中是某软件公司月销售额数据,其中,x 为总公司的月销售额(万元);y 为某分公司的月销售额(万元)。

(1)用普通最小二乘法建立y 与x 的回归方程;

由上表可知:用普通二乘法建立的回归方程为x y

176.0435.1?+-= (2)用残差图及DW 检验诊断序列的相关性; 1.以自变量x 为横轴,普通残差为纵轴画残差图如下:

从图中可以看到,残差有规律的变化,呈现大致反W 形状,说明随机误差项存在自相关性。

2.以1 i e (残差1)为横坐标,i e (残差)为纵坐标,绘制散点图如下:

由残差图可见大部分的点落在第一、三象限内,表明随机扰动项i ε存在着正的序列相关; 3.从下表

可知DW 值为0.663,查DW 表,n=20,k=2,显著性水平α=0.05,得L d =1.20,U d =1.41,由于0.663<1.20,知DW 值落入正相关区域,即残差序列存在正的自相关。 (3)用迭代法处理序列相关,并建立回归方程。

自相关系数-≈1ρ

2

16685.0663.0=?

令't y 1--=t t y y ρ,'t x 1--=t t x x ρ,然后用't y 对'

t x 作普通最小二乘回归可得输出结果如下:

可看到新的回归方程的DW=1.360.且1.18<1.360<1.40,因而DW 检验落入不确定区域此时,一步迭代误差项的标准差为0.07296,小于t ε的标准差0.097

't y 对't x 的回归方程为't y

?=-0.3+0.173't x ,将't y =t y -0.66851-t y ,'

t x =t x -0.66851-t x 代人,还原为原始变量的方程

t y

?=-0.3+0.66851-t y +0.173t x -0.11571-t x 由于一步迭代的DW 检验落入不确定区域,因而可以考虑对数据进行二步迭代,也

就是对't x 和'

t y 重复以上迭代过程。进行回归结果如下:

此时DW 的值为1.696,查DW 表,n=18,k=2,显著性水平α=0.05,得L d =1.16,

U d =1.39, DW 值大于U d ,小于2,落入无自相关区域。误差标准项0.0849,略

小于一步迭代的标准差0.7296。

但是在检验都通过的情况下,由于一步迭代的2r 值和F 值均大于两步迭代后的值,且根据取模型简约的原则,最终选择一步迭代的结果,即:

t y

?=-0.3+0.66851-t y +0.173t x -0.11571-t x

(4)用一阶差分的方法处理数据,建立回归方程;

先计算差分t y ?=t y -1-t y ,t x ?=t x -1-t x ,然后用t y ?对t x ?做过原点的最小二乘回归,结果如下:

由上面表,可知DW 值为1.462>1.40=U d ,即DW 落入不相关区域,可知残差序列'

t e 不存在自相关,一阶差分法成功地消除了序列自相关。同时得到回归方程为

t y

??=0.169t x ?, 将t y ?=t y -1-t y ,t x ?=t x -1-t x ,代人,还原原始变量的方程

t y =1-t y +0.169(t x -1-t x )

(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。

答:本题中自相关系数≈ρ

?0.6685,不接近于1,不适宜用差分法,另外由迭代法的F 值及2r 都大于差分法的值,故差分法的效果低于迭代法的效果;而普通最小二乘法的随机误差项标准差为0.09744,大于迭代的随机误差项标准差0.07296,所以迭代的效果要优于普通最小二乘法,所以本题中一次迭代法最好。

4.14 某乐队经理研究其乐队CD 盘的销售额(y ),两个有关的影响变量是每周出场次x1和乐队网站的周点击率x2,数据见表4.14。

(1)用普通最小二乘法建立y 与x1、x2的回归方程,用残差图及DW 检验诊断序列的自相关性;

解:将数据输入SPSS ,经过线性回归得到结果如下:

Model Summary(b)

a Predictors: (Constant), x2, x1

b Dependent Variable: y

ANOVA(b)

a Predictors: (Constant), x2, x1

b Dependent Variable: y

由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程,通过了r、F、t检验,说明回归方程显著。y与x1、x2的回归方程为:

y=-574.062+191.098x1+2.045x2

残差图ei(e t)~ei1(e t-1)为:

从残差图可以看出残差集中在1、3象限,说明随机误差项存在一阶正自相关。DW=0.745

查表得dl=1.46 du=1.63, 0

ρ=1-0.5DW=0.6275

做变换:x1t’=x1t-ρx1(t-1), x2t’=x2t-ρx2(t-1)

y t’=y t-ρy t-1

建立y t’与x1t’, x2t’的回归方程,SPSS输出为:

DW=1.716>du 所以误差项间无自相关性。σ?=257.86

回归方程为:yt’=-178.775+211.11x1t’+1.436x2t’

还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1))

+1.436*( x2t-0.627x2(t-1))

(3)用一阶差分法处理序列相关,建立回归方程。

Model Summary(c,d)

a For regression through the origin (the no-intercept model), R Square measures the proportion of the variability in the dependent variable about the origin explained by regression. This CANNOT be compared to R Square for models which include an intercept.

b Predictors: DIFF(x2,1), DIFF(x1,1)

c Dependent Variable: DIFF(y,1)

d Linear Regression through th

e Origin

DW=2.040>du,所以消除了自相关性,σ?=280.99

差分法回归方程为: y t-y t-1=210.117(x1t-x1(t-1))+1.397(x2t-x2(t-1)). (4)用最大似然法处理序列相关,建立回归方程。

用SPSS软件的自回归功能,analyze——>time series——>autoregression:

ρ?=0.631, σ?=258.068,

(5)用科克伦-奥克特迭代法处理序列相关,建立回归方程

ρ?=0.632, σ?=260.560 , DW=1.748

(7)比较以上各方法所建回归方程的优良性。

综合以上各方法的模型拟合结果如下表所示: 自回归方法 ρ

? 0?β '?0β '??11ββ= '??2

2ββ= DW σ

? 迭代法 0.6275 —— -179.0 211.1 1.437 1.716 257.86 差分法

——

——

210.1 1.397 2.040 280.99 精确最大似然 0.631 -481.7 —— 211.0 1.436 —— 258.07 科克伦-奥克特 0.632 -479.3 —— 211.1 1.435 1.748 260.560 普莱斯-温斯登 0.631

-487.1 ——

211.0

1.435

1.746 258.066

由上表可看出:DW 值都落在了随机误差项无自相关性的区间上,一阶差分法消除自相关最彻底,但因为∧

ρ=0.627,并不接近于1,故得到的方差较大,拟合效

果不理想。将几种方法所得到的σ?值进行比较,就可知迭代法的拟合效果最好,以普莱斯-温斯登法次之,差分法最差。

4.15 说明引起异常值的原因和消除异常值的方法。

答:通常引起异常值的原因和消除异常值的方法有以下几条,见表4.10:

4.16 对第3章习题11做异常值检验。

研究货运总量y (万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。

(1)利用SPSS 建立y 与x1,x2,x3的三元回归方程,分别计算普通残差,学生化残差,删除残差,删除学生化残差,中心化杠杆值ii ch ,库克距离i D ,见下表:

相关文档