文档库 最新最全的文档下载
当前位置:文档库 › 第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量 (2)
第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量

本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。

第一节 虚拟变量模型

在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。0表示变量具备某种属性,1表示变量不具备某种属性。 一、包含一个虚拟变量的模型

如果我们要研究的问题中解释变量只分为两类。则需引入一个模拟变量。 例9.1建立模型研究中国妇女在工作中是否受到歧视。 令Y=年薪,X=工作年限

?

?

?=,女性,男性

101D 可以建立如下模型:

i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪:

i i i i X B B D X Y E 10)0,(+== )2.9(

女性就业者的平均年薪:

210)1,(B X B B D X Y E i i i i ++== )3.9(

如果B 2=0则说明不存在性别歧视,如果02

图9.1表明男女就业者的平均年薪对工龄的函数具有相同斜率B 1,即随着工龄的增长男

女工资的增长幅度相同;截距不同,说明男女的初始年薪不同。我们称这种虚拟变量只影响

截距不影响斜率的模型为加法模型。

图9.1不同性别就业者的收入(加法模型,B 2<0)

如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为

i i i i i u X D B X B B Y +++=210 )4.9(

图9.2描绘了男性年薪增加较快的情况。

我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4)

如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型

结合起来,得到如下模型

i i i i i i u D B X D B X B B Y ++++=3210 )5.9(

模型(9.5)可以用来表示截距和斜率都发生变化的模型。其图形如图9.3所示。

我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的

情况。例如,进口商品消费支出Y主要取决于国民生产总值X(作为收入的替代变量)的多少。我们改革开放前后,由于国家政策的变化,及改革开放后外资的大量引入等因素的影响,1978年前后,Y 对X 的回归关系明显不同。以t *=1978年为转折点,1978年的国民生产总值X *t 为临界值。设虚拟变量

?????<≥=*

*

01t

t t t D t 进口商品支出回归方程为

t t t t t t u D X X B X B B Y +-++=)(*

210 )6.9(

用OLS 法估计得到

t t t t t D X X B X B B Y

)(????*210-++= )7.9( 当年1978*

=

t t X B B Y

10???+= )8.9( 当t ≥1978*

=t ,1=t D

t t t X B B X B B Y

)??()?(?21*20++-= )9.9( 根据我国经济发展的实际情况;一般应该0?2>B 。比较(9.8)与(9.9)式中的斜率,1

21???B B B >+,说明改革开放后,随着收入的增长,我国进口商品支出增长速度较改革开放前快。

当t=t *时,X t =X *t ,所以,由(9.8)和(9.9)式计算得到的Y *t 是一样的。两条不同时期的直线可在转折点连起成为一条折线。如图9.4.

§9.1.2 包含多个虚拟变量的模型 现在我们要研究本科生,研究生和MBA 毕业生的初职月薪有何差异。这里有三类人员,需引入两个虚拟变量。数据见表9.1 Y =初职月薪

X t

???=其他研究生011D ???=其他

研究生011D

表9.1研究本科生,研究生和MBA 毕业生的初职月薪 单位:人民币元

根据表9.1的数据得到OLS 回归结果如下:

212497719501D D Y ++

= )10.9(

t )45.4( )52.4( )59.15(

75.128,6.1.,898.0,905.022====F W D R R

根据(9.1)可以看出,截距项为本科生的平均初职月薪;D 1的系数是研究生与本科生平均初值职月薪的差额;D 2的系数是MBA 毕业生与本科生平均初职月薪的差额。所有回归数的符号与预期的一致。模型(9.10)表明研究生的初职月薪比本科生高143.5%。MBA 毕业生的初值月薪比本科生高494.8%;MBA 毕业生的初职月薪比研究生高144.2%。从这三个层次毕业生的初职月薪可以看出他们的竞争能力。图9.5给出了模型(9.10)

图9.5本科生、研究生、毕业生的初职月薪

从前面讨论的例子中,我们可以发现虚拟变量实质上是“数据分类器”,它根据样本的属性(性别、种族、季节变化、经济结构的变化等)将样本分为各个不同的子群体并对每个子群体进行回归分析。各个子群体的因变量对解释变量(定性解释变量)的不同反应表现为各子群体截距或斜率系数存在差别。

虽然虚拟变量技术非常有用,但在使用时仍需谨慎。第一,如果回归模型包含了常数项,那么虚拟变量的个数必须比所研究问题中数据属性少1;第二虚拟变量的系数必须与基准类(所有虚拟变量都取零的一类)相关;最后,若模型中包含多个定性变量,而且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度。因此,应当权衡进入模型的虚拟变量个数以免超过样本观察值的个数。

§9.2 随机解释变量模型

回忆回归模型的古典假设这一0)(,=i i u X Cov ,即解释变量X 与随机项u 不相关。 这个假定实际上要求:或X 是确定性变量,或者X 是随机变量,但与误差项u 不相关。显然这种假定不符合实际。实际上解释变量的取值往往不确定,是随机的。尤其是滞后因变量作解释变量时更不能把他当作非随机变量处理。我们把解释变量是随机变量的模型称为随机解释变量模型。

对于随机解释变量模型,如果满足

0)(,=i i u X Cov

和其它古典假设。则当X 与u 独立时,最小二乘估计量是无偏的;当X 与u 不独立时,最小二乘估计量具有一致性。

如果0)(,≠i i u X Cov ,则OLS 估计量是非一致估计量。

如何解决解释变量与随机误差项相关时模型的参数估计呢?工具变量法是一种简单的方法。工具变量法的基本思想是当解释变量与随机项高度相关时,设法找到另外一个随机变量Z ,使得Z 与X 高度相关而与u 不相关,称Z 为工具变量,用Z 替代X 使0)(,=i i u Z Cov ,求得模型的参数估计量1。但在实际应用中,如何选择工具变量是一个比较困难的问题。

第三节 模型的设定

在前几章我们考虑了单方程回归模型,例如交通通讯支出函数,进口需求函数。在考虑这些模型时,我们隐含地假定了所选择的模型“是对现实的真实反映”,即它正确地反映了所要研究的现象。用专业语言说,就是我们假定所选模型中不存在设定偏差或者误差。设定误差的产生是由于我们在不经意中估计了“不正确的”模型。但在实践中寻找真实正确的模型就好像寻找圣杯一样,永远办不到。我们只是希望找到一个能够合理反映现实的模型,即一个好的模型。

一、 “好的”模型具有的特性

著名经济计量学家哈维2列出了可以判定模型好坏的标准。

1. 节省性。一个模型永远无法完全把握现实,在建模过程中一定程度的抽象或简化是不可

1

对随机解释变量模型估计量的性质的证明和工具变量法的介绍参见《经济计量学》,张宝法编著,经济科学出版社,2000年1月,pp166-174。

避免的。节俭原则表明模型应尽可能地简单,即简单优于复杂。 2. 可识别性。即对给定的一组数据,每个参数只有一个估计值。

3. 拟合优度。回归分析的基本思想是用模型中所包括的变量来尽可能地解被解释变量的变

化。比如我们可以用校正的样本决定系数2

R 来度量拟合优度。2

R 越高,则认为模型就越好。

4. 理论一致性。无论拟合度多高,一旦模型中的一个或者多个数的符号有误,该模型就不

是一个好的模型。因而,在某种商品的需求函数中,如果价格的函数为正,那么回归结果就值得怀疑。即使模型的R 2值很高,比如0.98,我们也不能接受这个模型。所以,在构建模型时,我们必须有一些理论基础来支撑这一模型,“没有理论的测量”经常能导致非常令人失望的结果。

5. 预测能力。正如诺贝尔奖得主米尔顿.弗里德曼所指出的那样,“对假设(模型)的真实

性唯一有效的检验就是将预测与经验值相比较”3。因而,在货币主义模型和凯恩思模型两者之间选择时,根据这一标准,我们就应该选择理论预测能够被实际经验所验证的模型。

虽然建立一个“好的”模型没有一个统一的方法,但是我们建议读者在建立经济计量模型时应牢记这些标准。 二、设定误差的类型

正如前面指出的那样。模型应该尽可能简单,它应该包括理论上所建议的关键变量而将一些次要影响因素包括在误差项u 中。下面我们讨论几种导致模型失效的设定误差。 1.遗漏相关变量:“过低拟合”模型

由于种种原因,研究者遗漏了一个或多个本应该包括在模型中的解释变量,这样会对常用的变通最小二乘法估计结果有什么影响呢?

在第七章,我们曾给出1985年到1998年期间我中国进口商品支出函数,见式(6.5),现在假定“真实”的进口商品支出函数如下:

t t u X B X B B Y +++=22110 )1.8(

式中的Y 为进口总额,X 1为收入,X 2 为时间趋势变量,取值从1,2,… 到14(为了使分析具有一般性,我们用Y, X 1, X 2 作为变量)。式8.1表明:除了收以外,还有一个变量X 2也影响进口商品支出。它可能是人口,偏好,技术,国家政策导向等因素,我们用一个包罗万象的变量--时间或趋势变量表示这些影响因素。

如果,我们在这里不估计回归方程8.1而是估计下面的方程:

t t t X A A Y ν++=10 )2.8(

式(8.1)与(8.2)类似,只是去掉了“相关“变量X 2 。ν与u 都是随机误差项。如果(8.1)是正确的模型,那么(8.2)就犯了从模型中排除重要变量的设定误差。我们将这种设定误差称作遗漏变量偏差。遗漏变量可能产生如下后果:

(1)如果遗漏变量X 2 与模型中变量X 1 相关,则0

?A 和 1?A 是有偏的,即其均值与真实值不一致 。即

0)?(B A E ≠, 11)?(B A E ≠

3

Milton, “The Methodology of Positive Economics” in Essays in Positive economics, University of Chicago

(2)0?A 和 1?A 不是0B 和1B 的一致估计量。即无论样本容量多大,0

?A 和 1?A 的偏差不会消失。

(3)如果X 2 与模型中变量X 1不相关,则1?A 是1B 的无偏一致估计量4,但是0

?A 仍然是0B 的有偏估计量。

根据错误设定模型(8.2)得到的误差方差是真实方差σ2的有偏估计量。换言之,从真实模型(8.1)估计得到的误差方差与错误设定模型(8.2)中估计得到的误差方差不同,前者是真实σ2的一个无偏估计量,而后者却不是。

通常估计的1

?A 的方差是真实估计量1B 的方差的有偏估计量。即使X 1与X 2不相关,这一方差仍然是有偏的。可以证明

[]

∑∑-+=2

222221

1)2()?()?((i

i

X n X B B Var A Var E )3.8(

可见0

?A 的方差的期望值并不等于1?B 的方差,平均而言,)?(1A Var 高估了1B 的真实方差,意谓着它将有一个正的偏差。

因此,通常的置信区间和假设检验也不可靠。对(8.3)而言,置信区间将会变宽,因此,我们可能会“更频繁地”接受零假设:函数的真实值为零(或其他零假设)

下面我们利用中国进口支出函数说明错误设定模型的后果。 例8.1 进口支出函数

利用表6.3给出的数据,再加上时间趋势变量(根据模型特点,我们引入了时间趋势变量的多项式形式),模型(8.1)的回归结果如下:

3218.1073.16012.949271.042.172T T T

GNP IM -+-+-= )4.8(

t )

177.0(- )67.5( )22.2( )20.2( )74.2( 991.02=R 988.02=R 34.476?=σ

97.1.=W D 83.272=F 错误设定式(8.2) 的回归结果已由(7.5)式给出如下:

GNP IM 173.0186.217+-= t )5.0(- )94.16(

960.02=R 956.02

=R 85.913?=σ 735.0.=W D 95.286=F

注意两个回归结果的几个特点:

(1)错误设定式(8.5)表明,GDP 每增加1元,平均而言,用于进口货物上的支出会增加0.173元;即进口支出的边际倾向是0.173元。而真实模型(8.4)表明,由于考虑到趋势变量的影响,因而GDP 每增加1元,平均用于进口货物的支出将会增加大约0.271元。在这个例子中,错误设定方程低估了真实的边际进口支出倾向,也就是说,它有一个向下的偏差。由于在错误设定的方程中,遗漏了时间趋势变量,因此,收入变量GNP 就不得不担负起遗漏变量对进口支出 IM 的影响,从而无法表现GNP 对IM 的真实影响。

(2)两个模型中估计的误差标准差明显不同,当然,误差的方差也明显不同。

这些结果与前面的讨论一致 。可见,从模型中略去相关变量可能产生非常严重的后果。因此,我们在建立模型时,需要对研究对象中所蕴含的经济理论作深入的了解,从而把相关的变量都包括进模型中。如果模型未包括这些相关变量,我们就会过低拟合模型,犯遗漏重要变量的错误。

2.包括不相关变量:“过度拟合”模型

有时,研究人员会采取“大杂烩“的方式将所有的变量都包括进模型中,不管它们是不是理论上所需要的。过度拟合模型的逻辑思想是只要包括了理论上的相关变量,那么包括一个或多个不必要的或非相关的变量也不会有太大影响。由于研究人员不能确定非相关变量在模型中的作用,所以,非相关变量经常被不经意地包括到模型中。如果经济理论不完善,也会发生过度拟合的情况。在过度拟合的情况下,R 2会较高,从表面看,模型的预测能较高。抛开这种表面现象,我们研究模型中包括非相关变量的后果。我们用简单的双变量和三变量模型加以说明。假设

i i i u X B B Y ++=110 )6.8(

是正确设定的模型。现在研究者加入了一个多余变量X 2,估计以下模型:

i i i i X A X A A Y ν+++=22110 )7.8(

我们事先已知 X 2对Y 没有任何影响,则(8.7)是一个过度拟合模型。模型(8.7)的估计结果有如下特点:5

(1)过度拟合模型(8.7)的OLS 估计量是无偏的(也是一致 的)。即00)?(B A E =, 11)?(B A E =, 0)?(2

=A E (由于 本不属于真实模型,因而 的值 值预期为零)。 (2)从回归方程(8.7)中所得σ2的估计是正确的。

(3)通常的置信区间和假设检验程序仍然是有效的。

(4)从过度拟合模型(8.7)估计的i A ?是非有效的。通常,它们的方差比从真实模型(8.6)中估计的i

B ?的方差大。简言之,在过度拟合模型中,估计量是线性无偏估计量,但不是最优线性无偏估计量。

※ ※※※※

注意:到目前为止,我们讨论了两类不同的设定误差,如果略去某一相关变量(过低拟合),则模型中剩余变量的系数通常是有偏和不一致的,估计的误差方差也是不正确的,估计量的标准差是有偏,因此,通常所用的假设检验过程是无效的。另一方面,若模型中包括了一个无关变量(过度拟合),则仍然可以得到无偏的和一致估计量,估计的误差方差是正确的,通常的假设检验过程仍然是有效的。模型中包括多余变量的一个主要问题是估计系数的方差是正确的,通常的假设检验过程仍然是有效的。模型中包括多余变量的一个主要问题是估计系数的方差会变,从而降低了估计值的精确性。这样会是我们更容易接受零假设:真实的系数值为零,以至于无法认识到被解释变量与解释变量之间的显著关系。

从上述讨论中似乎得到这样一种无益的结论:包括不相关变量比排除相关变量要好一些。但我们并不鼓励这样做,因为增加非相关变量会减少估计量的有效性,也可能导致多从共线性,同时也会损失自由度。

通常提倡的方法使劲包括那些在理论上对因变量有直接影响的变量,而且这些解释变量不能够由模型中其他变量解释。

3.不正确的函数形式

如果我们在研究中选择了错误的函数形式,也会产生模型设定误差。现假定模型所包含的变量Y,X 都是理论上正确的变量,真实的模型为:

i i i i i u X A X A X A A Y ++++=332210 )8.8(

而再研究中将上述方程误设为:

i i i X B B Y ν++=10 )9.8(

显然错误设定方程(8.9)遗漏了变量X 2和X 3,只能得到有偏且非一致的估计量。 如果将一个线性模型误设为多项式形式的非线性模型,就会犯“过度拟和”的错误。 如果正确的模型形式为:

i i i X C C Y ν++=ln ln 10 )10.8(

而将其误设为(8.9)的形式,(8.10)式中C 1的含义为Y 对X 的弹性, (8.9)式中的B 1的含义为Y 对X 的斜率,显然这两者是不同的。如果要由(8.9)式中得到Y 对X 的弹性,必须将B 1乘以X/Y 。可见这个弹性依赖于所选择的X 与Y 的值。然而对(8.10)而言,这弹性系数无论X 取何值都是不变的。 由于经济理论并没有告诉我们解释变量与被解释变量之间的函数形式,我们就面临一个难题:如何在模型(8.9)和(8.10)之间进行选择。如果(8.9)是真实的模型,而我却却用了模型 (8.10)来拟和数据,则会导致模型设定误差;如果情况相反,我们也会导致模型设定误差。虽然在这两种情况下都包括了相关的变量,如果我们选择了错误的函数形式,则所得的估计的系数很可能是真实系数的有偏估计。我们可以利用搏克斯—考克斯(Box-Cox)变换来检验模型是现行的还是对数线性的。6 尽管还有其他类型的设定误差,此处我们就不再讨论。但上述讨论已经足够提醒我们:在建立模型时必须小心谨慎,不断总结经验,逐步完善模型。

三、设定误差的检验 没有人故意反设定误差的错误。设定误差是不经意产生的,或由于理论薄弱无法建立准确的模型,或是由于没有正确的数据来检验理论上正确的模型,,或由于被解释变量与解释变量之间函数形式从理论上来说就不是很明确。实际的的问题不在于犯了这类错误,,而在于如何检测犯了这类错误。一旦确认犯了这类错误,采取相应的补救措施,就可以得到比较理想的模型。下面我们讨论几种检验设定误差的方法。

1.诊断非相关变量的存在 假定由理论证明X 1 ,X 2 对Y 都有影响,那么X 1 ,X 2 都应包括在模型中,即使在实证检验中它们中的某个或全部的系数可能使统计不显著的,也不应该把它们从模型中去掉,这时不会产生非相关变量问题。有时为了避免产生遗漏变量偏差, 我们将变量X 3 映入模型,这是模型形式为:

i i i i i u X B X B X B B Y ++++=3322110 )11.8(

6

参见《经济计量模型与经济预测》,罗伯特 S.平荻克著,钱小军等译,机械工业出版社,1999年3月,

假定根据现有理论无法且定X 3是否真的属于模型,我们可以通过t 检验来判断X 3是否是一个多余变量。如果B 3 是统计显著的,X 3 可能属于模型(8.11)。而且我们还应从系统的运行规律上进一步寻找 X 3 属于模型(8.11)的证据(这时 X 3 的作用往往带有一定特殊性)。只有在得到充分证据之后,才能确认X 3 属于模型(8.11)。如果经研究没有找到充分的证据证明 X 3 应属于模型(8.11),即使 B 3 式统计显著的,我们也不应将X 3纳入模型(8.11)。

如果(8.11)中的B 3是统计不显著的,我们有没有充分证据证明X 3 属于模型(8.11), 则可以认为X 3是不相关变量。如果我们不能确定X 1 ,X 2 是相关变量,可以用F 检验。凌驾设为 B 2=B 3=0,其他过程同上。

从以上讨论可以看出,在检验非相关变量存在时,我们头脑中首先应有一个理论上正确的模型,然后我们在借助于常用的t 检验和F 检验来判定一个或多个变量(这些变量是根据理论不能确定的变量)是否应包含在模型中(对于理论上已经证明应包括在模型中的变量,不应属于非相关变量之列)。可见t 检验,F 检验只是我们判断非相关变量的一个辅助工具,不能仅以t 检验或F 检验是否显著来判断一个或多个变量是不是非相关变量,否则,我们就会犯数据挖掘(Data mining)的错误。

2.对遗漏变量何不正确函数形式的检验 理论应该成为模型的基础,什么是理论上正确的模型呢?比如我们现在考虑失业和通货膨胀之间的关系。过去一致认为这两个变量是密切相关的。在五六十年代,当失业率低时, 通货膨胀率通常是高的,反之就相反。失业率与通货膨胀之间的关系被称为菲利普斯曲线。根据菲利普斯曲线,我们可以预期通货膨胀率与失业率负相关,但究竟那种函数关系是正确的呢?

i t i u X B B Y ++=10 01

t t t u X B B Y ++=ln ln 10 01

t t

t u X B B Y ++=1

1

0 01>B )14.8( X=失业率, Y=通货膨胀率。 我们不能明确回答这个问题。事实上通货膨胀不但受失业率影响,而且还受需求压力、进口价格等影响。在五六十年代菲利普斯曲线是正确的,因为其他影响通货膨胀率的因素几乎保持固定不变或变动幅度很小,所以那个时期通货膨胀率和失业率之间的关系很明显呈现出负相关的关系。在运用五六十年代数据分析通货膨胀率与失业率之间的关系时,菲利浦斯曲线是一个很好的理论模型。如果我们使用七十年代获得数据菲利浦斯曲线就不是一个合适的理论模型。7要建立模型研究通货膨胀与其他影响因素的关系还需对经济系统作更深入的研究。 实践中我们按照如下步骤去判断:首先根据理论或调查以及过去的工作经验,建立一个自认为抓住了问题的本质的模型,然后对这个模型进行实证检验,并对回归结果进行仔细分析。我们可以根据以下参数判定模型是否恰当: (1)R 2和校正后的R 2(2

R )

(2)估计的t 值

(3)与预期相比,估计系数的符号 (4)D.W 统计量 (5)预测误差 如果这些结果都很好,则可以接受所选模型,认为他较好地代表了现实情况。如果结果不令人满意,或R 2太低,或只有几个系数是统计显著的,或符号与预期有误,或D.W 统计值太低(太高),或预测误差相对较大,那么我们就要考虑模型是否恰当,并寻求补救措施:可能我们省略了某个重要的变量,可能我们使用了错误的函数形式等等。

四、用于预测的模型的选择 我们知道回归分析的目的之一就是预测因变量的未来值。为了预测选择模型由哪些标准呢?我们首先会想到R 2拟和优度。因为R 2表示回归直线对样本点的拟和程度,自然R 2越大模型越好。但R 2只是根据样本内数据得到的结果。还有多种标准可以判断回归模型的预测效果,最常用的两种是Akaike 信息标准(AIC)和Schwarz 信息标准(SIC)。这些标准的定义如下:

n

e e

AIC i

n

k ∑=22 )15.8(

n

e

n

SIC i

n

k

∑=2 )16.8(

其中e 是自然对数的底,n 是样本观察值的总数,k 是模型中变量的总数(包括截距项),

∑2

i

e

是样本残差平方和。这些公式都给出了预测误差方差的估计值。

上述两公式前面的因子可以认为是自由度处罚因子,模型中解释变量的个数越多,则处罚越重。相对来说,SIC 标准对自由度的处罚比 AIC 标准更重。无论用 AIC 标准还是 SIC 标准,从预测角度来看,度量值越低,模型的预测会越好。

第七章 虚拟变量

第七章虚拟变量 第一节虚拟变量的引入 一、什么是虚拟变量 前面几章介绍的解释变量都是可以直接度量的,称为定量变量。如收入、支出、价格、资金等等。但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。 属性变量:不能精确计量的说明某种属性或状态的定性变量。 在计量经济模型中,应当包含属性变量对应变量的影响作用。那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。 由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。称为虚拟变量。 虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。一般常用D表示。 D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在 比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。 当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。 二、虚拟变量的作用 1、作为属性因素的代表,如,性别、种族等 2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等; 3、作为某些偶然因素或政策因素的代表,如战争、911等。 4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品) 5、分段回归,研究斜率、截距的变动; 6、比较两个回归模型; 7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本 身就是买或不买) 三、虚拟变量的设置规则 1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。D取值为0的类型,是基础类型,是比较的基准。不如前面说的性别变量,如果你研究是以男性为研究基准,则样本为男性,D取值为0, 2、避免落入“虚拟变量陷阱”。 当一个定性变量含有m个相互排斥的类型时,应向模型引入m—1个虚拟变量。比如“性别”含男性和女性两个类别,所以当性别作为解释变量时,应向模型引入一个虚拟变量。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性) 而当“学历”含有四个类别时,即大学、中学、小学、无学历。当“学历”作为解释变量时,应向模型引入三个虚拟变量。一种取值方式是: 1 (大学)1(中学)1(小学) D1= 0 (非大学)D2 = 0(非中学)D3= 0(非小学) 所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时,模型引入m个虚拟变量,造成了虚拟变量之间产生完全多重共线性,无法估计回归参数。 在m-1个虚拟变量中,虚拟变量可以同时取值为0,但不能全部取值为1。 3、当定性变量含有m个类别时,不能把虚拟变量的值设为D=0(第一类)D=1(二类)D=2(三类)等等。

计量经济学简答

简答题:1.选择工具变量的原则是什么:(1)工具变量必须与所替代的随机解释变量高度相关;(2)工具变量与随机误差项不相关(3)工具变量与其它解释变量不相关,避免出现多重共线性。 2.实际经济问题中的多重共线性 (1)经济变量的趋同性(2)滞后变量的引入(3)样本资料的限制 3.序列相关性产生的原因: (1)惯性;(2)模型设定误差;(3)蛛网现象;(4)数据加工。 4、随机解释变量问题及其解决方法。如果存在一个或多个随机变量作为解释变量,则称原模型出现随机解释变量问题。第一、随机解释变量与误差项相互独立;第二、随机解释变量与误差项同期无关,而异期相关;第三、随机解释变量与误差项同期相关;第四、解决方法为工具变量法。 5.随机解释变量产生的后果 1.若相互独立,则参数估计量仍然无偏一致。2 若同期相关,异期不相关,得到的参数估计有偏,但却是一致的3 若同期相关,则估计量有偏且非一致。 6.简述最小二乘估计量的性质:(1)线性性,即它是否是另一随机变量的线性函数;(2)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。 7、虚拟变量的作用:(1)表现定性因素对被解释变量的影响(2)提高模型的说明能力与水平(3)季节变动分析。(4)方程差异性检验。 8、虚拟变量设置的原则:如果有定性因素共有个结果需要区别,那么至多引入m-1 个虚拟变量 9、实际经济问题中的多重共线性:(1)经济变量的趋同性(2)滞后变量的引入(3)样本资料的限制 10.引入随机误差形式为了:(1)代表未知的影响因素(2)代表残缺数据(3)代表众多细小的影响因素(4)代表数据观测误差(5)代表模型设定误差(6)变量的随机存在性 11. 12.回归分析的主要内容有:(1)根据样本观测值对经济计量模型参数进行估计,求得回归方程(2)对回归方程、参数估计值进行显著性检验(3)利用回归方程进行分析、评价及预测。 13.叙述原理:最小二乘法:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好的的拟合样本数据:最大似然法:当从模型的总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。在满足一系列基本假设的情况下,模型结构参数的最大或然估计量与普通最小二乘估计量是相同的。

随机解释变量问题

第四章 随机解释变量问题 1. 随机解释变量的来源有哪些? 答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。 2.随机解释变量有几种情形? 分情形说明随机解释变量对最小二乘估计的影响与后果? 答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS 估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS 估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS 估计得到的参数估计量是有偏且非一致的估计量。 3. 选择作为工具变量的变量必须满足那些条件? 答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。 4.对模型 Y t =β0+β1X 1t +β2 X 2t +β3 Y t-1+μt 假设Y t-1与μt 相关。为了消除该相关性,采用工具变量法:先求Y t 关于X 1t 与 X 2t 回归,得到Y t ?,再做如下回归: Y t =β0+β1X 1t +β2 X 2t +β3Y t ?1 -+μt 试问:这一方法能否消除原模型中Y t-1与μt 的相关性? 为什么? 解答:能消除。在基本假设下,X 1t ,X 2t 与μt 应是不相关的,由此知,由X 1t 与X 2t 估计出的Y t ?应与μt 不相关。 5.对于一元回归模型 Y t =β0+β1X t *+μt 假设解释变量X t *的实测值X t 与之有偏误:X t = X t *+e t , 其中e t 是具有零均值、无序列相关,且与X t *及μt 不相关的随机变量。试问: (1) 能否将X t = X t *+e t 代入原模型,使之变换成Y t =β0+β1X t +νt 后进行估计? 其中,νt 为变换后模型的随机干扰项。 (2) 进一步假设μt 与e t 之间,以及它们与X t *之间无异期相关,那么E(X t-1νt )=0成立 吗?X t 与X t-1相关吗? (3) 由(2)的结论,你能寻找什么样的工具变量对变换后的模型进行估计? 解答:(1)不能。因为变换后的模型为 Y t =β0+β1X t +(μt -β 1e t ) 显然,由于 e t 与X t 同期相关,则说明变换后的模型中的随机干扰项νt =μt -β1e t 与X t 同 期相关。 (2) E(X t-1νt )=E[(X t-1* +e t-1)( μt -β1e t )]

第八章虚拟变量参考答案

练习题8.1参考解答: (1)在其它条件不变的情况下,对数人均收入提高1%,则平均预期寿命可能提高约0.0939年。但从统计检验结果看,对数人均收入lnX 对期望寿命Y 的影响并不显著。方程的拟合情况良好,可进一步进行多重共线性等其他计量经济学的检验。 (2)引入()ln 7i i D X -的原因是想从截距和斜率两个方面考证将人均收入超过1097美元的国家定义为富国的话,贫国和富国的预期寿命是否存在显著的区别。 如果人均收入大于1097美元,那么虚拟变量取值为1,否则为0。即: 1 1097 (l n ()7)0 1097 i i D X ?-=??人均收入大于美元人均收入低于 美元 (3) 对于贫穷国,其回归方程为: 2.409.39ln i X -+ 对于富国,其回归方程为: 2.40(9.39- 3.36)ln 3.36*721.12 6.03ln i i X X -++=+ 习题8.2参考答案 由于有四个季度,因此引入三个季度虚拟变量 1 1 1 1220 0 0 D D D ???===??????一季度二季度三季度其它其它其它 (1)按照加法模型引入三个虚拟变量,模型为:(加法模型的作用是改变了设定模型的截距 水平) i 0112233i i Y =D D D X ααααβμ+++++ 回归结果如下: 123i 22?=6910.449187.7317D 1169.32D 417.1182D 0.038008X t= (3.594792) (-0.28439 (1.835446) 065093256914 R =0.517642 R =0.416093 F=5.097454 DW=0.39625 i Y -+-+)(-.) (.) (2)由于考虑利润对销售额的变化率发生变异,即斜率的改变,因此按照乘法模型引入三 个虚拟变量,模型为: i 01i 1i 12i 23i 3i Y =X X D X D X D ββαααμ+++++ 回归结果如下: i i 1i 2i 322?=7014.7570.037068X -0.000933X D 0.00791X D 0.002385X D t= (3.934394) (3.273896 (-0.216776) 0.0040180.58529 R =0.519733 R =0.418624 F=5.140311 DW=0.429628 i Y ++--)() () (3)按照加法和乘法相结合的方式引入三个虚拟变量,模型为: i 01122331i 2i 13i 24i 3i Y =D D D X X D X D X D ααααββββμ++++++++ 回归结果为: i 123i i 1i 2i 322?Y =10457.394752.26D 3764.21D 4635.46D 0.0159X 0.029X D 0.03X D 0.0266X D t= (2.566) (-0.87 (-0.6860.8320.6280824089960749 R =0.546701 R =0.348383 F=2---++++-)) () () (.) (.)(.).756686 DW=0.464982

计量经济学第七章第5,6,7题答案

第7章练习5 解:根据Eview 软件得如下表: Dependent Variable: Y Method: ML - Binary Logit (Quadratic hill climbing) Date: 05/22/11 Time: 22:19 Sample: 1 16 Included observations: 16 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-Statistic Prob.?? C Q V McFadden R-squared ????Mean dependent var . dependent var ????. of regression Akaike info criterion ????Sum squared resid Schwarz criterion ????Log likelihood Hannan-Quinn criter. ????Restr. log likelihood LR statistic ????Avg. log likelihood Prob(LR statistic) Obs with Dep=0 7 ?????Total obs 16 Obs with Dep=1 9 于是,我们可得到Logit 模型为: V Q i 0177.0004.0107.11Y ?++-= () () () 685.40R 2 MCF = , LR(2)= 如果在Binary estination 这一栏中选择Probit 估计方法,可得到如下表:

计量经济学题库第8章模型中的特殊解释变量

第8章模型中的特殊解释变量 习题 一、单项选择题 1.对于一个含有截距项的计量经济模型,若某定性因素有m个互斥的类型,为将其引入模型中,则需要引入虚拟变量个数为() A. m B. m-1 C. m+1 D. m-k 2.在经济发展发生转折时期,可以通过引入虚拟变量方法来表示这种变化。例如,研究中国城镇居民消费函数时。1991年前后,城镇居民商品性实际支出Y 对实际可支配收入X的回归关系明显不同。现以1991年为转折时期,设虚拟变 量,数据散点图显示消费函数发生了结构性变化:基本消费部分下降了,边际消费倾向变大了。则城镇居民线性消费函数的理论方程可以写作() A. B. C. D. 3.对于有限分布滞后模型 在一定条件下,参数可近似用一个关于的阿尔蒙多项式表示(),其中多项式的阶数m必须满足() A. B. C. D. 4.对于有限分布滞后模型,解释变量的滞后长度每增加一期,可利用的样本数据就会( ) A. 增加1个 B. 减少1个 C. 增加2个 D. 减少2个 5.经济变量的时间序列数据大多存在序列相关性,在分布滞后模型中,这种序列相关性就转化为() A.异方差问题 B. 多重共线性问题 C.序列相关性问题 D. 设定误差问题 6.将一年四个季度对因变量的影响引入到模型中(含截距项),则需要引入虚 拟变量的个数为() A. 4 B. 3 C. 2 D. 1 7.若想考察某两个地区的平均消费水平是否存在显著差异,则下列那个模型比

较适合(Y代表消费支出;X代表可支配收入;D 2、D 3 表示虚拟变量)() A. B. C. D. 二、多项选择题 1.以下变量中可以作为解释变量的有() A. 外生变量 B. 滞后内生变量 C. 虚拟变量 D. 前定变量 E. 内生变量 2.关于衣着消费支出模型为:,其中 Y i 为衣着方面的年度支出;X i 为收入, 则关于模型中的参数下列说法正确的是() A.表示在保持其他条件不变时,女性比男性在衣着消费支出方面多支出(或少支出)差额 B.表示在保持其他条件不变时,大学毕业及以上比其他学历者在衣着消费支出方面多支出(或少支出)差额 C.表示在保持其他条件不变时,女性大学及以上文凭者比男性大学以下文凭者在衣着消费支出方面多支出(或少支出)差额 D. 表示在保持其他条件不变时,女性比男性大学以下文凭者在衣着消费支出方面多支出(或少支出)差额 E. 表示性别和学历两种属性变量对衣着消费支出的交互影响 三、判断题 1.通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与样本容量大小有关。 2.虚拟变量的取值只能取0或1。 3.通过虚拟变量将属性因素引入计量经济模型,引入虚拟变量的个数与模型有无截距项无关。 四、问答题 1.Sen和Srivastava(1971)在研究贫富国之间期望寿命的差异时,利用101个国家的数据,建立了如下的回归模型(括号内的数值为对应参数估计值t值):

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中 ,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中, i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

计量经济学简答

简答1、简述经济计量分析工作的程序设定模型、估计参数、检验模型、应用模型 2、简述回归分析与相关分析区别与联系两者都是研究相关关系的方法。但二者也有区别。相关分析关心的是变量之间的相关程度,但并不能反映变量之间的因果关系;而回归分析则要通过建立回归方程来估计解释变量与被解释变量之间的因果关系。此外,在回归分析中,定义被解释变量为随机变量,解释变量为非随机变量;而在相关分析中,把所考察的变量都看作是随机变量。 3、简述普通最小二乘法估计原理普通最小二乘法简称OLS,是应用最多的参数估计方法,也是从最小二乘原理出发的其他估计方法的基础。具有以下优良特性:残差平方和最小,无偏性和线性特征。 4、简述方差非齐性的后果参数的普通最小二乘估计虽然是无偏的,但却是非有效的。参数估计量的方差是有偏的,这将导致参数的假设检验失效,模型预测失效,是非有效的。 5、简述序列相关的后果当一个线性回归模型的随机误差项存在自相关时,就违背了线性回归方程的古典假定,如果仍然用普通最小二乘法估计参数,将 会产生严重后果。自相关产生的后果与异方差情形 类似。自相关影响OLS估计量的有效性,有效性不 再成立,存在比OLS模型更为有效的估计方法。存 在序列相关时,OLS方法下的各种检验失效,模型 预测失效。因为βi估计的方差不等于OLS方法下 计算的方差。 6、简述多重共线处理方法追加样本信息,使用非样 本先验信息,进行变量形式的转换,使用有偏估计 7、简述DW的局限性DW检验只适合一阶自回归形 式,而并不适用于检验高阶自回归形式或其它形式 的序列相关;模型中不含有滞后因变量。若届时变 量中有滞后变量,则DW检验将会失效;模型中含有 截距项;存在不能判定的区域。 8、简述方差非齐性的检验方法样本分段比较法; 残差回归检验法 9、简述发达市场经济国家模型特点建模依据各 流派经济理论;模型全面反映西方核算体系 10、简述经济计量模型评价的准则经济理论准 则;统计准则;经济计量准则 11、简述需求函数的特性非负性,可加性,零阶齐 次性,对称性,单调性 12、什么是内生变量是指模型要解释的变量。外 生变量决定内生变量,外生变量的变化回应其内生 变量的变化。具有一定概率分布的随机变量,它们 的数值是由模型自身决定的。 13、简述联立方程偏倚在结构式模型中,一些变 量可能在一个方程中作为解释变量,而在另一个方 程中又作为被解释变量,这就使得解释变量与随机 误差项之间存在相关关系,从而违背了最小二乘法 的一个重要假定,估计量因此是有偏的和非一致的。 14、简要说明格兰杰——恩格尔方法考察每个变 量的单整阶数;变量之间的长期均衡关系;误差修 正模型 15、什么是经济计量学它是在定性分析基础上, 专门探讨如何用经济数学模型方法定量描述具有随 机性特征的经济变量关系的边缘科学,或者说,它 是数理经济学和数理统计学的交叉科学。 16、什么是回归分析回归分析研究一个变量对于 一个或多个其它变量的依存关系,其目的在于根据

第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量 本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。 第一节 虚拟变量模型 在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。0表示变量具备某种属性,1表示变量不具备某种属性。 一、包含一个虚拟变量的模型 如果我们要研究的问题中解释变量只分为两类。则需引入一个模拟变量。 例9.1建立模型研究中国妇女在工作中是否受到歧视。 令Y=年薪,X=工作年限 ? ? ?=,女性,男性 101D 可以建立如下模型: i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪: i i i i X B B D X Y E 10)0,(+== )2.9( 女性就业者的平均年薪: 210)1,(B X B B D X Y E i i i i ++== )3.9( 如果B 2=0则说明不存在性别歧视,如果02

如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为 i i i i i u X D B X B B Y +++=210 )4.9( 图9.2描绘了男性年薪增加较快的情况。 我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4) 如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型 结合起来,得到如下模型 i i i i i i u D B X D B X B B Y ++++=3210 )5.9( 模型(9.5)可以用来表示截距和斜率都发生变化的模型。其图形如图9.3所示。 我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的 情况。例如,进口商品消费支出Y主要取决于国民生产总值X(作为收入的替代变量)的多少。我们改革开放前后,由于国家政策的变化,及改革开放后外资的大量引入等因素的影响,1978年前后,Y 对X 的回归关系明显不同。以t *=1978年为转折点,1978年的国民生产总值X *t 为临界值。设虚拟变量

第7章 随机解释变量

第7章 随机解释变量 单方程线性计量经济学模型假定解释变量是确定性变量,并且与随机误差项不相关,违背这一基本假设的问题被称为随机解释变量问题。本章介绍了随机解释变量问题的概念、产生的原因和后果、检验方法以及解决方法。 随机解释变量问题的概念 对于计量经济模型 n 21i i k i k i 22i 110 ,,, ββββ=+++++=u X X X Y i (7.1.1) 其中一个基本假设是解释变量k 21,,X X X 是确定性变量,即解释变量与随机扰动项不相关。但是在现实经济生活中,这个假定不一定成立,这一方面是因为用于建模的经济变量的观测值一般会存在观测误差,另一方面是经济变量之间联系的普遍性使得解释变量可能在一定程度上依赖于应变量,即解释变量X 影响应变量Y ,而应变量Y 也会反过来影响解释变量X 。 模型中如果存在一个或多个随机变量作为解释变量,就称为模型出现了随机解释变量问题。其中k x 可能与随机误差项u 不相关,就是说,解释变量121,,-k x x x 都是外生的,但k x 有可能在方程(4.4.1)中是内生的,则称原模型存在随机解释变量问题。内生性可能源自于省略误差、测量误差,联立性等①。为讨论方便,我们假设中2X 为随机解释变量。 在模型()中,根据解释变量2X 与随机误差项的关系,可以分为三种类型: 1)随机解释变量与随机干扰项独立 )()(),(),(222===u E x E u x E u X Cov (7.1.2) 2)随机解释变量与随机干扰项同期无关但异期相关 n 21i 0),(),(i 2i 2 ,,, ===u x E u X Cov i i ① 具体详见《Econometric analysis of cross section and panal data 》(Jeffrey Wooldrige,2007 )。

计量经济学:第八章 虚拟变量回归

第八章 虚拟变量回归 第一节 虚拟变量的概念 一、问题的提出 计量经济学模型对变量的要求——可观测、可计量。但在现实经济问题中,存在定性影响因素,比如 1、属性(品质)因素的表达。 在经济活动中,有的经济变量的变动要受到属性因素(或品质因素)的影响。如收入在形成过程中,不同的性别所得到的收入是不一样的;在城乡、不同地区等收入存在差距;再比如,在我国,经济的发展水平对于不同的区域有不同的表现。 2、异常值现象。 当经济运行过程中,可能会受到突发事件的影响,那么,其值有可能出现异常,偏离正常轨迹很远,对这类现象需要加以修正。 3、季节因素的影响。 有的经济现象存在明显的季节特征,如啤酒的消费。那么,在建模过程中,季节变动这一因素怎样考虑? 4、离散选择现象的描述。 如公共交通与私人交通的选择、商品购买与否的决策、求职者对职业的选择等。 第1、2、3种情况属于解释变量为定性变量,第4情况为被解释变量属于定性变量。称前一种情况为虚拟解释变量,后一种为虚拟被解释变量。本章主要介绍虚拟解释变量的内容。 二、虚拟变量的定义 1、定义。设变量D 表示某种属性,该属性有两种类型,即当属性存在时D 取值为1;当属性不存在时D 取值为0。记为 ???=不具有该属性 具有某种属性01D

2、虚拟变量引入的规则。 (1)在模型里存在截距项的条件下,如果一个属性存在m 个相互排斥类型(非此即彼),则在模型里引入m-1个虚拟变量。否则,会出现完全的多重共线性。但要注意,在模型无截距项的情况下,如果一个属性存在m 个类型,即便引入m 个变量,不会出现多重共线性问题。( 请思考为什么?) (2)虚拟变量取值为0,意味着所对应的类型是基础类型。而虚拟变量取值为1,代表与基础类型相比较的类型,称为比较类型。例如“有学历”D 为1,“无学历”D 为0,则“无学历”就是基础类型,“有学历”为比较类型。 (3)当属性有m 个类型时,不能把虚拟变量的取值设成如下情况 D=0, 第一个类型; D=1, 第二个类型; …… D=m-1, 第m 个类型。 原因是上述情况没有反映出属性类型的相互排斥性。 第二节 虚拟解释变量的回归 一、加法引入规则 1、加法引入规则,虚拟解释变量与别的解释变量以相加的关系出现在模型里。加法引入虚拟变量对模型产生的结果是只改变截距项。 设模型为 123i i i i Y X D u βββ=+++ 式中,i D 为虚拟变量,它与其它解释变量是相加的关系。如果虚拟变量按这种方式引入模型,则称虚拟变量按加法类型引入。 2、加法引入虚拟变量的应用。 (1)模型中只有一个定性解释变量。 设模型形式为 12i i i Y D u ββ=++ n i ,,3,2,1 = 其中,i D 为具有两个属性类型的定性变量,如在教材第217页,设i Y 为居民的

第七章_虚拟变量

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 20 40 60 20 40 60X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

计量经济学,多重共线性异方差虚拟变量随机解释变量大作业

影响我国居民消费因素分析 班级: 组员: 一、提出问题: 1、原因: 居民消费水平是按国民收入或国内生产总值的使用总量中用于居民消费的总额除以年平均人口计算的,它反映一个国家或一个地区居民的一般消费水平。居民消费水平是GDP中一个重要组成部分,是拉动经济增长的三驾马车之一,在拉动经济增长的三架马车中,最终消费对经济影响的最大,是拉动经济增长最重要最稳定的因素。我国经济正逐渐由投资拉动型增长向消费拉动型增长转变,居民消费一直是经济学家关注的焦点和研究的热门领域。居民消费对经济的发展和社会的进歩有着重要的引导作用,居民消费的结构、质量和增长趋势如何,在很大程度上决定着经济、社会的发展情况。 要充分发挥消费对经济的拉动作用,关键问题是如何保证居民的消费水平。在人均国民生产总值为一千美元时,世界各国的居民消费率一般为60%左右。而我国的人均国民生产总值早已超过了一千美元,但2013年全国居民的消费率仅36%,严重低于正常水平。消费需求的偏低导致消费对经济增长的拉动作用也偏弱,因此提高居民消费率,增加居民消费对经济增长的贡献

度,是一项重要工作。 通过对历年我国居民消费水平的分析,我们可以对消费水平发展有一个清晰的画面,并且能透过数据的表象来分析更深层次的国家调控手段和战略使用。 2、研究立场:政策制定者 二、文献综述: 根据国外相关研究成果,主要有恩格尔的理论、绝对收入、相对收入、持久收入和生命周期消费理论等。Caballero (1990)指出,当期劳动收入发生变化表明未来的收入发生变化的可能性比较大,为维持未来消费的稳定性,需要进行预防性储蓄,从而会降低当期消费,使得长期的消费得到"平滑"。 国内研究得出的消费率的影响因素主要包括:居民收入占比,收入分配差距,不确定性,流动性约束和房价。齐吴珍认为居民消费的主要影响因素有:居民收入的增长率、收入分配差距、不确定性、流动性约束和房价等。 目前,多数学者通过建立消费与收入的模型或者消费分别与城乡居民收入建立模型进行分析,结果显示:1、收入是决定居民消费水平的主要因素,收入增加的快慢是影响居民消费需求变化的重要原因。 2、农村居民收入、财政支出水平、城市化水平、农村社会保障制度均对农村居民消费需求起正向作用,城乡居民收入差距起负向作用,农村内部收入分配差距与消费需求不存在显著相关关系。 3、收入的不确定性、以及出于预防动机,我国居民储蓄率高,在一定程度上影响

第8章 虚拟变量回归

计量经济学课程教案授课题目(教学章、节或主题): 第8章 虚拟变量回归 授课时间 安排 第16周共2课时教学器材与工具多媒体 授 课 类 型(请打√)理论课√讨论课□ 实验课□ 习题课□ 双语课程□ 其他□ 教学目的、要求(分掌握、熟悉、了解三个层次): 1、熟悉虚拟变量的含义; 2、掌握虚拟变量设置原则; 3、掌握虚拟变量回归引入方法; 4、了解虚拟被解释变量模型。 教学重点及难点: 虚拟变量回归引入方法与估计方法 教 学 基 本 内 容 §1 虚拟变量 §2 虚拟解释变量的回归 §3 虚拟被解释变量* §4 案例分析 教学过程设计: 一、引入 二、讲授 三、小结 教学方法及手段(请打√):讲授√、讨论□、多媒体讲解√、模型、实物讲解□、挂图讲解□、音像讲解□等。 作业、讨论题、思考题: 1、什么是虚拟变量?它在模型中有什么作用? 参考资料(含参考书、文献等):《计量经济学》,(美)D.Gujarati 著,林少宫译;《计量经济学》,李子奈编著;《经济计量学精要》,(美)D.Gujarati著,张寿等译。 课后小结:虚拟变量从本质上说是“数据分类器”,它根据样本的属性(性别、婚姻状况、种族、宗教等等)将样本分为各个不同的子群体并对

每个子群体进行回归分析。若模型包含多个定性变量,而且每个定性变量有多种分类,则引入模型的虚拟变量将消耗大量的自由度。因此,应当权衡进入模型的虚拟变量的个数以免超过样本观察值的个数。

第8章 虚拟变量回归 §8.1 虚拟变量 一、虚拟变量的基本含义 许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。 但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”, 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。 例如,反映文程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历 一般地,在虚拟变量的设置中: 基础类型、肯定类型取值为1; 比较类型,否定类型取值为0。 二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。 例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可: 则冷饮销售量的模型为: 在上述模型中,若再引入第四个虚拟变量:

计量经济学简答题

1.什么是计量经济学? 答: 计量经济学是以经济理论和经济数据的事实为依据,运用数学和统计学的方法,通过建立数学模型来研究经济数量关系和规律的一门经济学科。 2.什么是总体回归函数和样本回归函数?他们之间的区别是什么? 答:假如已知所研究的经济现象的总体的被解释变量Y和解释变量X的每个观测值有规律的变化(通常这是不可能的!),那么,可以计算出总体被解释变量Y的条件期望E(Y|Xi) 并将其表现为解释变量X的某种函数E(Y|Xi) =f(Xi) ,这个函数称为总体回归函数。 如果把被解释变量Y的样本条件均值表示为解释变量X的某种函数,这个函数称为样本回归函数。Y^i=β^1+β2Xi 区别:(1)总体回归线是未知,但它是确定的;样本回归线随抽样波动而变化,可以有许多条。 (2)总体回归函数的参数虽未知,但是确定的常数;样本回归函数的回归系数可估计,但是随抽样而变化的随机变量; (3)总体回归函数中的随机误差项ut 是不可直接观测的;而样本回归函数中的残差et 是只要估计出样本回归估计值就可以计算的数值。 3.对随机误差扰动项的假设? 答:(1)、随机误差项是一个期望值或平均值为0的随机变量; (2)、对于解释变量的所有观测值,随机误差项有相同的方差; (3)、随机误差项彼此不相关; (4)、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立; (5)、随机误差项服从正态分布。 4.ols估计量的统计性质与对模型的基本假定的关系是什么? 1.多元回归的基本假设是什么,与简单线性回归的基本假设有什么区别? 答:1:零均值假定2.同方差和无自相关假定3随机扰动项与解释变量不相关4.无多重共线性假定5.正态性假定 区别:多元的基本假设比简单的多了一个无多重共线性假定。 2.F检验,是检验什么的?t检验,检验什么? 答:T检验是对回归参数的检验。 F检验是对多元线性回归模型中所有解释变量之间的线性关系在整体上是否显著的检验。 3.可决系数的显著性是通过什么来检验的? 答:可决系数可以作为综合度量回归模型对样本观测值拟合优度的度量指标。可决系数的计算式: 回归平方和(ESS)在总变差(TSS)中所占的比重称为多重可决系数,介于0和1之间,越接近于1,拟合程度越好。可决系数可以作为综合度量回归模型对样本观测值拟合优度的度量指标。可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数小,说明模型对样本观测值的拟合程度越差。 4.TSS,ESS,RSS的自由度各是多少?TSS,ESS,RSS,自由度和与其对应的方差之间对应的关系是什么? 答:先定义一下:n为样本容量,K为为待估参数个数,也为解释变量+1(如果将常数项视作一个解释变量,也可以说是解释变量的总个数) (1)TSS的自由度为n-1,

计量经济学(单选)第二三章习题

二、单选题: 1.回归分析中定义的() A.解释变量和被解释变量都是随机变量 B.解释变量为非随机变量,被解释变量为随机变量 C.解释变量和被解释变量都为非随机变量 D.解释变量为随机变量,被解释变量为非随机变量 2.最小二乘准则是指使()达到最小值的原则确定样本回归方程。 A.()∑=-n t t t Y Y 1? B.∑=-n t t t Y Y 1 ? C.t t Y Y ?max - D.()2 1?∑=-n t t t Y Y 3.下图中“{”所指的距离是() A. 残差 C. i Y 的离差 D. i Y ?的离差 4.最大似然准则是从模型总体抽取该n 组样本观测值的()最大的准则 确定样本回归方程。 A.离差平方和 B.均值 C.概率 D.方差 5.参数估计量β?是i Y 的线性函数称为参数估计量具有( )的性质。 A.线性 B.无偏性 C.有效性 D.一致性 X 10??β+

6.参数β的估计量β?具备有效性是指() A.0)?(=βVar B.)?(βVar 为最小 C.0?=-ββ D.)?(ββ-为最小 7.要使模型能够得出参数估计量,所要求的最小样本容量为() A.n ≥k+1 B.n ≤k+1 C.n ≥30 D.n ≥3(k+1) 8.已知含有截距项的三元线性回归模型估计的残差平方和为8002=∑ t e ,估计用样本容量为24=n ,则随机误差项t u 的方差估计量为( )。 A.33.33 B.40 C.38.09 D.36.36 9.最常用的统计检验准则包括拟合优度检验、变量的显著性检验和()。 A.方程的显著性检验 B.多重共线性检验 C.异方差性检验 D.预测检验 10.反映由模型中解释变量所解释的那部分离差大小的是( )。 A.总体平方和 B.回归平方和 C.残差平方和 11.总体平方和TSS 、残差平方和RSS 与回归平方和ESS 三者的关系是()。 A.RSS=TSS+ESS B.TSS=RSS+ESS C.ESS=RSS-TSS D.ESS=TSS+RSS 12.下面哪一个必定是错误的()。 A. i i X Y 2.030?+= 8.0=XY r B. i i X Y 5.175?+-= 91.0=XY r C. i i X Y 1.25?-= 78.0=XY r D. i i X Y 5.312?--= 96.0-=XY r 13.产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为X Y 5.1356?-=,这说明()。 A.产量每增加一台,单位产品成本增加356元

计量经济学课件第八章 虚拟变量回归

计量经济学课件第八章虚拟变量回归 第八章虚拟变量回归 1 / 65

计量经济学课件第八章 虚拟变量回归 2 / 65 引子:男女大学生消费真有差异吗? 在对在校学生的消费行为进行的调查中,发现在校 生的消费行为呈现多元化的结构。人际交往消费、 手机类消费、衣着类消费、化妆品类消费、电脑类 消费、旅游类消费占有较大的比例;而食品类消费、 学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女 生的消费支出结构差异,应当如何建立模型? 面临的问题:如何把男女生这样的非数量变量引

计量经济学课件第八章 虚拟变量回归 3 / 65 问题的一般性描述 在实际建模中,一些定性变量具有不可忽视的重要 影响。例如,研究某个企业的销售水平,产业属性 (制造业、零售业)、所有制(私营、非私营)、 地理位置(东、中、西部)、管理者的素质、不同 的收入水平等是值得考虑的重要影响因素,但这些 因素共同的特征是定性描述的。 如何对非定量因素进行回归分析? 采用“虚拟变量”对定性变量进行量化一种思路。

计量经济学课件第八章 虚拟变量回归 4 / 65 第八章 虚拟变量回归 本章主要讨论: ●虚拟变量 ●虚拟解释变量的回归 ●虚拟被解释变量的回归(选讲,不包括)

计量经济学课件第八章 虚拟变量回归 5 / 65 第一节 虚拟变量 本节基本内容: ●基本概念 ●虚拟变量设置规则

计量经济学课件第八章 虚拟变量回归 6 / 65 一、基本概念 定量因素:可直接测度、数值性的因素。 定性因素:属性因素,表征某种属性存在与否的 非数值性的因素。 基本思想: 直接在回归模型中加入定性因素存在诸多的困难 (那些困难?),是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同作用 之目的。

相关文档 最新文档