5.2 面板数据模型理论 5.2.1 面板数据模型及类型。
面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity , unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。
面板数据用双下标变量表示。例如:
it
y , N i ,,2,1 =;T t ,,2,1 =
其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y
),,2,1(N i =是横截面上的
N 个随机变量;若固定i 不变,t y ?,),,2,1(T t =是纵剖面
上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。
面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为:
it it it it it x y μβα++= T j N i ,2,1;,2,1==
其中,it y 为被解释变量;it α表示截距项,),,,(21k
it it it
it x x x x =为k ?1维解释变量向量;'
21)
,,,(k it it it it ββββ =为1?k 维参数向量;i
表示不同的个体;t 表示不同的时间;it μ为
随机扰动项,满足经典计量经济模型的基本假设),0(~2
μσμIIDN it
。
面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。
⑴ 混合模型。
如果一个面板数据模型定义为:
it
it it x y μβα++= T j N i ,2,1;,2,1==
则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数α和β都是相同的
⑵ 固定效应模型。
固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model )、时间固定效应模型(time fixed effects regression model )和时间个体固定效应模型(time and entity fixed effects regression model )。
① 个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序
列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么模型就称为个体固定效应模型立,表示如下,
it it i it x y μβα++= T j N i ,2,1;,2,1==
式中,y it 为被解释变量, ),,,(21k
it it it
it x x x x =为k ?1维解释变量向量,i α是随机变量,表示对于i 个个体有i 个不同的截距项,且其变化与),,,(21k
it it it
it x x x x =有关;),,,(21k ββββ =为1?k 维回归系数向量,对不同的个体回归系数相同,it μ为随机
误差项,则称此模型为个体固定效应模型。
个体固定效应模型也可以表示为
y it = γ1 D 1 + γ2 D 2 + … +γN D N +β x it +it μ t = 1, 2, …, T 其中
??
?==其他
个个体如果属于第。
,,
0,...,2,1,1N i D i i
② 时间固定效应模型。
如果一个面板数据模型定义为:
it it t it x y μβα++= T j N i ,2,1;,2,1==
式中,t α是随机变量,表示对于T 个截面有T 个不同的截距项,且其变化与
),,,(2
1
k
it it it it x x x x =有关;对不同的个体回归系数相同,it
μ为随机误差项,则称此模
型为时间固定效应模型。时间固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型。时间固定效应模型也可以表示如下
y it = α1 D 1 + α2 D 2 + … +αT D T +β1 x it +εit , i = 1, 2, …, N 其中
??
?==)
(,
0, (2)
1个截面不属于第其他个截面如果属于第。
,t t T t D i
③ 个体时间固定效应模型。 如果一个面板数据模型定义为
it
it t i it x y μβγα+++= T j N i ,2,1;,2,1== 式中,i α是随机变量,表示对于
N
个个体有
N
个不同的截距项,且其变化与
),,,(2
1
k
it it it it x x x x =有关;t
γ是随机变量,表示对于T 个截面有T 个不同的截距项,且其
变化与),,,(21k
it it it it x x x x =有关;对不同的个体回归系数相同,it μ为随机误差项,则称
此模型为个体时间固定效应模型。 ⑶ 随机效应模型
对于面板数据模型
it it i it x y μβα++= T j N i ,2,1;,2,1==
如果y it 为被解释变量,it x 为k ?1维解释变量向量,β为1?k 维回归系数向量,对不同的
个体回归系数相同,t α是随机变量,其分布与it x 无关;it μ为随机误差项,则称此模型
为个体随机效应模型。
同理也可以定义时间随机效应模型和个体时间随机效用模型。
5.2.2 面板数据模型估计方法
面板数据模型中β的估计量既不同于截面数据估计量,也不同于时间序列估计量,其性质随模型类型的设定是否正确,是否采用了相应正确的估计方法而变化。面板数据模型中的解释变量it X 可以是时变的,也可以是非时变的。
⑴ 混合最小二乘估计
混合最小二乘估计方法是在时间上和截面上把N T 个观测值混合在一起,然后用最小二乘法估计模型参数。给定混合模型
it it i it x y μβα++=,1,2,,;1,2,,i N t T ==
如果模型是正确设定的,且解释变量与误差项不相关,即(,)0it it C ov X u =。那么无论是N →∞,还是T →∞,模型参数的混合最小二乘法估计量都具有一致性。
对混合模型通常采用的是混合最小二乘估计。
然而,对于经济面板数据,即使在随机误差项it u 服从独立同分布条件下,由最小二乘法得到的方差协方差矩阵通常也不会满足假定条件。因为对于每个个体i 及误差项it u 来说通常是序列相关的。N T 个自相关观测值要比N T 个相互独立的观测值包含的信息少。从而导致随机误差项it u 的标准差常常被低估,估计量的精度被虚假夸大。如果模型存在个体固定效应模型,即i α与it X 相关,那么对模型应用混合最小二乘估计方法,估计量不再具有一致性。
⑵ 平均数最小二乘估计法
平均数最小二乘(between OLS )估计法的步骤是首先对面板数据中的每个个体求平均数,共得到N 个平均数估计值。然后利用it y 和it X 的这N 组观测值估计回归参数。以个体固定效应模型
'
i t i
i t i t
y X u αβ=++ 为例,首先对面板中的每个个体求平均数。令
1
1
,1,2,,T
i it t y T
y i N
-===∑
1
1,1,2,,T
i it
t u T
u
i N
-===∑
1
1
,1,2,
,T
i i t t X T X i N -===∑
,(i X 是1k ?阶列向量)
从而建立模型
',1,2,,i i i i y X u i N αβ=++=
变换上式得
'(),1,2,,i i i i y X u i N αβαα=++-+=
上式称做平均数模型。对上式应用最小二乘估计,则参数估计量称做平均数最小二乘估计量。此条件下的样本容量为N 。
如果i X 与()i i u αα-+相互独立,α和β的平均数最小二乘估计量是一致估计量。平均数最小二乘估计法适用于短期面板的混合模型和个体随机效应模型。对于个体固定效应模型来说,由于i α和it X 相关,也就是说i α和i X 相关,所以,回归参数的平均数最小二乘估计量是非一致估计量。
⑶ 离差变换最小二乘估计量
对于短期面板数据,离差变换最小二乘(within OLS )估计法的原理是先把面板数据中每个个体的观测值变换为对其平均数的离着观测值,然后利用离差变换数据估计模型参数。以个体固定效应模型为例,
'
it i it it
y X u αβ=++
具体步骤是先对每个个体计算平均数yi 、i X ,可得到如下模型,
'i i i
i y X u αβ=++ 其中yi 、i X 、i u 为每个个体的平均。上两式相减,消去了i α,得
'
()()
it i it i it i y y X X u u β-=-+-
此模型称做离差变换数据模型。对离差变换数据模型应用最小二乘估计,
11
'
11
()()
?()()
N
T
it
i it i i t N T
it i it i i t X
X y y X X X X β
====--=--∑∑∑∑
所得?β称做离差变换最小二乘估计量。对于个体固定效应模型,β的离差变换最小二乘估计量是一致估计量。如果it u 还满足独立同分布条件,β的离差变换最小二乘估计量不但具有一致性而且还具有有效性。
⑷ 可行广义最小二乘估计法(随机效应估计法) 有个体随机效应模型
'0()it it i it y X u αβα=-++
其中0α为常数。i α,it u 服从独立同分布。对其做以下变换
'0???(1)()it i it i it
y y X X v λλαλβ-=-+-+ 其中0??(1)()it it i
v u u λαλ=-+-渐近服从独立同分布,22/1ασσσλT u u +-=。i y 、i X 、i u 的定义式见(15-14)。对式(15-17)应用最小二乘估计,则所得β
的估计量称为可行
广义最小二乘估计量或随机效应估计量。当?0λ
=时,式(15-17)等同于混合最小二乘估计;当?1λ
=时,式(15-17)等同于离差变换最小二乘估计。 对于随机效应模型,可行广义最小二乘估计量不但是一致估计量,而且是有效估计量,但对于个体固定效应模型,可行广义最小二乘估计量不是一致估计量。
在实际的经济面板数据中,N 个个体之间相互独立的假定通常是成立的,但是每个个体本身却常常是序列自相关的,且存在异方差。为了得到正确的统计推断,需要克服这两个因素。
5.2.3 面板数据模型的检验
面板数据模型的检验是检验对于给定的面板数据应该建立何种类型的面板数据模型,包括混合模型、固定效应模型和随机效应模型。面板数据模型的检验有两种检验,F 检验和Hausman 检验。F 检验用于检验应该建立混合模型还是应该建立个体效应模型。Hausman 检验用于检验应该建立随机效应模型还是固定效应模型。
⑴ F 检验
F 检验用于检验应该建立混合模型还是应该建立个体效应模型。面板数据模型的一项重要任务就是判别模型中的是否存在给固定效应。
① 个体固定效应模型的检验
相对于混合模型来说,是否有必要建立个体固定效应模型可以通过F 检验来完成。F 检验的假设为:
原假设H 0:不同个体的模型截距项相同(建立混合估计模型)。 备择假设H 1:不同个体的模型截距项不同(建立个体固定效应模型)。 在假设成立的情况下F 统计量定义为: F =
)
1/()]
1()2/[()(-------N NT SSE N NT NT SSE SSE u u r =
)
1/()1/()(----N NT SSE N SSE SSE u u r
其中SSE r 表示估计的混合模型的残差平方和,SSE u 表示估计的个体固定效应模型的残差平方和。N 表示个体单位数量,T 表示时间的个数,当模型中含有k 个解释变量时,F 统计量的分母自由度是NT -N -k 。F 统计量定义为:
)
1/()1/()(----=
N NT SSE
N SSE SSE
F u
u r
② 时间固定效应模型的检验
相对于混合估计模型来说,是否有必要建立时间固定效应模型可以通过F 检验来完成。F 检验的假设为:
H 0:对于不同横截面模型截距项相同(建立混合估计模型)。 H 1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。 在假设成立的情况下F 统计量定义为: F =
)
1/()]
1()2/[()(-------T NT SSE
T NT NT SSE SSE
u
u r
=
)
1/()1/()(----T NT SSE T SSE SSE u u r
其中SSE r ,SSE u 分别表示约束模型(混合估计模型的)和非约束模型(时刻固定效应模型的)的残差平方和。非约束模型比约束模型多了T -1个被估参数。当模型中含有k 个解释变量时,F 统计量的分母自由度是NT -T - k 。
③ 时间个体固定效应模型检验。
相对于混合估计模型来说,是否有必要建立时刻个体固定效应模型可以通过F 检验来完成。
H 0:对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。 H 1:不同横截面,不同序列,模型截距项各不相同(建立时刻个体固定效应模型)。 在假设成立的情况下F 统计量定义为:
F =
)
/()]
()2/[()(T N NT SSE T N NT NT SSE SSE u u r -------=
)
/()
2/()(T N NT SSE T N SSE SSE u u r ---+-
其中SSE r ,SSE u 分别表示约束模型(混合估计模型的)和非约束模型(时间个体固定效应模型的)的残差平方和。非约束模型比约束模型多了N +T 个被估参数。当模型中含有k 个解释变量时,F 统计量的分母自由度是NT -N -T - k -1。
④ 变系数固定效应模型检验
相对于时间固定效应模型而言,变系数模型检验的基本假设为
H 0:对于不同横截面,模型截距项不相同、回归系数都相同。
(建立固定效应模型)。
H 1:对于不同横截面,模型截距项不相同、回归系数不同。
(建立变系数固定效应模型)。
在假设成立的情况下,F 统计量定义为
)]1(,)1[(~)]
1([]
)1[()(2-------=
k T N k N F k T N SSE k N SSE
SSE
F u
u
r
其中SSE r ,SSE u 分别表示固定效应估计模型和变系数固定效应模型的残差平方和。
⑵ Hausman 检验
对一个参数的两种估计量差异的显著性检验称做H (Hausman )检验。H 检验由豪斯曼(Hausman )1978年提出,是在杜宾(Durbin ,1914年提出)和吴(Wu ,1973年提出)基础上发展起来的。所以H 检验也称做吴-杜宾检验和杜宾-吴-豪斯曼检验。
① H 检验原理。
比如在检验单一方程中某个解释变量的内生性问题时得到相应回归参数的两个估计量,一个是最小二乘估计量、一个是2SLS 估计量。其中2SLS 估计量用来克服解释变量可能存在的内生性。如果模型的解释变量中不存在内生性变量,那么最小二乘估计量和2SLS 估计量都具有一致性,都有相同的概率极限分布。如果模型的解释变量中存在内生性变量,那么回归参数的最小二乘估计量是不一致的而2SLS 估计量仍具有一致性,两个估计量将有不同的概率极限分布。
更一般地,假定用两种方法得到m 个回归系数的两组估计量?θ和θ (都是1m ?阶的),则H 检验的零假设和备择假设是:
H 0:plim ?()0θθ-=
H 1:plim ?()0θθ-≠
假定相应两个估计量的差作为一个统计量也具有一致性,在H 0成立的条件下,统计量
?
)(0,d
H N V θθ-→ )
其中H V 是?)θθ- 的极限分布方差协方差矩阵。则H 统计量定义为:
112
???()()()()H
H N V m θθθθχ--'=--→ 其中1?()H N V -是?()θθ- 的估计的方差协方差矩阵。在H 0成立条件下,H 统计量渐近服从2()m χ分布。其中k 表示零假设中约束条件个数。
H 检验原理很简单,但实际中得到H V 的一致估计量?H V 却并不容易。一般来说,
1????()()()2(,)H
N V Var Var Var Cov θθθθθθ-=-=+- 其中?()Var θ,()Var θ 在一般软件计算中都能给出。但?(,)C ov θθ 不能给出,致使H 统计量1?()H N V -在实际中无法使用。
实验中也常进行如下检验。
H 0:模型中所有解释变量都是外生的 H 1:模型中某些解释变量是内生的
在原假设成立条件下,解释变量参数的最小二乘估计量?θ是有效估计量。则有
??(,)()C o v V a r θθ
θ= 。于是式(15-20)变为 1????
()()2(,)()()H
N V Var Var Cov Var Var θθθθθθ-=+-=- (15-21) 把式(15-21)结果代入式(15-19),得
'1
???()(()())()H Var Var θθθθθθ-=---
(15-22)
其中()Var θ 和?()Var θ分别是对()Var θ 和?()Var θ的估计。与式(15-20)比较,这个结果只要求计算()Var θ 和?()Var θ,H 统计量(15-22)具有实用性。原假设成立条件下,式(15-22)定义的H 统计量渐近服从2()m χ分布。
当θ为标题,只表示一个参数时,式(15-22)定义的H 统计量退化为标量,
2
22
2
?()(1)?H s
s θθχ-=
-
(15-23)
其中2?s 和2s 分别表示θ 和?θ的样本方差。 H
检验用途很广。可用来做模型丢失变量的检验、变量内生性检验、模型形式设定
检验、模型嵌套检验、建模顺序检验等。
② 面板数据中利用H 统计量确定模型形式的检验。
假定面板数据模型的误差项满足通常的假定条件,如果真实的模型是随机效应模型,那么β的离差变换最小二乘估计量?W β和可行广义最小二乘法估计量R E β 都具有一致性。如果真实的模型是个体固定效应模型,则参数β的离差变换最小二乘法估计量?W β是一致估计量,但可行广义最小二乘估计量R E β 是非一致估计量。那么,当对一个面板数据模型同时进行离差变换最小二乘估计和可行广义最小二乘估计时,如果回归系数的两种估计结果差别小,说明应该建立随机效应模型;如果回归系数的两种估计结果差别大,说明应该建立个体固定效应模型。可以通过H 统计量检验(?RE W ββ- )的非零显著性,检验面板数据模型中是否存在个体固定效应。H 检验原理见表15-3。
表15-3 两类不同模型两类估计量性质比较
离差变换最小 可行广义最小 估计量之差
个体随机效应模型 估计量W β具有一致性
估计量R E
β具有一致性 小 个体固定效应模型 估计量?W β具有一致性 估计量R E
β 不具有一致性 大
面板数据模型中豪斯曼检验的步骤是: 原假设与备择假设是
H 0:个体效应i α与解释变量it X 无关(个体随机效应模型)
H 1:个体效应i α与解释变量it X 相关(个体固定效应模型)
由样本计算豪斯曼值,根据显著性水平查卡方临界值表得临界值)(2m αχ,其中α表示检验水平,m 表示被检验的回归参数个数。
差别规则是
若用样本计算的2()H m αχ≤,则接受原假设,应该建立个体随机效应模型 若用样本计算的)(2m H αχ>,则拒绝原假设,应该建立个体固定效应模型
MATLAB空间面板数据模型操作简介 MATLAB安装:在民主湖资源站上下载MA TLAB 2009a,或者2010a,按照其中的安装说明安装MATLAB。(MATLAB较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局: 首先我们说一下MA TLAB处理空间面板数据时,数据文件是怎么布局的,熟悉eviews的同学可能知道,eviews中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中“1-94”“1-95”“1-96”“1-97”中,1是省份的代号,94,95,96,97表示年份,eviews是将每个省份的数据放在一起,再将所有省份堆放在一起。 与eviews不同,MATLAB处理空间面板数据时,面板数据的布局是(在excel中说明):先排放一个横截面上的数据(即某年所有省份的数据),再将不同年份的横截面按时间顺序堆放在一起。如图:
这里需要说明的是,MA TLAB中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。 二、数据的输入: MATLAB与excel链接:在excel中点击“工具→加载宏→浏览”,找到MA TLAB的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为:C:\Programfiles\MATLAB\R2009a\toolbox\exlink,点击excllink.xla即可完成excel与MATLAB的链接。这样的话excel中的数据就可以直接导入MATLAB中形成MATLAB的数据文件。操作完成后excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB”即表示我们希望excel 与MATLAB实现链
基于面板数据模型及其固定效应的模型分析 在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。 面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。 然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。 然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而 不是截距项。我们试图从面板数据的横截面维度和时间序列维度的样本相关异质性角
第十讲经典面板数据模型 一、面板数据(panel data) 一维数据: 时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。 二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。 面板数据=截面数据+时间序列数据。
面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 平衡面板数据(balanced panel data)。 非平衡面板数据(unbalanced panel data)。 例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。
表1.中国部分省级地区的居民数据(不变价格,元)
二、面板数据模型及其作用 1.经典面板数据模型 建立在古典假定基础上的线性面板数据模型. 2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型) (2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型) (3)其他模型(如面板数据分位数回归模型) 3.面板数据模型作用 (1)描述个体行为差异。
5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 ;T t ,,2,1 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i 是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t 是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为: it it it it it x y T j N i ,2,1;,2,1 其中,it y 为被解释变量;it 表示截距项,),,,(21k it it it it x x x x 为k 1维解释变量向量;' 21),,,(k it it it it 为1 k 维参数向量;i 表示不同的个体;t 表示不同的时间;it 为 随机扰动项,满足经典计量经济模型的基本假设),0(~2 IIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y T j N i ,2,1;,2,1 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数 和 都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model )、时间固定效应模型(time fixed effects regression model )和时间个体固定效应模型(time and entity fixed effects regression model )。 ① 个体固定效应模型。 个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序
MATLAB 空间面板数据模型操作简介 MATLAB 安装: 在民主湖资源站上下载 MA TLAB 2009a ,或者 2010a ,按照其中的安装说明 安装 MATLAB 。( MATLAB 较大,占用内存较大,安装的话可能也要花费一定的时间) 一、数据布局 首先我们说一下 MA TLAB 处理空间面板数据时,数据文件是怎么布局的,熟悉 eviews 的同学 可能知道, eviews 中面板数据布局是:一个省份所有年份的数据作为一个单元(纵截面:一个时间 序列),然后再排放另一个省份所有年份的数据,依次将所有省份的数据排放完,如下图,红框中 “1-94”“1-95” “1-96” “ 1-97”中, 1是省份的代号, 94,95,96,97 表示年份, eviews 是将每个省 份的数据放在一起,再将所有省份堆放在一起。 与 eviews 不同, MATLAB 处理空间面板数据时,面板数据的布局是(在 excel 中说明): 先排 放一个横截面上的数据(即某年所有省份的数据) ,再将不同年份的横截面按时间顺序堆放在一起。 如图:
这里需要说明的是, MA TLAB 中省份的序号需要与空间权重矩阵中省份一一对应,我们一般就采用《中国统计年鉴》分地区数据中省份的排列顺序。(二阶空间权重矩阵我会在附件中给出)。二、数据的输入: MATLAB 与 excel链接:在 excel中点击“工具→加载宏→浏览” ,找到 MA TLAB 的安装目录,一般来说,如果安装时没有修改安装路径,此安装目录为: C:\Programfiles\MATLAB\R2009a\toolbox\exlink ,点击 excllink.xla 即可完成 excel 与 MATLAB 的链接。这样的话 excel 中的数据就可以直接导入 MATLAB 中形成 MATLAB 的数据文件。操作完成后 excel 的加载宏界面如图: 选中“Spreadsheet Link EX3.0.3 for use with MATLAB ”即表示我们希望 excel 与
5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 =;T t ,,2,1 = 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i =是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t =是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模 型。面板数据模型的解析表达式为: it it it it it x y μβα++= T j N i ,2,1;,2,1== 其中,it y 为被解释变量;it α表示截距项,),,,(21k it it it it x x x x =为k ?1维解释变量向量;'21),,,(k it it it it ββββ =为1?k 维参数向量;i 表示不同的个体;t 表示不同的时间;it μ为 随机扰动项,满足经典计量经济模型的基本假设),0(~2μσμIIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y μβα++= T j N i ,2,1;,2,1== 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数α和β都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression
空间面板数据分析——R的splm包 (任建辉,暨南大学) The splm package provides methods for fitting spatial panel data by maximum likelihood and GM. 安装R软件及其编辑器Rstudio 网址:https://www.wendangku.net/doc/f28301844.html, https://www.wendangku.net/doc/f28301844.html,/ 下载好Rstudio以后,操作都可以Rstudio中完成了,包括命令的编写、命令运行、图形展示,最方便的要数查看数据了。 R界面 Rstudio界面,形如matlab
下面进入正题,了解splm包中的数据、命令及结果展示。所有命令都写在编辑窗口(studio 左上区域),可以单独的运行每行命令,也可选取一段一起执行,点run按钮。 1、首先,安装splm包并导入,命令如下: intall.packages(“splm”),选择最近的下载点 library(splm) > library(splm) 载入需要的程辑包:MASS 载入需要的程辑包:nlme 载入需要的程辑包:spdep 载入需要的程辑包:sp 载入需要的程辑包:Matrix 载入需要的程辑包:plm 载入需要的程辑包:bdsmatrix 载入程辑包:‘bdsmatrix’ 下列对象被屏蔽了from ‘package:base’: backsolve 载入需要的程辑包:Formula 载入需要的程辑包:sandwich 载入需要的程辑包:zoo 载入程辑包:‘zoo’ 下列对象被屏蔽了from ‘package:base’: as.Date, as.Date.numeric 载入需要的程辑包:spam 载入需要的程辑包:grid Spam version 0.40-0 (2013-09-11) is loaded. Type 'help( Spam)' or 'demo( spam)' for a short introduction and overview of this package. Help for individual functions is also obtained by adding the suffix '.spam' to the function name, e.g. 'help( chol.spam)'. 载入程辑包:‘spam’ 下列对象被屏蔽了from ‘package:bdsmatrix’:
第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差
空间面板数据分析——R的s p l m包 (任建辉,暨南大学) The splm package provides methods for fitting spatial panel data by maximum likelihood and GM. 安装R软件及其编辑器Rstudio 网址:https://www.wendangku.net/doc/f28301844.html, 下载好Rstudio以后,操作都可以Rstudio中完成了,包括命令的编写、命令运行、图形展示,最方便的要数查看数据了。 R界面 Rstudio界面,形如matlab 下面进入正题,了解splm包中的数据、命令及结果展示。所有命令都写在编辑窗口(studio左上区域),可以单独的运行每行命令,也可选取一段一起执行,点run按钮。 1、首先,安装splm包并导入,命令如下: intall.packages(“splm”),选择最近的下载点 library(splm) > library(splm) 载入需要的程辑包:MASS 载入需要的程辑包:nlme 载入需要的程辑包:spdep 载入需要的程辑包:sp 载入需要的程辑包:Matrix 载入需要的程辑包:plm 载入需要的程辑包:bdsmatrix 载入程辑包:‘bdsmatrix’ 下列对象被屏蔽了from ‘package:base’: backsolve
载入需要的程辑包:Formula 载入需要的程辑包:sandwich 载入需要的程辑包:zoo 载入程辑包:‘zoo’ 下列对象被屏蔽了from ‘package:base’: 载入需要的程辑包:spam 载入需要的程辑包:grid Spam version 0.40-0 (2013-09-11) is loaded. Type 'help( Spam)' or 'demo( spam)' for a short introduction and overview of this package. Help for individual functions is also obtained by adding the suffix '.spam' to the function name, e.g. 'help( chol.spam)'. 载入程辑包:‘spam’ 下列对象被屏蔽了from ‘package:bdsmatrix’: backsolve 下列对象被屏蔽了from ‘package:base’: backsolve, forwardsolve 载入需要的程辑包:ibdreg 载入需要的程辑包:car 载入需要的程辑包:lmtest 载入需要的程辑包:Ecdat 载入程辑包:‘Ecdat’ 下列对象被屏蔽了from ‘package:car’: Mroz 下列对象被屏蔽了from ‘package:nlme’: Gasoline 下列对象被屏蔽了from ‘package:MASS’: SP500 下列对象被屏蔽了from ‘package:datasets’: Orange 载入需要的程辑包:maxLik 载入需要的程辑包:miscTools Please cite the 'maxLik' package as: Henningsen, Arne and Toomet, Ott (2011). maxLik: A package for maximum likelihood es timation in R. Computational Statistics 26(3), 443-458. DOI 10.1007/s00180-010-0217 -1. If you have questions, suggestions, or comments regarding the 'maxLik' package, plea se use a forum or 'tracker' at maxLik's R-Forge site: Warning message: 程辑包‘Matrix’是用R版本3.0.3 来建造的 注意:在导入splm时,如果发现还有其他配套的包没有安装,需要先安装。 2、接着,查看数据及结构,命令如下:
1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑=1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑=1 ,又叫混合回归模型,是指无论从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑=1 *,*α为每个个体方程共同的截距项,i α是不同个体之间的异质性差异。对于不同个体或时期而 言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑=1 * ,对于不同个体或时期而言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表 明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤
面板数据模型
精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 一、我对几种面板数据模型的理解 1 混合效应模型 pooled model 就是所有的省份,都是相同,即同一个方程 ,截距项和斜率项都相同 y it =c+bx it +?it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型 fixed-effect model y it =a i +bx it +?it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已 的常数项 2.2 随机效应模型 random-effects model y it =a+u i +bx it +?it cov(a+u i ,x it )=0 A 是一个常数项,是不可观察差异性的均值,u i 为第i 个观察的随机差 异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +?it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一
空间面板数据计量经济分析 空间面板数据计量经济分析 *以上分别介绍了区域创新过程中空间效应(依赖性和异质性)的空间计量检测,以及纳入空间效应的计量模型的估计方法——空间常系数回归模型(空间滞后模型,SLM 和空间误差模型,SEM )和空间变系数回归模型(地理加权回归模型,GWR );同时还介绍和分析了面板数据(Panel Data )计量经济学方法的估计和检验。 *可以看出,目前的空间计量经济学模型使用的数据集主要是截面数据,只考虑了空间单元之间的相关性,而忽略具有时空演变特征的时间尺度之间的相关性,这显然是一个美中不足。 *Anselin (1988)也认识到这一点。当然,大多学者通过将多个时期截面数据变量计算多年平均值的办法来综合消除时间波动的影响和干扰,但是这种做法仍然造成大量具有时间演变特征的创新行为信息的损失,从而无法科学和客观地认识和揭示具有时空二维特征的研发与创新过程的真实机制。*面板数据(Panel Data )计量经济模型作为目前一种前沿的计量经济估计技术,由于其可以综合创新行为变量时间尺度的信息和截面(地域空间)单元的信息,同时集成考虑了时间相关性和空间(截面)相关性,因而能够科学而客观地反映受到时空交互相关性作用的创新行为的特征和规律,是定量揭示研发、知识溢出与区域创新相互作用关系的有效方法。但是,限于在所有时刻对所有个体(空间)均相等的假定(即不考虑空间效应),面板数据计量经济学理论也有其美中不足之处,具有很大的改进余地。 *鉴于空间计量经济学理论方法和面板数据计量经济学理论方法各有所长,把面板数据模型的优点和空间计量经济学模型的特点有机结合起来,构建一个综合考虑了变量时空二维特征和信息的空间面板数据计量经济模型,则是一种新颖的研究思路。以下根据空间计量经济模型和标准的面板数据模型[1]的建模思路,提出空间面板数据(Spatial Panel Data Model ,SPDM )模型的建模思路和过程。 [1]与动态面板数据模型的建模思路类似,只要施加一些假定,引入因变量的滞后项,则为空间动态面板数据模型。 空间滞后面板数据计量分析 *考虑一个标准的面板数据模型: it it it it it y αx βμ=++*如果将变量的真实的区域空间自相关性(依赖性)(Anselin &Florax ,1995)考虑到创新行为中来,这种创新行为的空间自相关性可以视为区域创新过程中的一种外部溢出形式,这样则可以设定如下模型: it it it it it it y αWy x βμρ=+++*上式为空间滞后面板数据(Spatial Lag Panel Data Model ,SLPDM )计量经济模型。其中,是创新的空间滞后变量,主要度量在地理空间上邻近地区的外部知识溢出,是一个区域在地理上邻近的区域在时期创新行为变量的加权求和。 空间误差面板数据计量分析 *如果在创新行为的空间依赖性存在误差扰动项中来测度邻近地区创新因变量的误差冲击对本地区创新行为的影响程度,则可以通过空间误差模型的空间依赖性原理可得: it it it it it y αx βμ=++it it it W μλμε=+*上式即为空间误差面板数据(Spatial Error Panel Data Model ,SEPDM )计量经济模型。其中,参数衡量了样本观察值的误差项引进的一个区域间溢出成分。 *因为已经在面板数据模型中考虑了创新行为变量的空间依赖性,因此采用一般面板数据模型的估计技术如OLS 或GLS 等将具有良好的估计效果。如果能够综合考虑面板数据模型中的一些假定,如时间加权(Period Weights )或截面加权(Cross-section Weights ),则可获得更加符合创新现实的估计结果。
面板数据模型 1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。 例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。 人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散
第17章 动态面板数据模型 17.1 动态面板数据模型 前一章讨论具有固定效应和随机效应的线性静态面板数据模型,但由于经济个体行为的连续性、惯性和偏好等影响,经济行为是一个动态变化过程,这时需要用动态模型来研究经济关系。本章主要讨论动态面板数据模型的一般原理和估计方法,然后介绍了面板数据的单位根检验、协整分析和格朗杰因果检验的相关原理及操作。 17.1.1动态面板模型原理 17.1.2)时,第一3不相关。可以形成预先的工具变量: 12122000000i i i i i iT Y Y Y Y Y -?????????? 每一个预先决定的变量的相似的工具变量便可以形成了。假设it ε不存在自回归,不同设定的最优的GMM 加权矩阵为: 1 1'1M d i i i H M Z Z --=??=Ξ ??? ∑ (17.1.4) 其中Ξ 是矩阵,221000120001200 02100012σ-????-? ???Ξ=??-????-??
i Z 包含严格外生变量和预先决定的变量的混合。该加权矩阵用于one-step Arellano-Bond 估计。 给定了one-step 估计的残差后,我们就可以用估计计算的White 时期协方差矩阵来代替加权矩阵H d : 1 1''1M i i i i i H M Z Z εε--=??=?? ??? ∑ (17.1.5) 该加权矩阵就是在Arellano-Bond 两步估计中用到的矩阵。 我们可以选择两者中一个方法来改变最初的方程,以消除对总体偏离而计算的个体效应(Arellano 和Bover ,1995)。详情见后面的GMM 估计,用正交偏离而转换残差有个特点就是转换设定的第一阶段最优加权矩阵是简单的2SLS 加权矩阵。 GMM 这里通过下面式子进行估计: '''(()())(()())i i i i i i E g g E Z Z ββεβεβ= () 而'1()()M i i i G Z f ββ=??=-? ??? ∑ 在简单的线性模型中'(,)it it f X X ββ=,我们可以得到系数的估计值为:
第16章静态面板数据模型时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。 面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 对于面板数据y it(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:
16.1面板数据模型建模的基本原理 在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS 估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。 由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收政策等领域。 16.1.1面板数据模型基本框架 面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型: 1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++==L L (16.1.1) 其中:it y 是个体i 在时间t 时期的观测值,α表示模型的常数项,i δ代表固定或者随机的截面效应,t γ代表固定或者随机的时期效应,it x 表示k 阶解释变量观测值向量。β表示解释变量的系数向量,并且在根据其条件的限制分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。it ε是独立同分布的误差项,即()0it E ε=。 在公式(16.1.1)中,如果考虑k 个解释变量,自由度NT 远小于参数个数,对于截面成员方程,待估计参数的个数为((1))NT k N ++,对于时间截面方程,待估计参数的个数为((1))NT k T ++,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N 个个体成员方程的面板数据模型;在时间点上截面,建立含有T 个时间点截面方程的面板数据模型。 1)含有N 个个体成员方程的面板数据模型 模型形式如下: i T i it i T T i y l x l I αβδγε=++++ (16.1.2) 其中:i y 是个体i 的观观测值的时间序列。系数向量β取值受不同个体的影响,i x 表示个体i 解释变量观测值时间序列。T l 是T 阶的单位行向量,T I 是T 阶的单位列向量。 '12()T γγγγ=L ,,,,包括所有的时点效应。该式含有N 个截面方程。
第十三章 面板数据的处理 一、面板数据的定义、意义和种类 面板数据是调查经历一段时间的同样的横截面数据,具有空间和时间的两种特性。它 还有其他一些名称,诸如混合数据,纵列数据,平行数据等,这些名字都包含了横截面单元在一段时期的活动。 面板数据的优点在于:1.提供了更有价值的数据,变量之间增加了多变性和减少了共线性,并且提高了自由度和有效性。2.能够更好地检测和度量单纯使用横截面数据或时间序列数据无法观测到的影响。3.能够对更复杂的行为模型进行研究。 形如 01122it it it it Y X X u βββ=+++ 其中,i 表示第i 个横截面单元,t 表示第t 年。一般,我们用i 来表示横截面标识符,用t 表示时间标识符。假设N 个横截面单元的观测次数相同,我们称之为平衡面板,反之,称为非平衡面板。一般假设X 是非随机的,误差项遵从经典假设。 二、面板数据回归模型的类型与估计方法 (一)面板数据回归模型的类型 对于面板数据模型 i t i i t i Y X u αβ=++,可能的情形主要有如下几种。 1. 所有系数都不随时间和个体而变化 在横截面上无个体影响、无结构变化,即i j αα=,i j ββ=。则普通最小二乘估计给出了和的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。it it it Y X u αβ=++。 2.变截距模型 在横截面上个体影响不同,个体影响表现为在模型中被忽略的反映个体差异的影响,又分为固定效应和随机效应两种。it i it it Y X u αβ=++ 3.变系数模型 除了存在个体影响之外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面单位是不同的。i j αα≠,i j ββ≠。it i it i it Y X u αβ=++。 看到面板数据之后,如何确定属于哪一种类型呢?用F 检验 假设1:斜率在不同的横截面样本点上和时间上都相同,但截距不相同,即情形2。 假设2:截距和斜率在不同的横截面样本点和时间上都相同,即情形1。
空间面板模型 1.1 空间面板模型 我们生活在时间和空间中,每个事件都在一定的时间和地点发生,因而可以标度出时间和空间坐标,这样的数据可以称为空间面板数据,它是指一定空间单元的时间序列观测。在研究实际问题时,空间面板数据本身具有更大自由度、更丰富的信息量、更多的变异。空间面板模型(Spatial Panel Model )是针对空间面板数据分析而提出的模型。相对于一般的回归模型及空间回归模型,它能够提参数高估计的有效性。空间模型在寻求科学解释方面有着重要的作用。通过空间面板模型,可以更好地结合研究对象的时空分布特征,发现其影响因素及规律。 空间面板模型可分为两类:空间滞后模型和空间误差模型。 (1)空间滞后模型(Spatial Lag Model) 空间滞后模型的基础形式为 1N 'it ij jt it i it j y W y X δβμε==+++∑(6.2) 其中, δ:空间自相关系数,表示空间个体之间的相互作用 W :空间权重矩阵,含义与第七章所述的空间权重矩阵相同 123i ,,,N =…,:横截面上的个体(某一区域、范围等),共有N 个 123t ,,,T =…,:表示时间序列上的时点(某一时刻),共有T 个 it y :在区域i 、时刻t 上的被解释变量 it X :在区域i 、时刻t 上的解释变量 i μ:空间的个体的效应,反映不受时间影响的空间特质。 β:回归系数 it ε:与时间和空间都有关系的随机误差项,其均值为0,方差为2σ,独立 同分布。
空间滞后模型主要在传统面板模型的基础上考虑了空间上的自相关,可以度量不同空间个体的相互影响。 (2) 空间误差模型(Spatial Error Model ) 空间误差模型基本形式为 'it it i it y X βμ?=++ 1 N it ij jt it j W ?ρ?ε==+∑ 其中: ρ:空间自相关系数,反映回归残差之间空间相关性的程度。 it ?:自相关的空间误差 W :空间权重矩阵,含义与第七章所述的空间权重矩阵相同 123i ,,,N =…,:横截面上的个体(某一区域、范围等),共有N 个 123t ,,,T =…,:表示时间序列上的时点(某一时刻),共有T 个 it y :在区域i 、时刻t 上的被解释变量 it X :在区域i 、时刻t 上的解释变量 i μ:空间的个体的效应,反映不受时间影响的空间特质。 β:回归系数 it ε:与时间和空间都有关系的随机误差项,其均值为0,方差为2σ,独立 同分布。 空间相关性除了由其他空间的影响造成,也可能是通过被忽略了的变量起作用。在传统的模型中,认为这种相关性为噪声,实际上它度量了其他空间单元的因变量的误差对本空间单元观测值的影响程度。空间误差模型可以用于衡量这种由于其他空间的误差影响而产生的自相关性。 案例【8-2】 采用空间面板模型分析2011年京津唐地区疾病数据,寻找疾病发病率的主要影响因素。