第16章静态面板数据模型时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。
面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。
对于面板数据y it(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:
16.1面板数据模型建模的基本原理
在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS 估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。
由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收政策等领域。
16.1.1面板数据模型基本框架
面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型:
1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++== (16.1.1)
其中:it y 是个体i 在时间t 时期的观测值,α表示模型的常数项,i δ代表固定或者随机的截面效应,t γ代表固定或者随机的时期效应,it x 表示k 阶解释变量观测值向量。β表示解释变量的系数向量,并且在根据其条件的限制分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。it ε是独立同分布的误差项,即()0it E ε=。
在公式(16.1.1)中,如果考虑k 个解释变量,自由度NT 远小于参数个数,对于截面成员方程,待估计参数的个数为((1))NT k N ++,对于时间截面方程,待估计参数的个数为((1))NT k T ++,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N 个个体成员方程的面板数据模型;在时间点上截面,建立含有T 个时间点截面方程的面板数据模型。
1)含有N 个个体成员方程的面板数据模型 模型形式如下:
i T i it i T T i y l x l I αβδγε=++++ (16.1.2)
其中:i y 是个体i 的观观测值的时间序列。系数向量β取值受不同个体的影响,i x 表示个体i 解释变量观测值时间序列。T l 是T 阶的单位行向量,T I 是T 阶的单位列向量。
'12()T γγγγ= ,,,,包括所有的时点效应。该式含有N 个截面方程。
2)含有T 个时间截面方程的面板数据。 其形式如下:
t N t it N t N t y l x I l αβδγε=++++ (16.1.3)
其中:t y 是某一时间点的各个个体成员的因变量观测值序列。系数向量β取值受不同时期的影响,t x 表示某一时间点的各个个体成员的解释变量观测值序列。N I 是N 阶行向量,
N l 是N 阶列向量。12()N δδδδ= ’,,
,,包括所有的截面效应。该式含有T 个时间截面方程。
(1)为了更好讨论,将这些方程堆积在一起。首先,按照面板数据的截面方程堆积起来的,表示如下:
()()NT N T N T y l x I l l I αβδγε=++?+?+ (16.1.4)
在截面单位和时期的数据和参数满足经典假设的前提下建立的β矩阵和t x 矩阵,其无约束的协方差矩阵如下:
'''11211'''21
22
''1()N N N N E E εεεεεεεεεεεεεεεε??
?
?
Ω== ?
? ???
(16.1.5)
(2)将这些方程看出是一系列的时点方程,通过时点堆积起来的方程组如下:
()()NT N T N T y l x l I I l αβδγε=++?+?+ (16.1.6)
其协方差矩阵如下:
''
'11211'''2122
''1()T T T T E E εεεεεεεεεεεεεεεε??
?
?
Ω== ? ? ???
(16.1.7) 为了得到模型(16.1.1)的参数的无偏有效估计量,假设模型满足下列条件:
①误差项均值为0,并且同方差。 ②误差项不存在截面相关。 ③解释变量与误差项相互独立。 ④解释变量之间线性无关。 ⑤解释变量是非随机的。
如果模型满足上面的假设,可以用最小二乘法估计模型的参数。
16.1.2面板数据分类
在模型(16.1.1)式子中,将i δ和t γ归入截距里,常用的有如下的三种情形: 情形1:,i j i j ααββ== (16.1.8)
情形2:,i j i j ααββ=≠ (16.1.9) 情形3:,i j i j ααββ≠≠ (16.1.10)
1)对于情形1,假设在横截面既无个体的影响,也没有结构的变化。即对于每个个体成员方程,截距项和系数向量均相同。对于该模型,将各个个体的时间序列数据堆积在一起来作为样本数据,这种模型称为混合回归模型(Pooled Regression Model )。那么可以直接利用普通最小二乘法(OLS)估计参数,则该模型为:
,1,2,,i i i y x u i N αβ=++= (16.1.11)
实际上,混合回归模型假设了解释变量对被解释变量的影响与个体无关。这种假设被广泛的应用,但是在很多实际问题的研究中,该模型不是很适用。因此,本书不详细讨论这种模型。
2)对于情形2,假设在个体成员上存在个体影响而无结构变化,并且个体影响可以截距项的差别来说明,而系数向量相同,称该模型为变截距模型。从估计方法角度,有书也称之为个体均值修正回归模型(individual-mean corrected regression model )。即模型形式如下:
,1,2,,i i i i y x u i N αβ=++= (16.1.12)
3)对于情形3,假设在个体成员上既存在个体影响,又存在结构变化,即用变化的截距项来说明的同时,用系数向量依个体成员的不同而变化,来说明个体成员之间的结构变化。这样的模型我们称为变系数模型或无约束模型(unrestricted model )。
,1,2,,i i i i i y x u i N αβ=++= (16.1.13)
16.1.3模型检验原理
在对面板数据进行估计时,使用的样本包含了个体、指标、时间3个方向上的信息。如果模型设定不正确,估计结果将与所要模拟的经济现实偏离很远。因此,建立面板数据模型之前要检验被解释变量的参数是否在所有横截面样本点和时间上都是常数,即检验所研究的问题属于上述3种情况的哪一种,以确定模型的形式。常用的检验是协变分析检验或协方差分析检验(analysis of covariance)。主要检验如下的两个假设:
N H βββ=== 211: (16.1.14) N
N
H βββααα====== 21212: (16.1.15)
如果接受了假设2,可以认为样本数据符合模型(16.1.11),不需要进行进一步的检验了。如果拒绝了假设2,还要进行检验假设1。如果接受假设1,则认为样本数据符合模型(16.1.12)。如果假设1也被拒绝了,才应采用模型(16.1.13)。
下面是进行假设检验F 统计量的计算方法。
记1
1T
it i t y y T ==∑,11T i it t x x T ==∑ (16.1.16)
模型(11.8)的参数最小二乘法估计后,得到:
'
,1
()()T i i xx i it it t w x x x x ==--∑,,1
()()T
i xy i it it i t w x x y y ==--∑,
2,1
()T
yy i it i t w y y ==-∑ (16.1.17)
模型(16.1.13)的残差平方和为:
'1
1,,,,1()N
yy i xy i xx i xy i i S w w w w -==-∑ (16.1.18)
计算模型(16.1.12)的残差平方和,如果记为:
,1
N yy yy i i w w ==∑,,1
N xy xy i i w w ==∑,,1
N
xx xx i i w w ==∑
模型(16.1.12)残差平方和为:
'12yy xy xx xy S w w w w -=- (16.1.19)
计算模型(16.1.11)的残差平方和,如果记
'
11()()N T xx it it i t T x x x x ===--∑∑,11
()()N T
xy it it i t T x x y y ===--∑∑ (16.1.20)
211
()N
T
yy it i t T y y ===-∑∑ (16.1.21)
其中:11
1N T
it
i t x x NT ===
∑∑,11
1
N T
it
i t y y
NT ===∑∑,则模型(16.1.11)残差平方和记为
'1
3yy xy xx xy S T T T T -=- (16.1.22)
在假设H 2下检验统计量F 2服从相应自由度下的F 分布,即
)]1(),1)(1[(~)]
1(/[)]
1)(1/[()(1132+-+-+-+--=
k N NT k N F k N NT S k N S S F (16.1.23)
若计算所得到的统计量F 2的值不小于给定置信度下的相应临界值,则拒绝假设H 2,继续检验假设H 1,检验统计量F 1服从相应自由度的F 分布,
)]1(,)1[(~)]
1(/[]
)1/[()(1121+--+---=
k N NT k N F k N NT S k N S S F (16.1.24)
若计算所得的统计量F 1的值不小于给定置信度下的相应临界值,则拒绝假设H 1,用模型(16.1.13)拟合样本,反之,则用模型(16.1.12)。
在实际经济问题的分析中,变截距模型和变系数模型比较常见,因此本章主要介绍这两类模型的相关理论与软件操作。
16.1.4模型检验软件操作
例如,我们使用Grunfeld (1958)的公司水平的平衡面板数据(后来被Baltagi2001年扩展)。该面板数据是对美国10个大型制造业企业的年投资(I )、公司价值(F )和公司资
本(K)观测20年数据(1935-1954)1。在后面的面板数据模型中以及下章都将采用本例数据进行示范操作。
第一步,假定截距和系数都随截面变化,即为模型(16.1.13),先对模型进行最小二乘估计得到残差平方和为:
图16.1.1
其结果为:
图16.1.2
得到S1=324728.6。
第二步,截距随截面变化,系数在每个截面都相同,模型估计设置如下:
图16.1.3
得到的残差平方和S2=523478.1。
第三步,进行混合模型估计,截距和系数对每个截面都是相同的,模型设定如下:
1EVviews 6.0 Example Files,Quantitative Micro Software。
图16.1.4
然后从估计结果中得到S3=1935595。
为了确定面板数据分析模型,首先利用F 检验进行模型设定检验。N=10,T=20,k=2(解释变量个数),则有
F2=[(1935595-324728.6)/(9*3)]/[324728.6/(200-10*3)]=31.2337507, 临界值F 0.95(27,170)值在1.55左右,拒绝假设H2,则继续检验H1; F1=[(523478.1-324728.6)/18]/[324728.6/170]=5.78045362,
F 0.95(18,170)介于1.66和1.67之间,F1也大于临界值,拒绝H1,选用模型(16.1.13)拟合样本。
16.2固定效应变截距模型
在日常生活中,变截距模型用的最广泛。根据未观测效应i α与解释变量是否相关,将模型又分为固定效应模型和随机效应模型。本节主要介绍固定效应模型的相关理论及软件操作,有关随机效应变截距模型将在下节论述。
16.2.1固定效应模型原理
1)平衡数据
如果面板数据遵循以下5个假设:
(1)对于个体i ,可以用下面的线性模型来表示:
1122,1,2,it it it k kit i it y x x x u t T βββα=+++++= (16.2.1)
(2)对于每个时期t ,在给定非观测效应和解释变量的条件下误差项的期望为零,即
(,)0it i E u X α∣= (16.2.2)
(3)每个解释变量在时间上有所变化,并且解释变量之间无线性关系。 (4)2
(,)(),1,2,,it i i it u Var u X Var u t T ασ∣=== (16.2.3) (5)(,,)0,it is i i Cov u u X t s α∣=≠ (16.2.4)
则j β的固定效应估计量是其最优线性无偏估计(Blue ),此时可采用两种方法进行估计,固定效应变换法和虚拟变量回归法。
(1)固定效应变换法
为说明此方法的原理,先考虑最简单的情况,假设仅有一个解释变量的模型,对于个体i ,有:
,1,2,it it i it y x u t T βα=++= (16.2.5)
对每个i 在时间上求均值,得到i i i i y x u βα=++ (16.2.6)
其中:1
1T
it i t y y T ==∑,11T i it t x x T ==∑,11T i it t u u T ==∑
因i α在不同时间固定不变,它同时出现在式子(16.2.5)和式子(16.2.6)中,如果对于每个t ,都将式子(16.2.5)从式子(16.2.6)中减去,我们便得到
(),1,2,i i it it it i y y x x u u t T β-=-+-=
记为:,1,2,it it it y x u t T β=+=
(16.2.7) 这里,it it i y y y =- ,是y 的除时间均值数据(time-demeaned data ),对i it it x x x =- ,i it it u u u =- 的解释也是类似。固定效应变换又称为组内变换(within transformation )。在方
程(16.2.7)中非观测效应已消失,可以使用混合的普通最小二乘法(OLS )对变换后的数
据进行估计。基于除时间均值变量的混合OLS 估计量被称为固定效应估计量(fixed effects estimator )或组内估计量(within estimator )。后一种是因为估计时使用了解释变量和被解释变量在每个横截面观测之内的时间变异。
把模型进行扩展到多个解释变量的形式,原始模型为:
1122,1,2,it it it k kit i it y x x x u t T βββα=+++++= (16.2.8)
作类似变换,得到消去时间均值的模型为:
1122,1,2,it it it k kit it y x x x u t T βββ=++++= (16.2.9) 使用普通最小二乘法估计,求出各回归系数的估计值k
βββ?,,?,?21 ,再把估计值代入式子(16.2.8),求出个体对应的截距N ααα
?,,?,?21 。 (2)虚拟变量回归法
对于个体i 建立如下回归模型:,1,2,,it i it it y x u t T αβ=++= (16.2.10) 其中,x 考虑k 个解释变量,β对应就有k 个系数组成的向量,it u 是误差项,i α用来表示个体之间的差别,由于i α只在第i 个个体出现,所以可以考虑构造一个虚拟变量作为i α的系数。考虑整个面板数据集,可以用下面的模型来表示:
111212000000N N N N x e y u x e Y y u x e αααβ????????
????????????????????????==+++++??????
?????????????????????????????? (16.2.11) 其中,121i i i iT T y y y y ???????=?????? ,11
21112
22212i i ki i i ki i iT
iT
kiT T k x x x x x x x x x x ??????
?=??
??
?? ,1111T e ???
????=?????? ,121
i i i iT T u u u u ???????=?????? 10i T Eu ?=,2
T i i u
T Eu u I σ=,0,i j T T Eu u i j ?=≠,其中1,2,,i N = ,T I 为T T ?维单位矩阵。
误差项满足上面的假设,用最小二乘法估计得到最优线性无偏估计,
??
?
???-'-??????-'-=∑∑∑∑-=-==N i T t i it i it N i T t i it i it FE
y y x x x x x x 111
11)()()()(?β (16.2.12) i
FE i i x y βα??-= (16.2.13) 其中:11T i it t x x T ==∑,1
1T
it i t y y T ==∑,,1,2,1(,,,)it i t i t i tk k x x x x ?=
在模型(16.2.11)中,i α的系数的观测值可写成可观测的虚拟变量的形式,该模型通常被称为最小二乘虚拟变量(LSDV )模型。如果N 比较小,此模型可以当作具有N+k 个
参数的多元回归,参数由最小二乘法进行估计。但是若N 充分大时,此时的计算量会非常大,则可以采用下面的分块回归方法进行计算。
令'1T Q I ee T =-
,因为'1
T I e ee e T
=,所以0Qe =,则式子(16.2.11)可以写成 i i i i i i Qy Qe Qx Qu Qx Qu αββ=++=+ (16.2.14)
使用普通最小二乘法,得到β的估计值为
??
????'??????'=∑∑=-=N i i i N i i i cv Qy x Qx x 11
1?β (16.2.15) 截距i α的估计为
cv
i i i x y βα??-= (16.2.16) 模型(16.2.11)也被称为协方差分析模型,因此参数β的LSDV 估计有时也被称为协方差估计。参数β的协方差估计是无偏的,且当n 或T 趋于无穷大时,其是一致估计的。
16.2.2固定影响模型类型
引进总体均值截距项的固定影响变截距模型主要包括以下几类: (1)包含个体影响的固定影响变截距模型 引进了总体均值截距项(α),个体影响变截距模型可写成如下形式:
1,2,,,1,2,,it it it i it y x i N t T αβδε+=++== (16.2.17)
在该形式下,模型中反映个体影响的跨成员方程变化的截距项被分解成两个部分,在各个个体成员方程汇总都相等的总体均值截距项(α)和跨成员方程变化的表示个体对总体均值偏离的个体截距项(i δ)。个体截距项(i δ)表示的是个体成员i 对总体平均状态的偏离,所有偏离之和应该为零,即
1
0N
i
i δ
==∑ (16.2.18)
在该约束下,可以得到模型(11.6)中各参数的最优线性无偏估计
??
?
???-'-??????-'-=∑∑∑∑==-==N i T t i it i it N i T t i it i it FE
y y x x x x x x 111
11)()()()(?β (16.2.19) FE
x y βα??-= (16.2.20) FE
i i i x y βαδ???--= (16.2.21) 其中:111()N T it i t x x NT ===∑∑,11
1()N T
it i t y y NT ===∑∑ (2)包含时点固定影响变截距模型
Eviews 软件中,除了可以单独估计包含个体恒量影响的模型,还可以对时点恒量影响的变截距模型进行估计,实际上是每个时点为一个截面进行一次回归,模型形式可以写为
1,2,,,1,2,,it it it t it y x i N t T αβγε=+++== (16.2.22)
同个体固定效应模型一样,
1
0T
t
t γ
==∑
注意,计算变截距模型的个体影响时,在不同的软件给出的个体影响形式不同。本书主要应用EViews 软件估计,则这里介绍的是EViews 里面模型形式。
(3)包含时期个体恒量的固定影响变截距模型其他形式
包含时期个体恒量的固定影响变截距模型的计算方法,与上面的类似。其模型形式为:
1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++== (16.2.23)
其中:t γ为时期恒量,反映时期特有的影响,也就是反映未观测的随时间变化的变量的影响。类似的,通过引进相应的个体成员和时期虚拟变量,利用普通最小二乘法可以得到该形
式下的参数的OLS 估计,即
??
?
???+--'+-??????+-'+-=∑∑∑∑==-==N i T t t i it t i it N i T t t i it t i it FE
y y y y x x x x x x x x x x x x 111
11()()()(?β (16.2.24)
FE
x y βα??-= (16.2.25) FE i i i x x y y βαδ?)(?)(?----= (16.2.26) FE
t t t t x x y y βγ?)()(?---= (16.2.27) 其中:111()N T it i t x x NT ===∑∑,111()N T it i t y y NT ===∑∑,11T i it t x x T ==∑,11T
it i t y y T ==∑
1
1
N
t it i x x N
==
∑,1
1
N
it
t
i y y
N ==∑
16.2.3固定效应模型软件估计
1)个体固定效应模型在Eviews 软件估计如下:
(1)POOL 数据形式估计: ①首先,建立Pool 。在打开工作文件的基础上,点击主菜单中的Object/New Object ……,选择Pool (混合数据库),点击“确定”,从而打开Pool 窗口,在窗口中输入10个公司名称标识AR ,CH ,……,WH 。见图16.2.1。
图16.2.1 定义面板数据的个体
②生成新序列和输入数据。在Pool 窗口的工具栏中点击sheet 键,从而打开Series List (列写序列名)窗口,定义变量I?、F ?和K ?,点击OK 键,接着点击Pool 窗口工具栏中的Edit ,输入数据。如图16.2.2和16.2.3。注意,前面截面标识名设定与这里序列名的设置保持一致。如果前面截面标识名设为“_AR ”与序列名的“I?”对应,而如果是“AR_”,则与序列名“?I ”对应。
图16.2.2生成面板数据的时间序列
然后点击OK,得到如下的堆积数据:
图16.2.3
③Dependent Variable(相依变量即因变量)选择窗填入Pool面板数据的因变量或被解释变量;在Specificatin页面下,在Regressors and AR() terms下面Common coefficients里填入解释变量,再在cross-section选择fixed,点击“确定”后就可得到包含个体影响的模型参数估计值。
图16.2.4
④估计结果如下:
图16.2.5
估计结果的上半部分显示了因变量、估计的方法样本相关的基本的信息,下面除了显示一般的解释变量系数的估计外,还以个体的标识名和常数C的合名形式显示了个体固定效应,他们表示的是对总体截距(比如:-58.744)的偏离,并且他们的和为零。
(2)当然除了用pool数据形式对面板数据进行估计外,也可以在workfile中的panel structure形式下的面板数据进行估计,以个体固定效应模型为例,其估计过程如下:
①首先,Eviews中直接建立Panel结构的工作区,具体操作如下:File/New/workfile,然后在Workfile structure type中选择Balanced Panel,得到如图所示的对话框,然后进行相关的面板设定。
图16.2.6
点击OK,得到如下的面板数据格式的工作区:
图16.2.7
由图16.2.7可知,系数C,序列Crossid,dateid及resid均由系统自动生成。C与序列resid是系统默认的存放估计系数(包括迭代的初值等)与残差的序列。Crossid,dateid是Panel Data所特有的用于存放截面与时期标号的序列。
接着建立新序列I,F,K。
图16.2.8
②对估计方程的设定,在Equation specification处设定依次填入方程的因变量和自变量:如下图所示:
图16.2.9
③选择最小二乘法,即LS(Least Squares),然后再对固定个体设定,即点击Equation Estimation对话框的Panel Options页面,在Cross-section下来菜单中选择Fixed,
图16.2.10
④点击“确定”后,估计结果没有包括个体的固定效应,其结果如下:
图16.2.11
⑤如果想要查看截面中的固定效应或者随机效应,可以通过估计结果工具栏中的View/Fixed/Random Effects/Cross-section Effects,
图16.2.12
比如本例中的截面固定效应如下图:
图16.2.13
注意:第一,Panel结构的工作区中方程设定估计的时点固定效应以及随机效应,都可通过这样的方式查看。第二,Pooled Data的方法与Panel Data的方法针对同一问题所得到的结果是一致的,但Panel Data模组的功能更加强大,而Pooled Data显得更加直观,读者可以根据自己的需要选择自己喜欢的方法。不过,一般Pool对象侧重分析“窄而长”的数据,即截面成员较少而时期较长的侧重时间序列分析的数据;对于截面成员较多时期较少的“宽而短”的侧重截面分析的数据,一般通过具有面板结构的工作文件进行分析,并且利用面板
结构的工作文件可以实现变截距以及动态面板数据模型的估计。
时点固定效应模型估计结果显示与个体固定影响模型一样,上半部分显示了因变量、估计的方法样本相关的基本的信息,下面除了显示一般的解释变量系数的估计外,还以时点的标识名和常数C 的合名形式显示了时点固定效应,他们表示的是对总体截距的偏离,并且他们的和为零。个体时点固定效应模型的结果也是类似的。
16.2.4非平衡数据的固定效应模型
前面讨论都是假设在所有使用的面板数据中,各个体成员的观测数据个数相同。然而在实际分析中,经常会遇到各个体成员观测数据个数不等的情况,即在所获得的面板数据中,一些个体成员的数据较多而另一些个体成员的数据较少。这种情况下的面板数据被称为非平衡数据。对于非平衡数据的固定影响模型,只需将上面的方法进行简单修正,便可得到参数的相应的协方差估计。
设第i 个截面成员的观测数据个数为i T ,则观测数据总数为
1
N
i i T =∑,变量的总体平均为
11
1
1
i
T N
it
N
i t i i N i i
i x
x x T
ω=====
=∑∑∑∑,11
1
1
i
T N
it
N
i t i i N i i
i y
y y T
ω=====
=∑∑∑∑ (16.2.28)
其中:1
/(
)N
i i i i T T ω==∑
模型的参数β的估计量为:
??
?
???'??????'=∑∑=-=N i i i i N i i i i FE
y Q x x Q x 11
1?β (16.2.29) 其中:'
1i i T i
Q I ee T =-
估计出β后,根据(16.2.13)可以求出最小二次虚拟变量形式下的固定影响变截距模型的截距项;根据式子(16.2.20)和式子(16.2.21)可以求出引进总体均值截距项形式下的个体固定影响变截距模型中的α和i δ;根据式子(16.2.25)、式子(16.2.26)和式子(16.2.27)可以求出包含时期个体恒量的固定影响变截距模型中的α和i δ、t γ。
比如我们可以2003到2006年的对外贸易TIE 与对外直接投资ODI 两者的非平衡面板数据作一个类似的操作分析:
①在POOL estimation 的设定如下图:
图16.2.14
②点击“确定”后,软件估计结果如下图:
图16.2.15
从上面的估计结果可以看出,顶端除了显示一些估计的基本信息外,还报告了数据类型,比如Total pool (unbalanced )都很明显的说明了该数据是个非平衡数据。与平衡面板数据类似,也可以对非平衡数据进行个体固定、时期固定和包含个体时期固定的模型进行估计。
16.3固定效应变截距模型另外两种估计方法
16.3.1广义最小二乘估计
在固定影响变截距模型中,如果随机误差项不满足等方差或相互独立的假设,则需要使用广义最小二乘法(GLS )对模型进行估计。如果误差项的方差有如下结构,个体成员截面异方差、时期异方差、同期相关协方差和时期间相关协方差,则可以采用广义最小二乘法对该模型估计。对应于各种方差结构的GLS 估计过程的主要步骤均为:先估计系数,然后计算GLS 的转换权重,之后在加权数据基础上重新估计,或者利用迭代的方法,重复上面的步骤直至系数和权重收敛为止。假定参数满足时间一致性,即参数值不随时间的不同而变化,存在个体成员截面异方差和同期相关协方差。假定参数随着时间的不同而变化,而存在时期异方差和时期间相关协方差。
1)个体成员截面异方差情形的GLS 估计
个体成员截面异方差是指个体成员方程的随机误差项之间存在异方差,但个体成员之间和时期之间的协方差为零,对应的假设为:
2()it it i E u u σ= (16.3.1) ()0,(,)it js E u u i j s t =≠≠ (16.3.2)
该情形用广义最小二乘法估计非常简单,首先对方程进行普通最小二乘估计,然后计算各个体成员的残差向量,并用其来估计个体成员的样本方差2
i s :
221
()/,1,2,,T
i
it it t s y y T i N ==-=∑ (16.3.3)
其中:
it y 是OLS 的拟合值。个体成员方程截面异方差的协方差矩阵的估计为: 2
12
2
20
0000
N N s s s ?????
?
∑=????????
(16.3.4) 然后,用得到的样本方差估计2
i s 作为各个个体成员的权重,即加权矩阵为N T I ∑?2,利用加权最小二乘方法得到相应的GLS 估计。类似地,可以得到含有T 个时间截面方程情
形下的时期异方差的GLS 估计。
在Eviews 软件操作中,设定广义最小二乘法估计面板数据时,在pool estimation 对话框中,在weighs 处选择cross-section weighs ,设定如下:
图16.3.1
然后点击“确定”,得到的结果如下:
2
设
()ij n m A a ?=,()ij p q B b ?=,定义A 与B 的克罗内克积(简称叉积)为
1112121
2221
2m m n n nm a B a B a B a B a B a B A B a B a B a B ??
??
???=?????? 显然,A B ?是np mq ?阶矩阵,是分块矩阵,其第(i ,j )块ij a B 。
图16.3.2
从上面的估计结果比较可以看出,广义最小二乘法提高了整个模型的拟合优度,也使变量的系数估计更准确了。
2)同期相关协方差情形的SUR 估计
同期相关协方差是指不同的个体成员i 和j 的同一时期的随机误差项是相关的,但其在不同时期之间是不相关的,相应的假设为:
()it jt ij E u u σ=(11.8) (16.3.5) ()0,(,)it js E u u i j s t =≠≠ (16.3.6)
同期相关协方差是允许同一时期即t 不变时,不同个体成员之间存在协方差。如果把假设(11.8)中的表达式写成向量的形式:
'()it jt N E u u =∑ (16.3.7)
对于任意的t 有
111212122212N N N N N NN σσσσσσσσσ??????∑=??
?
?
??
(16.3.8) 这种个体成员之间存在协方差的方差结构有些类似于个体成员方程框架下的近似不相关回归(seemingly unrelated regression ,SUR ),因此将这种结构称为个体成员截面SUR (cross-section SUR )。
(1)N ∑已知的情形
SUR 方法适合于方程间的残差可能具有异方差和同期相关,但是单个方程不存在序列相关的情形。如果是N ∑是已知的,则参数β的SUR 估计为
[][]∑∑-?'--?'-=---)()()()()()(?11
1Y Y I X X X X I X X T T SUR β (16.3.9)
其中:12
N y y Y y ??
??
??=????
?? ,12N x x X x ??????=?????? ,12N y y Y y ??????=????????
,12N x x X x ??????=????????
其中:i y 是1T ?维因变量向量,i x 是T k ?维解释变量向量矩阵,1
1T
i it t x x T ==∑,
1
1T
it i t y y T ==∑。
(2)N ∑未知的情形
一般的情况下,N ∑都是未知的,这时就需要利用普通最小二乘法先估计为加权系统的
参数,得到N ∑的一致估计矩阵 ∑,N ∑中的元素ij σ的估计值ij s 为 []
T
x y x y s FE i i i FE
i
i
i
ij
)??()??(βδβδ
--'--=
,N j i ,,2,1, = (16.3.10)
其中:FE
β?和i δ?可由式子(16.2.12)和(16.2.13)计算得到。计算 ∑后,再进行广义最小二乘法估计(GLS ),此时β的SUR 估计为
??
????-?'-??????-?'-=∑∑∧--∧-)()()()()))(?11
1
Y Y I X X X X I X X T T SUR
β(16.3.11) 个体成员截面SUR 加权最小二乘法简单地说,就是对由各个个体成员方程所构成的系
统进行GLS 估计,系统中允许存在个体成员异方差和同期相关。估计过程为:先利用第一阶段的普通最小二乘法估计获得N ∑的估计,然后在第二阶段获得相应的GLS 估计。类似地,可以得到时期近似不相关(period SUR )(时期方程框架下的近似不相关)情形下的GLS 估计。
其软件操作与前面截面异方差类似,只需pool estimation 的设定中在weighs 处选择cross-section SUR ,点击确定后即可得到GLS 估计的结果。
第十讲经典面板数据模型 一、面板数据(panel data) 一维数据: 时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。 二维数据: 面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。 面板数据=截面数据+时间序列数据。
面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 平衡面板数据(balanced panel data)。 非平衡面板数据(unbalanced panel data)。 例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。
表1.中国部分省级地区的居民数据(不变价格,元)
二、面板数据模型及其作用 1.经典面板数据模型 建立在古典假定基础上的线性面板数据模型. 2.非经典面板数据模型 (1)非平稳时间序列问题的面板数据模型(面板数据协整模型) (2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型) (3)其他模型(如面板数据分位数回归模型) 3.面板数据模型作用 (1)描述个体行为差异。
5.2 面板数据模型理论 5.2.1 面板数据模型及类型。 面板数据(panel data )也称时间序列截面数据(time series and cross section data )或混合数据(pool data )。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section )上看,是由若干个体(entity, unit, individual )在某一时刻构成的截面观测值,从纵剖面(longitudinal section )上看是一个时间序列。 面板数据用双下标变量表示。例如: it y , N i ,,2,1 ;T t ,,2,1 其中,N 表示面板数据中含有的个体数。T 表示时间序列的时期数。若固定t 不变,?i y ),,2,1(N i 是横截面上的N 个随机变量;若固定i 不变,t y ?,),,2,1(T t 是纵剖面 上的一个时间序列。对于面板数据来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data )。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data )。 面板数据模型是建立在面板数据之上、用于分析变量之间相互关系的计量经济模型。面板数据模型的解析表达式为: it it it it it x y T j N i ,2,1;,2,1 其中,it y 为被解释变量;it 表示截距项,),,,(21k it it it it x x x x 为k 1维解释变量向量;' 21),,,(k it it it it 为1 k 维参数向量;i 表示不同的个体;t 表示不同的时间;it 为 随机扰动项,满足经典计量经济模型的基本假设),0(~2 IIDN it 。 面板数据模型通常分为三类。即混合模型、固定效应模型和随机效应模型。 ⑴ 混合模型。 如果一个面板数据模型定义为: it it it x y T j N i ,2,1;,2,1 则称此模型为混合模型。混合模型的特点是无论对任何个体和截面,回归系数 和 都是相同的 ⑵ 固定效应模型。 固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model )、时间固定效应模型(time fixed effects regression model )和时间个体固定效应模型(time and entity fixed effects regression model )。 ① 个体固定效应模型。 个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序
Chaper5 面板数据模型 在联立方程模型中,我们已接触到面板数据模型,它仅是作为一种特殊的联立模式来讨论的。不同时间,到不同个体不加区别,仅是一种普通样本,采用POLS 方法处理。不同时间段和不同个体的特征没有考虑,而这些特征往往有明确的经济背景。本章以存在不可观测效应(Unobserved effect )的现代观点重新阐释面板数据模型。 不可观测效应的含义是,从不同时间抽取的样本数据中,存在一个相对时间不变的不可观测的因素,称为异质性。例如,样本个体选择家庭而言,认知、动机、遗传等;样本个数选择企业而言,管理水平,创新能力等。如何处理这些潜在因素?除了前述的代理变量和多指标工具变量法外,合理应用面板数据的特征就是本章讨论的问题。此外,面板数据作为截面数据和时间序列数据动态混合,能反映模型的动态结构,故也可作为分析的内容加以讨论。深入的分析面板数据是学习时间分析之后,本章只是一个初步。合理运用面板数据,能给我们带来很多有意义的统计信息和模型。请看例: 例1:职业培训的评价: 欲评价培训的效果,(或实施某一政策的效果),一个标准的评价模型是: it i it it t it U C prog Z y ++++=1δγθ 这里t 为二期,t=1,2; t θ表示随时间变化的项,it Z 是可观察的影响因素Y 的随机变量;it prog 是虚拟变量,参加第二期培训为1,其它为0;i C 为个人是否选择接受培训的选择,它是不可观测的,是一个与个人相关的与t 无关的潜在因素。又为了消除政策因素外的其它影响,又在每个时间段中将Y 分成控制组B 和对照组A 两部分。在t=1,无人处在控制组,在t=2,部分人处在控制组部分人处在对照组。并再设置一个虚拟变量2d ,表示如t=2,处在控制组为1, 其余为为0。模型构成为: it i it it t t it U C prog Z d y +++++=12δγβθ, 则参数1δ就反映了政策因素对Y 的贡献。检验: 0H :1δ=0.接受0H 说明培训效果不是很显著。
基于面板数据模型及其固定效应的模型分析 在20世纪80年代及以前,还只有很少的研究面板数据模型及其应用的文献,而20世纪80年代之后一直到现在,已经有大量的文献使用同时具有横截面和时间序列信息的面板数据来进行经验研究(Hsiao,20XX)。同时,大量的面板数据计量经济学方法和技巧已经被开发了出来,并成为现在中级以上的计量经济学教科书的必备内容,面板数据计量经济学的理论研究也是现在理论计量经济学最热的领域之一。 面板数据同时包含了许多横截面在时间序列上的样本信息,不同于只有一个维度的纯粹横截面数据和时间序列数据,面板数据是同时有横截面和时序二维的。使用二维的面板数据相对于只使用横截面数据或时序数据,在理论上被认为有一些优点,其中一个重要的优点是面板数据被认为能够控制个体的异质性。在面板数据中,人们认为不同的横截面很可能具有异质性,这个异质性被认为是无法用已知的回归元观测的,同时异质性被假定为依横截面不同而不同,但在不同时点却是稳定的,因此可以用横截面虚拟变量来控制横截面的异质性,如果异质性是发生在不同时期的,那么则用时期虚拟变量来控制。而这些工作在只有横截面数据或时序数据时是无法完成的。 然而,实际上绝大多数时候我们并不关心这个异质性究竟是多少,我们关心的仍然是回归元参数的估计结果。使用面板数据做过实际研究的人可能会发现,使用的效应①不同,对回归元的估计结果经常有十分巨大的影响,在某个固定效应设定下回归系数为正显着,而另外一个效应则变为负显着,这种事情经常可以碰到,让人十分困惑。大多数的研究文献都将这种影响解释为控制了固定效应后的结果,因为不可观测的异质性(固定效应)很可能和回归元是相关的,在控制了这个效应后,由于变量之间的相关性,自然会对回归元的估计结果产生影响,因而使用的效应不同,估计的结果一般也就会有显着变化。 然而,这个被广泛接受的理论假说,本质上来讲是有问题的。我们认为,估计的效应不同,对应的自变量估计系数的含义也不同,而导致估计结果有显着变化的可能重要原因是由于面板数据是二维的数据,而在这两个不同维度上,以及将两个维度的信息放到一起时,样本信息所显现出来的自变量和因变量之间的相关关系可能是不同的。因此,我们这里提出另外一种异质性,即样本在不同维度上的相关关系是不同的,是异质的,这个异质性是发生在回归元的回归系数上,而
第十四章 面板数据模型 在第五章,当我们分析城镇居民的消费特征时,我们使用的是城镇居民的时间序列数据;而当分析农村居民的消费特征时,我们使用农村居民的时间序列数据。如果我们想要分析全体中国居民的消费特征呢?我们有两种选择:一是使用中国居民的时间序列数据进行分析,二是把城镇居民和农村居民的样本合并,实际上就是两个时间序列的样本合并为一个样本。 多个观测对象的时间序列数据所组成的样本数据,被称为面板数据(Panel Data )。通常也被称为综列数据,意即综合了多个时间序列的数据。当然,面板数据也可以看成多个横截面数据的综合。在面板数据中,每一个观测对象,我们称之为一个个体(Individual )。例如城镇居民是一个观测个体,农村居民是另一个观测个体。 如果面板数据中各观测个体的观测区间是相同的,我们称其为平衡的面板数据,反之,则为非平衡的面板数据。基于面板数据所建立的计量经济学模型则被称为面板数据模型。例如,表5.3.1中城镇居民和农村居民的样本数据具有相同的采样区间,所以,它是一个平衡的面板数据。 §14.1 面板数据模型 一、两个例子 1. 居民消费行为的面板数据分析 让我们重新回到居民消费的例子。在表5.1.1中,如果我们将城镇居民和农村居民的时间序列数据作为一个样本,以分析中国居民的消费特征。那么,此时模型(5.1.1)的凯恩斯消费函数就可以表述为: it it it Y C εββ++=10 (14.1.1) it t i it u ++=λμε (14.1.2) 其中:it C 和it Y 分别表示第i 个观测个体在第t 期的消费和收入。i =1、2分别表示城镇居民和农村居民两个观测个体,t =1980、…、2008表示不同年度。it u 为经典误差项。 在(14.1.2)中,i μ随观测个体的变化,而不随时间变化,它反映个体之间不随时间变化的差异性,被称为个体效应。t λ反映不随个体变化的时间上的差异性,被称为时间效应。在本例中,城镇居民和农村居民的消费差异一部分来自收入差异和随机扰动,还有一部分差
面板数据模型
精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 一、我对几种面板数据模型的理解 1 混合效应模型 pooled model 就是所有的省份,都是相同,即同一个方程 ,截距项和斜率项都相同 y it =c+bx it +?it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型 fixed-effect model y it =a i +bx it +?it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已 的常数项 2.2 随机效应模型 random-effects model y it =a+u i +bx it +?it cov(a+u i ,x it )=0 A 是一个常数项,是不可观察差异性的均值,u i 为第i 个观察的随机差 异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +?it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一
1.Panel Data 模型简介 Panel Data 即面板数据,是截面数据与时间序列数据综合起来的一种数据类型,是截面上个体在不同时点的重复观测数据。 相对于一维的截面数据和时间序列数据进行经济分析而言,面板数据有很多优点。(1)由于观测值的增多,可以增加自由度并减少了解释变量间的共线性,提高了估计量的抽样精度。(2)面板数据建模比单截面数据建模可以获得更多的动态信息,可以构建并检验更复杂的行为模型。(3)面板数据可以识别、衡量单使用一维数据模型所不能观测和估计的影响,可以从多方面对同一经济现象进行更加全面解释。 Panel Data 模型的一般形式为it K k kit kit it it x y μβα++=∑ =1 其中it y 为被解释变量,it x 为解释变量, i =1,2,3……N ,表示N 个个体;t =1,2,3……T ,表示已知T 个时点。参数it α表示模型的截距项,k 是解释变量的个数,kit β是相对应解释变量的待估计系数。随机误差项it μ相互独立,且满足零 均值,等方差为2δ的假设。 面板数据模型可以构建三种形式(以截面估计为例): 形式一: 不变参数模型 i K k ki k i x y μβα++=∑ =1,又叫混合回归模型,是指无论 从时间上还是截面上观察数据均不存在显著差异,故可以将面板数据混合在一起,采用普通最小二乘估计法(OLS )估计参数即可。 形式二:变截距模型i K k ki k i i x y μβαα+++=∑ =1*,*α为每个个体方程共同的截距 项,i α是不同个体之间的异质性差异。对于不同个体或时期而言,截距项不同而解释变量的斜率相同,说明存在不可观测个体异质影响但基本结构是相同的,可以通过截距项的不同而体现出来个体之间的差异。当i α与i x 相关时,那就说明模型为固定效应模型,当i α与i x 不相关时,说明模型为随机效应模型。 形式三:变参数模型 i K k ki ki i i x y μβαα+++=∑ =1* ,对于不同个体或时期而 言,截距项(i αα+*)和每个解释变量的斜率ki β都是不相同的,表明不同个体之间既存在个体异质影响也存在不同的结构影响,即每个个体或时期都对应一个互不相同的方程。同样分为固定效应模型和随机效应模型两种。 注意:这里没有截距项相同而解释变量的系数不相同的模型。 2.Panel Data 模型分析步骤 2.1 单位根检验 无论利用Panel Data 模型进行截面估计还是时间估计分析的时候,我们先要进行单位根检验,只有Panel Data 模型中的数据是平稳的才可以进行回归分析,否则容易产生“虚假回归”。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的2R ,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归。面板单位根检验方法有5种:LLC 检验、IPS 检验、Breintung 检验、ADF-Fisher 检验和PP-Fisher 检验,前两种是相同根情况下的单位根检验方法, 后三
面板数据模型 1.面板数据定义。 时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 面板数据用双下标变量表示。例如 y i t, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,y i ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。 图1 N=7,T=50的面板数据示意图 例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。 对于面板数据y i t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。 例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。 人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散
面板数据分析方法步骤全解 面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结, 和大家分享一下,也希望大家都进来讨论讨论。 步骤一:分析数据的平稳性(单位根检验) 按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈 曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归, 尽管有较高的R 平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正 含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势 以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时 有三种检验模式:既有趋势又有截距、只有截距、以上都无。 因此为了避免伪回归,确保估计结果的有效性, 我们必须对各面板序 列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项, 从而为进一步的单位根检验的检验模式做准备。 单位根检验方法的文献综述:在非平稳的面板数据渐进过程中丄evin
an dLi n(1993)很早就发现这些估计量的极限分布是高斯分布,这些结 果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002的改进,提出了检验面板单 位根的LLC法。Levin et al. (2002)指出,该方法允许不同截距和时间趋 势,异方差和高阶序列相关,适合于中等维度(时间序列介于25?250 之间,截面数介于10?250之间)的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS法,但Breitung(2000)发现IPS法对 限定性趋势的设定极为敏感,并提出了面板单位根检验的Breit ung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位 根检验方法。 由上述综述可知,可以使用LLC IPS Breintung、ADF-Fisher和 PP-Fisher5种方法进行面板单位根检验。 其中LLC-T、BR-T IPS-W、ADF-FCS PP-FCS H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、Im Pesaran & Shin W 统计量、 ADF- Fisher Chi-square统计量、PP-FisherChi-square统计量、Hadri Z 统计量,并且Levin, Lin & Chu t*统计量、Breitung t统计量的原假设 为存在普通的单位根过程,Im Pesaran & Shin W统计量、ADF- Fisher Chi-square统计量、PP -Fisher Chi-square统计量的原假设为存在有效 的单位根过程,Hadri Z统计量的检验原假设为不存在普通的单位根 过程。
第17章 动态面板数据模型 17.1 动态面板数据模型 前一章讨论具有固定效应和随机效应的线性静态面板数据模型,但由于经济个体行为的连续性、惯性和偏好等影响,经济行为是一个动态变化过程,这时需要用动态模型来研究经济关系。本章主要讨论动态面板数据模型的一般原理和估计方法,然后介绍了面板数据的单位根检验、协整分析和格朗杰因果检验的相关原理及操作。 17.1.1动态面板模型原理 17.1.2)时,第一3不相关。可以形成预先的工具变量: 12122000000i i i i i iT Y Y Y Y Y -?????????? 每一个预先决定的变量的相似的工具变量便可以形成了。假设it ε不存在自回归,不同设定的最优的GMM 加权矩阵为: 1 1'1M d i i i H M Z Z --=??=Ξ ??? ∑ (17.1.4) 其中Ξ 是矩阵,221000120001200 02100012σ-????-? ???Ξ=??-????-??
i Z 包含严格外生变量和预先决定的变量的混合。该加权矩阵用于one-step Arellano-Bond 估计。 给定了one-step 估计的残差后,我们就可以用估计计算的White 时期协方差矩阵来代替加权矩阵H d : 1 1''1M i i i i i H M Z Z εε--=??=?? ??? ∑ (17.1.5) 该加权矩阵就是在Arellano-Bond 两步估计中用到的矩阵。 我们可以选择两者中一个方法来改变最初的方程,以消除对总体偏离而计算的个体效应(Arellano 和Bover ,1995)。详情见后面的GMM 估计,用正交偏离而转换残差有个特点就是转换设定的第一阶段最优加权矩阵是简单的2SLS 加权矩阵。 GMM 这里通过下面式子进行估计: '''(()())(()())i i i i i i E g g E Z Z ββεβεβ= () 而'1()()M i i i G Z f ββ=??=-? ??? ∑ 在简单的线性模型中'(,)it it f X X ββ=,我们可以得到系数的估计值为:
第16章静态面板数据模型时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。 面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。 对于面板数据y it(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。 本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:
16.1面板数据模型建模的基本原理 在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS 估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。 由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收政策等领域。 16.1.1面板数据模型基本框架 面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型: 1,2,,,1,2,,it it it i t it y x i N t T αβδγε=++++==L L (16.1.1) 其中:it y 是个体i 在时间t 时期的观测值,α表示模型的常数项,i δ代表固定或者随机的截面效应,t γ代表固定或者随机的时期效应,it x 表示k 阶解释变量观测值向量。β表示解释变量的系数向量,并且在根据其条件的限制分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。it ε是独立同分布的误差项,即()0it E ε=。 在公式(16.1.1)中,如果考虑k 个解释变量,自由度NT 远小于参数个数,对于截面成员方程,待估计参数的个数为((1))NT k N ++,对于时间截面方程,待估计参数的个数为((1))NT k T ++,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N 个个体成员方程的面板数据模型;在时间点上截面,建立含有T 个时间点截面方程的面板数据模型。 1)含有N 个个体成员方程的面板数据模型 模型形式如下: i T i it i T T i y l x l I αβδγε=++++ (16.1.2) 其中:i y 是个体i 的观观测值的时间序列。系数向量β取值受不同个体的影响,i x 表示个体i 解释变量观测值时间序列。T l 是T 阶的单位行向量,T I 是T 阶的单位列向量。 '12()T γγγγ=L ,,,,包括所有的时点效应。该式含有N 个截面方程。
第十三章 面板数据的处理 一、面板数据的定义、意义和种类 面板数据是调查经历一段时间的同样的横截面数据,具有空间和时间的两种特性。它 还有其他一些名称,诸如混合数据,纵列数据,平行数据等,这些名字都包含了横截面单元在一段时期的活动。 面板数据的优点在于:1.提供了更有价值的数据,变量之间增加了多变性和减少了共线性,并且提高了自由度和有效性。2.能够更好地检测和度量单纯使用横截面数据或时间序列数据无法观测到的影响。3.能够对更复杂的行为模型进行研究。 形如 01122it it it it Y X X u βββ=+++ 其中,i 表示第i 个横截面单元,t 表示第t 年。一般,我们用i 来表示横截面标识符,用t 表示时间标识符。假设N 个横截面单元的观测次数相同,我们称之为平衡面板,反之,称为非平衡面板。一般假设X 是非随机的,误差项遵从经典假设。 二、面板数据回归模型的类型与估计方法 (一)面板数据回归模型的类型 对于面板数据模型 i t i i t i Y X u αβ=++,可能的情形主要有如下几种。 1. 所有系数都不随时间和个体而变化 在横截面上无个体影响、无结构变化,即i j αα=,i j ββ=。则普通最小二乘估计给出了和的一致有效估计。相当于将多个时期的截面数据放在一起作为样本数据。it it it Y X u αβ=++。 2.变截距模型 在横截面上个体影响不同,个体影响表现为在模型中被忽略的反映个体差异的影响,又分为固定效应和随机效应两种。it i it it Y X u αβ=++ 3.变系数模型 除了存在个体影响之外,在横截面上还存在变化的经济结构,因而结构参数在不同横截面单位是不同的。i j αα≠,i j ββ≠。it i it i it Y X u αβ=++。 看到面板数据之后,如何确定属于哪一种类型呢?用F 检验 假设1:斜率在不同的横截面样本点上和时间上都相同,但截距不相同,即情形2。 假设2:截距和斜率在不同的横截面样本点和时间上都相同,即情形1。
在R语言中进行面板数据分析 面板数据(Panel Data)是截面数据与时间序列数据综合起来的一种数据类型。它有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。 面板数据模型的选择通常有三种形式: 第一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。 第二种是固定效应模型(Fixed Effects Regression Model)。如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。该模型刻画了不同个体的特殊影响,而且这个影响不随样本变化。 第三种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。该模型刻画了不同个体的特殊影响,但这个影响会随样本变化。 首先载入程序包和数据 library(plm) 将数据转成可处理的面板格式,特别要注意标明个体名和时间名 pgr <- plm.data(data, index = c("firm", "year")) 先用混合估计模型进行估计 gr_pool <- plm(LOGOUT ~ LOGLABOR + LOGKAP, data = pgr, model = "pooling") 再用固定效应模型进行估计 gr_fe <- plm(LOGOUT ~ LOGLABOR + LOGKAP, data = pgr, model = "within")
一、我对几种面板数据模型的理解 1 混合效应模型pooled model 就是所有的省份,都是相同,即同一个方程,截距项和斜率项都相同 y it =c+bx it +? it c 与b 都是常数 2 固定效应模型fixed-effect model 和随机效应模型random-effects model 就是所有省份,既有相同的部分,即斜率项都相同;也有不同的部分,即截距项不同。 2.1 固定效应模型fixed-effect model y it =a i +bx it +? it cov(c i ,x it )≠0 固定效应方程隐含着跨组差异可以用常数项的不同刻画。每个a i 都被视 为未知的待估参数。x it 中任何不随时间推移而变化的变量都会模拟因个体而已的常数项 2.2 随机效应模型random-effects model y it =a+u i +bx it +? it cov(a+u i ,x it )=0 A是一个常数项,是不可观察差异性的均值,u i 为第i个观察的随机差异性,不随时间变化。 3 变系数模型Variable Coefficient Models(变系数也分固定效应和随机效应) 每一个组,都采用一个方程进行估计。就是所有省份的线性回归方程的截距项和斜率项都不相同。 y it =u i +b i x it +? it 1.混合估计模型就是各个截面估计方程的截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的。如果是考察各个省份,历年的收入对消费影响。则各个省份的回归方程就完全相同,无论是截距,还是斜率。 2.随机效应模型和固定效应模型在斜率项都是相同的,都是截距项不同。区别在于截距项和自变量是否相关,不相关选择随机效应模型,相关选择固定效应模型。则说明各个省份的回归方程,斜率相同,差别的是截距项,即平移项。 3 .变系数模型,就是无论是截距项,还是系数项,对于不同省份,每个省份都有一个回归方程,都一个最适合自己的回归方程,完全不管整体。每个省份的回归方程与其他省份的,无论在斜率上,还是截距上都不相同。 总之,从混合估计模型,到变截距模型,再到变系数模型,考察省份是从完全服从整体和没有个性(回归方程是从整体角度而定的和估计的,是一刀切的,是完全没有差异性和个性的,完全牺牲自我),到随心所欲和完全个性化(每个省份都有一个最适合自己的回归方程)。即从完全无个性而言到完全有个性。