文档库 最新最全的文档下载
当前位置:文档库 › (完整word版)STATA面板数据模型操作命令讲解

(完整word版)STATA面板数据模型操作命令讲解

(完整word版)STATA面板数据模型操作命令讲解
(完整word版)STATA面板数据模型操作命令讲解

STATA 面板数据模型估计命令一览表

一、静态面板数据的STATA 处理命令

εαβit ++=x

y it

i

it

固定效应模型

μβit +=x

y it

it

ε

αμit

+=it

it

随机效应模型

(一)数据处理

输入数据

●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构

●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析)

●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量

gen D_y=D.y /////// 产生一个一阶差分的新变量

gen D2_y=D2.y /////// 产生一个二阶差分的新变量

(二)模型的筛选和检验

●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe

对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。

●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量)

(原假设:使用OLS混合模型)

●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。

●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验)

原假设:使用随机效应模型(个体效应与解释变量无关)

通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下:

Step1:估计固定效应模型,存储估计结果

Step2:估计随机效应模型,存储估计结果

Step3:进行Hausman检验

●qui xtreg sq cpi unem g se5 ln,fe

est store fe

qui xtreg sq cpi unem g se5 ln,re

est store re

hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless)

可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

(三)静态面板数据模型估计

●1、固定效应模型估计

●xtreg sq cpi unem g se5 ln,fe (如下图所示)

其中选项fe表明我们采用的是固定效应模型,表头部分的前两行呈现了模型的估计方法、界面变量的名称(id)、以及估计中使用的样本数目和个体的数目。第3行到第5行列示了模型的拟合优度、分为组内、组间和样本总体三个层面,通常情况下,关注的是组内(within),第6行和第7行分别列示了针对模型中所有非常数变量执行联合检验得到的F统计量和相应的P值,可以看出,参数整体上相当显著。

需要注意的是,表中最后一行列示了检验固定效应是否显著的F统计量和相应的P值。显然,本例中固定效应非常显著。

●2、随机效应模型估计

若假设本例的样本是从一个很大的母体中随机抽取的,且αi与解释变量均不相关,则我们可以将αi视为随机干扰项的一部分。此时,设定随机效应模型更为合适。

●xtreg sq cpi unem g se5 ln,re (如下图所示)

●3、时间固定效应(以上分析主要针对的是个体效应)

如果希望进一步在上述模型中加入时间效应,可以采用时间虚拟变量来实现。首先,我们需要定义一下T-1个时间虚拟变量。

●tab year ,gen(dumt) (tab命令用于列示变量year的组类别,选项gen(dumt)用于生产一个以dumt开头的年度虚拟变量) drop dumt1 (作用在于去掉第一个虚拟变量以避免完全共线性)

若在固定效应模型中加入时间虚拟变量,则估计模型的命令为:

●xtreg sq cpi unem g se5 ln dumt*,fe

(四)异方差和自相关检验

●1、异方差检验(组间异方差)本节主要针对的是固定效应模型进行处理(1)检验

原假设:同方差需要检验模型中是否存在组间异方差,需要使用xttest3命令。

●qui xtreg sq cpi unem g se5 ln,fe

xttest3

显然,原假设被拒绝。此时,需要进一步以获得参数的GLS估计量,命令为xtgls:

xtgls sq cpi unem g se5 ln,panels(heteroskedastic)

其中,组间异方差通过panels()选项来设定。上述结果是采用两步获得,即,先采用OLS估计不考虑异方差的模型,进而利用其残差计算。。。,并最终得到FGLS估计量。

●2、序列相关检验

对于T较大的面板而言,αi往往无法完全反映时序相关性,此时εit便可能存在序列相关,在多数情况下被设定为AR(1)过程。

原假设:序列不存在相关性。

(1) FE模型的序列相关检验

对于固定效应模型,可以采用Wooldridge检验法,命令为xtserial:

●xtserial sq cpi unem g se5 ln

可以发现,这里的P=0.0000,我们可以在1%的显著性水平下爱拒绝不存在序列

相关的原假设。考虑到样本,该检验的最后一步是用~

e it

对~

1-t

e i,

进行OLS回归,

因此,输入以下命令得到8858

.0~

。检验该值是否显著异于-0.5,因为在原假

设下(不相关)5

.0-~

,可见本例中不相等,拒绝原假设,说明存在序列相关。

●mat list e(b)

(2) RE 模型的序列相关检验

对于RE 模型,可以采用xttest1命令来执行检验: ●qui xtreg sq cpi unem g se5 ln dumt*,re xttest1

这里汇报了4个统计量,分别用于检验RE 模型中随机效应(单尾和双尾)、序列相关以及二者的联合显著性,检验结果表明存在随机效应和序列相关,而且对随机效应和序列相关的联合检验也非常显著。 (3) 稳健型估计

上述结果表明,无论是FE 还是RE 模型,干扰项中都存在显著的序列相关。为此,我们进一步采用xtregar 命令来估计模型,首先考虑固定效应模型:

●xtregar sq cpi unem g se5 ln dumt*,fe lbi

●3、“异方差—序列相关”稳健型标准误

虽然上述估计方法在估计方差-协方差矩阵时考虑了异方差和序列相关的影响,但都未将两者联立在一起考虑,要获得“异方差-序列相关”稳健型标准误,只需在xtreg命令中附加vce(robust)或者vce(cluster)选项即可。例如,对于FE模型,我们可以执行如下命令:

●xtreg sq cpi unem g se5 ln,fe vce(robust)

与之前未经处理的估计结果相比,附加命令vce(robust)选项时的结果,虽

然系数的估计值未发生变化,但此时得到的标准误明显增大了,致使得到的估计结果更加保守。对于面板数据模型而言,STATA在计算所谓的“robust”标准误时,是以个体为单位调整标准误的。因此,我们得到的“robust”标准误其实是同时调整了异方差和序列相关后的标准误。换言之,上述结果与设定vce(cluster)选项的结果完全相同。

●4、截面相关检验原假设:截面之间不存在着相关性

(1)FE模型检验

对于FE模型,可以利用xttest2命令来检验截面相关性:

●qui xtreg sq cpi unem g se5 ln,fe

xttest2(该命令主要针对的是大T小N类型的面板数据,在本例中无法使用,故图标略去。) (2)RE模型检验

对于RE模型,可以利用xtcsd命令来检验截面相关性:

●qui xtreg sq cpi unem g se5 ln,re

xtcsd,pesaran (下面命令是另一个检验指标)

xtcsd,frees

可以看出,两种不同的检验方法均显示面板数据存在着截面相关性。

●5、“异方差—序列相关—截面相关”稳健型标准误

(1)FE模型估计

对于FE模型,在确认上述存在着截面相关的情况下,我们可以采用Hoechle(2007)编写的xtscc命令获取Driscoll and Kraay(1998)提出的“异方差—序列相关—截面相关”稳健型标准误:

●xtscc sq cpi unem g se5 ln,fe

这里,xtscc命令会自动选择的滞后阶数为2,系数估计值和Within-R2与xtreg,fe的结果完全相同,但标准误存在着较大差异。可见,在本例中,截面相关对统计推断有较大的影响。

若读者有跟高的方法来确定自相关的滞后阶数,则可以通过lag( )选项设定。当然,在多数情况下,这很难做到。不过我们可以通过附加lag(0)来估计仅考虑异方差和截面相关的稳健型标准误,命令如下:

●xtscc sq cpi unem g se5 ln,fe lag(0)

(2)RE模型估计(略,待补充)

二、动态面板数据的STATA处理命令

(一)差分GMM

xtabond lnwi cd lngdp land doc fir lnroad lnpop fina

xtabond lnwi cd lngdp land doc fir lnroad lnpop fina,lag(2) twostep (二)系统GMM

xtdpdsys lnwi cd lngdp land doc fir lnroad lnpop fina

xtdpdsys lnwi cd lngdp land doc fir lnroad lnpop fina, twostep (三)内生性检验

●estat sargan

(四)序列相关检验

●estat abond

三、门槛(门限回归)面板模型的STATA处理命令

xtthres y, thres(q) dthres(x) bs1(30) bs2(30) bs3(20)

各个门槛的置信区间图:

xttr_graph 第一轮搜索第一个门槛

xttr_graph,m(22) 第二轮搜索第二个门槛

xttr_graph,m(21) 第二轮搜索第一个门槛

xttr_graph,m(3)

呈现估计结果:

local q1=e(rhat21) 取出门槛值

local q2=e(rhat22)

gen d1=(q<=’q1’) 生成虚拟变量

gen d2=(q>’q2’)

gen xd1=x*d1

gen xd2=x*d2

xtreg y x xd1 xd2,fe 常规标准误

est store fe

xtreg y x xd1 xd2,fe robust 稳健型估计

est store fe_ robust

local m”fe fe_ robust”

esttab ‘m’,mtitle(‘m’) nogap s(r2 r2_w N F)///star(*0.1 **0.05 ***0.01) 1.检验:是否存在门槛效应

混合面板:

reg is lfr lfr2 hc open psra tp gr,vce(cluster sf)

固定效应、随机效应模型

xtreg is lfr lfr2 hc open psra tp gr,fe

est store fe

xtreg is lfr lfr2 hc open psra tp gr,re

est store re

hausman fe

两步系统GMM模型

xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2)

注:rlt为被解释变量,“plf1 nai efd op ew ig”为解释变量和控制变量;maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre()表示以某一个变量为前定解释变量;endogenous()表示以某一个变量为内生解释变量。

自相关检验:estat abond

萨甘检验:estat sargan

差分GMM模型

Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2)

内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误;

外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。

前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

stata命令总结

stata11常用命令 注:JB统计量对应的p大于0.05,则表明非正态,这点跟sktest和swilk 检验刚好相反; dta为数据文件; gph为图文件; do为程序文件; 注意stata要区别大小写; 不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令: 读入数据一种方式 input x y 1 4 2 5.5 3 6.2 4 7.7 5 8.5 end su/summarise/sum x 或 su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max) %返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总和),max,min,range, %% sd,var,cv(变易系数=标准差/均值),skewness,kurtosis,median,p1(1%分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 – p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π的数值。 list gen/generate %产生数列 egen wagemax=max(wage) clear use by(分组变量)

STATA面板数据模型操作命令

S T A T A面板数据模型操 作命令 Revised by Jack on December 14,2020

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= αi αi αi εit ~e it ~1-t e i ,8858.0~=θ5.0-~=θ验:是否存在门槛效应 混合面板: reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量;

maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre()表示以某一个变量为前定解释变量;endogenous()表示以某一个变量为内生解释变量。 自相关检验:estat abond 萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误; 外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

STATA面板数据模型操作命令要点

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it ε αμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

STATA最常用命令大全

stata save命令 FileSave As 例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。 STATA数据库的维护 排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护 删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值 用generate产生新变量 generate 新变量=表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列,每个元素重复#次 egen c=seq(),to(4) /*产生多个序列,每个序列从1到# egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2 encode 字符变量名,gen(新数值变量名) 作用:将字符型变量转化为数值变量。 STATA数据库的维护 保留变量或记录 keep in 10/20 /* 保留第10~20个记录,其余记录删除 keep x1-x5 /* 保留数据库中介于x1和x5间的所有变量(包括x1和x5),其余变量删除keep if x>0 /* 保留x>0的所有记录,其余记录删除

(完整)stata命令总结,推荐文档

stata11 常用命令 注:JB统计量对应的p大于0.05 ,则表明非正态,这点跟sktest 和 swilk 检验刚好相反;dta 为数据文件;gph 为图文件;do 为程序文件;注 意stata 要区别大小写;不得用作用户变量名: _all _n _N _skip _b _coef _cons _pi _pred _rc _weight double float long int in if using with 命令:读入数据一种方式 input x y 14 2 5.5 3 6.2 47.7 58.5 end su/summarise/sum x 或su/summarise/sum x,d 对分组的描述: sort group by group:su x %%%%% tabstat economy,stats(max)%返回变量economy的最大值 %%stats括号里可以是:mean,count(非缺失观测值个数),sum(总 和),max,min,range , %% sd ,var ,cv(变易系数=标准差/ 均值),skewness,kurtosis , median,p1(1 %分位 %% 数,类似地有p10, p25, p50, p75, p95, p99),iqr(interquantile range = p75 –p25) _all %描述全部 _N 数据库中观察值的总个数。 _n 当前观察值的位置。 _pi 圆周率π 的数值。 list gen/generate % 产生数列egen wagemax=max(wage) clear use by(分组变量)

stata常用命令

用help命令熟悉以下命令的功能: cd:(Change directory)改变stata的工作路径 用法:(cd changes the current working directory to the specified drive and directory.) ●指定全路径:cd e:\ ●指定相对路径(如果当前路径已经指向e:\那么下面命令将达到和上面全路 径命令同样效果): ●cd .. 返回上一级目录 dir:(Display filenames)显示当前目录下的文件信息 用法:(list the names of files in the specified,the names of the commands come from names popular on Unix and Windows,filespec may be any valid Mac, Unix, or Windows file path or file)工作列表文件中指定的名称目录,命令的名称来自名字流行的Unix和Windows文件规范可以是任何有效的Mac,Unix或Windows文件路径或文件。 . dir, w . dir *.dta . dir \mydata\*.dta List:(List values of variables)列出指定变量的取值 用法:(st displays the values of variables. If no varlist is specified, the values of all the variables are displayed)列表显示变量的值。如果没有指定varlist,所有的值显示的变量。list [varlist] [if] [in] [, options] . list in 1/10 . list mpg weight . list mpg weight in 1/20 . list if mpg>20 . list mpg weight if mpg>20 . list mpg weight if mpg>20 in 1/10 Describe:(Describe data in memory or in file)描述内存或者文件中的数 据(样本数、变量类型等信息) 用法:(describe produces a summary of the dataset in memory or of the data stored in a Stata-format dataset. For a compact listing of variable names, use describe, simple.) ●描述内存数据: ●描述文件数据:describe [varlist] using filename [, file_options] Use:(Load Stata dataset)调用数据,打开数据文件(以dta结尾)文 件名+.dta 数据读入stata 用法:(use loads into memory a Stata-format dataset previously saved by save. If filename is specified without an extension, .dta is assumed. If your

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令,它们之间的 区别在于help用于查找精确的命令名,而search是模糊查找。 如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部 内容。如果你想知道在stata下做某个估计或某种计算,而 不知道具体该如何实现,就需要用search命令了。使用的 方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名 和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出

现“bring do-file editor to front”,点击它就会出现do文件编 辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear (清空内存中的数据)capture log close (关闭所有 打开的日志文件)set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)use (文件名),clear (打开数据文件。)(文件内容)log close (关闭日志文件。)exit,clear (退出并清空内存中的数据。) 实证工作中往往接触的是原始数据。这些数据没有经过整理,有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。回归时如果 使用这些观察,往往得出非常错误的结果。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数

Stata操作入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

5分钟速学stata面板数据回归(初学者超实用!)

5分钟速学stata面板数据回归(超实用!) 第一步:编辑数据。 面板数据的回归,比如该回归模型为:Y it=β0+β1X1it+β2X2it+β3X3it+εt,在stata中进行回归,需要先将各个变量的数据逐个编辑好,该模型中共有Y X1 X2 X3三个变量,那么先从Y的数据开始编辑,将变量Y的面板数据编辑到stata软件中,较方便的做法是,将excel的数据直接复制到stata软件的数据编辑框中,而excel中的数据需要如下图编辑: 从数据的第二行开始选中20个样本数据,如图:

直接复制粘贴至stata中的data editor中,如图: 第二步:格式调整。 首先,请将代表样本的var1Y变量数据是选20个省份5年的数据为样本,那么口令为rename var1 province 。例如:本例中的Y变量数据编辑接下来需要输入口令为reshape long var,i(province) 其中,var代表的是所有的年份(var2,var3,var4,var5,var6),转化后格式如图: 转化成功后,继续重命名,其中_j这里代表原始表中的年份,var代表该变量的名称

例如,我们编辑的是Y变量的数据,所以口令3和口令4的输入如下: 口令3:rename _j year 口令4:rename var taxi (注:taxi就是Y变量,我们用taxi表示Y) 命名完,数据编辑框如下图所示。 第三步:排序。 例如,本例中的Y变量(taxi),是20个省份和5年的面板数据, 那么口令4为sort province year (虽意思是将province按升序排列,然后再根据排好的province数列排year这一列升序排列。然很多时候在执行sort之前,数据已经符合排序要求了,但为以防万一,请务必执行此操作) 第三步:保存。

Stata统计分析命令

Stata统计分析常用命令汇总 一、winsorize极端值处理 范围:一般在1%和99%分位做极端值处理,对于小于1%的数用1%的值赋值,对于大于99%的数用99%的值赋值。 1、Stata中的单变量极端值处理: stata 11.0,在命令窗口输入“findit winsor”后,系统弹出一个窗口,安装winsor模块 安装好模块之后,就可以调用winsor命令,命令格式:winsor var1, gen(new var) p(0.01) 或者在命令窗口中输入:ssc install winsor安装winsor命令。winsor命令不能进行批量处理。 2、批量进行winsorize极端值处理: 打开链接:https://www.wendangku.net/doc/152985742.html,/judson.caskey/data.html,找到winsorizeJ,点击右键,另存为到stata中的ado/plus/目录下即可。命令格式:winsorizeJ var1var2var3,suffix(w)即可,这样会生成三个新变量,var1w var2w var3w,而且默认的是上下1%winsorize。如果要修改分位点,则写成如下格式:winsorizeJ var 1 var2 var3,suffix(w) cuts(5 95)。 3、Excel中的极端值处理:(略) winsor2 命令使用说明 简介:winsor2 winsorize or trim (if trim option is specified) the variables in varlist at particular percentiles specified by option cuts(# #). In defult, new variables will be generated with a suffix "_w" or "_tr", which can be changed by specifying suffix() option. The replace option replaces the variables with their winsorized or trimmed ones. 相比于winsor命令的改进: (1) 可以批量处理多个变量; (2) 不仅可以winsor,也可以trimming; (3) 附加了by() 选项,可以分组winsor 或trimming; (4) 增加了replace 选项,可以不必生成新变量,直接替换原变量。 范例: *- winsor at (p1 p99), get new variable "wage_w" . sysuse nlsw88, clear . winsor2 wage *- left-trimming at 2th percentile . winsor2 wage, cuts(2 100) trim *- winsor variables by (industry south), overwrite the old variables . winsor2 wage hours, replace by(industry south) 使用方法: 1. 请将winsor 2.ado 和winsor2.sthlp 放置于stata12\ado\base\w 文件夹下; 2. 输入help winsor2 可以查看帮助文件;

stata统计操作命令

一, 分类数据的整理: 1. 将softdrink 数据粘贴到stata 的data editor ,形成变量var1 2. 输入命令 generate var2 = 1,生成变量var2 3. 点击 statistics —summaries-tables —one way tables 输入var1,OK ,产生 频数分布表;或输入命令 tabulate var1 Total 50 100.00 Sprite 5 10.00 100.00 Pepsi-Cola 13 26.00 90.00 Dr. Pepper 5 10.00 64.00 Diet Coke 8 16.00 54.00Coke Classic 19 38.00 38.00 var1 Freq. Percent Cum.tabulate var1 4. 点击 graphics —bar chart –在main 下 选择sum var2,在catageries 下选择group1 var1,在bars 下,打钩 label with total bar height ,OK 产生条形图。或命令:graph bar (sum) var2, over(var1) blabel(total) s u m o f v a r 2 5. 输入命令 graph pie var2, over(var1) plabel(_all percent) 生成饼形图

二,数值型数据的整理: 1.将wageweb(50个营销副总裁的年薪1000$)粘贴到stata的data editor上。 2.输入:histogram var1, width(10) start(90) percent addlabel norm 或点击graphics—histogram,输入var1 ,在width of bin 输入10,在lower limited 输入90,在add height label 打钩,在density plot 下打钩normal,生成直方图。 3.点击graphics—box plot ,输入var1,生成箱线图 4.点击statistics—summaries-distributional plot—stem-and-leaf display 选择var1 产生茎叶图。 5,点击statistics—summaries-summary-summary statistics,选择var1,在display additional statistics项打钩,产生数据分布的概括性度量指标。

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998 ,1999,2000, 2001 ??)为横轴,样本名(北京,天津,河北??) 为纵轴 1 裁*■■別1A I 11 ■u 9K ILEXxl- V,j si ao LL B- iic190 ..1( HJ曲1 1 g力?r4 々■l* Mfl 1 KM J| JgRi MM3icm*w II7QQ -HQ SiqD tuff 1 'C4 3 4 IftJV -mi KH>loogi liW (0M 3M9WH jaii I MO Kai W w ■齐itm xm fill OTI Mil taiK ■5W?U|J TXE HH sia心?9 f Id 叼m in a* ft I*■JtaC如M~4 気Hi A|$A rm inoo IM? livra.w vtatr1IJMj X#*4>t1| 筑?BF7 ■?|!N I9*V1IRV gw 1W1VJ I-J H itW Ml ? 稠申审砂y li>M l>R Md w VIM e> mu IM HM 內)944 w 命■ n I L BII i mi 靜Ml hw w 3K:1ST? *7^ FJE inm ifini uni 4 5w 心 HtJ TW JTfl 9MI*HAS ■ilJto KO >4*461/M3 1 <141*11诃却4LJt 4ktt VM匸F w g ivt E4M laM ■ii T PD w im W i.JV 1 P w L*l 1tiZF MM7 <1 H1! liyi 将中文地名替换为数字。

stata常用命令模板

stata 常用命令 (2012-07-29 17:22:25) 转载▼ 分类:stata 标签: 杂谈 save命令 FileSave As 例1. 表1.为某一降压药临床试验数据,试从键盘输入Stata,并保存为Stata格式文件。STATA数据库的维护 排序 SORT 变量名1 变量名2 …… 变量更名 rename 原变量名新变量名 STATA数据库的维护 删除变量或记录 drop x1 x2 /* 删除变量x1和x2 drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5) drop if x<0 /* 删去x1<0的所有记录 drop in 10/12 /* 删去第10~12个记录 drop if x==. /* 删去x为缺失值的所有记录 drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录 drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录 drop _all /* 删掉数据库中所有变量和数据 STATA的变量赋值 用generate产生新变量 generate 新变量=表达式 generate bh=_n /* 将数据库的内部编号赋给变量bh。 generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个 3……。直到数据库结束。 generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。 egen产生新变量 set obs 12 egen a=seq() /*产生1到N的自然数 egen b=seq(),b(3) /*产生一个序列,每个元素重复#次 egen c=seq(),to(4) /*产生多个序列,每个序列从1到# egen d=seq(),f(4)t(6) /*产生多个序列,每个序列从#1到#2 encode 字符变量名,gen(新数值变量名) 作用:将字符型变量转化为数值变量。

stata常用命令

面板数据估计 首先对面板数据进行声明: 前面是截面单元,后面是时间标识: tsset company year tsset industry year 产生新的变量:gen newvar=human*lnrd 产生滞后变量Gen fiscal(2)=L2.fiscal 产生差分变量Gen fiscal(D)=D.fiscal 描述性统计: xtdes :对Panel Data截面个数、时间跨度的整体描述 Xtsum:分组内、组间和样本整体计算各个变量的基本统计量 xttab 采用列表的方式显示某个变量的分布 Stata中用于估计面板模型的主要命令:xtreg xtreg depvar [varlist] [if exp] , model_type [level(#) ] Model type 模型 be Between-effects estimator fe Fixed-effects estimator re GLS Random-effects estimator pa GEE population-averaged estimator mle Maximum-likelihood Random-effects estimator 主要估计方法: xtreg: Fixed-, between- and random-effects, and population-averaged linear models xtregar:Fixed- and random-effects linear models with an AR(1) disturbance xtpcse :OLS or Prais-Winsten models with panel-corrected standard errors xtrchh :Hildreth-Houck random coefficients models

stata命令大全

调整变量格式: format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位 format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位 format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法 format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符 format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐 合并数据: use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta" ——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来 use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort ——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort)建议采用第一种方法。 对样本进行随机筛选: sample 50 在观测案例中随机选取50%的样本,其余删除 sample 50,count 在观测案例中随机选取50个样本,其余删除 查看与编辑数据: browse x1 x2 if x3>3 (按所列变量与条件打开数据查看器) edit x1 x2 if x3>3 (按所列变量与条件打开数据编辑器) 数据合并(merge)与扩展(append) merge表示样本量不变,但增加了一些新变量;append表示样本总量增加了,但变量数目不变。one-to-one merge: 数据源自stata tutorial中的exampw1和exampw2 第一步:将exampw1按v001~v003这三个编码排序,并建立临时数据库tempw1 clear use "t:\statatut\exampw1.dta" su ——summarize的简写 sort v001 v002 v003 save tempw1 第二步:对exampw2做同样的处理 clear use "t:\statatut\exampw2.dta" su sort v001 v002 v003 save tempw2 第三步:使用tempw1数据库,将其与tempw2合并: clear use tempw1 merge v001 v002 v003 using tempw2

stata处理面板数据及修正命令集合

步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。 注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。 打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using 文件路径 调用例如:insheet using C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1 样本名 例如:rename var1 province 也可直接在var1处双击,在弹出的窗口中修改: 接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j year rename var taxi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 步骤三:排序 口令:sort 变量名 例如:sort province year 意思为将province按升序排列,然后再根据排好的province数列排year这一列 最后,保存。 至此,一个变量的前期数据处理就完成了,请如法炮制的处理所有的变量,也就是说每个变量都做一个dta文件。在处理新变量前请使用 口令:clear 将stata重置 步骤四:合并数据 任意打开一个处理过的变量的dta文件作为基础表(推荐使用因变量的dta文件,这里使用

常用到的stata命令

安装estat: ssc install estout,replace\ 2010-10-14 11:38:15来自: 杨囡囡(all a woman lack is a wife) (转自人大论坛) 调整变量格式: format x1 %10.3f ——将x1的列宽固定为10,小数点后取三位 format x1 %10.3g ——将x1的列宽固定为10,有效数字取三位 format x1 %10.3e ——将x1的列宽固定为10,采用科学计数法 format x1 %10.3fc ——将x1的列宽固定为10,小数点后取三位,加入千分位分隔符 format x1 %10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符 format x1 %-10.3gc ——将x1的列宽固定为10,有效数字取三位,加入千分位分隔符,加入“-”表示左对齐 合并数据: use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge using "C:\Documents and Settings\xks\桌面\1999.dta" ——将1999和2006的数据按照样本(observation)排列的自然顺序合并起来 use "C:\Documents and Settings\xks\桌面\2006.dta", clear merge id using "C:\Documents and Settings\xks\桌面\1999.dta" ,unique sort ——将1999和2006的数据按照唯一的(unique)变量id来合并,在合并时对id进行排序(sort) 建议采用第一种方法。 对样本进行随机筛选: sample 50 在观测案例中随机选取50%的样本,其余删除 sample 50,count 在观测案例中随机选取50个样本,其余删除 查看与编辑数据:

stata命令大全(全)

*********面板数据计量分析与软件实现********* 说明:以下do文件相当一部分容来自于大学连玉君STATA教程,感他的贡献。本人做了一定的修改与筛选。 *----------面板数据模型 * 1.静态面板模型:FE 和RE * 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验 * 4.动态面板模型(DID-GMM,SYS-GMM) * 5.面板随机前沿模型 * 6.面板协整分析(FMOLS,DOLS) *** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。 * 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA) *** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog 生产函数,一步法与两步法的区别。常应用于地区经济差异、FDI溢出效应(Spillovers Effect)、工业行业效率状况等。 * 空间计量分析:SLM模型与SEM模型 *说明:STATA与Matlab结合使用。常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。 * --------------------------------- * --------一、常用的数据处理与作图----------- * --------------------------------- * 指定面板格式 xtset id year (id为截面名称,year为时间名称) xtdes /*数据特征*/ xtsum logy h /*数据统计特征*/ sum logy h /*数据统计特征*/ *添加标签或更改变量名 label var h "人力资本" rename h hum *排序 sort id year /*是以STATA面板数据格式出现*/ sort year id /*是以DEA格式出现*/ *删除个别年份或省份 drop if year<1992 drop if id==2 /*注意用==*/

相关文档