文档库 最新最全的文档下载
当前位置:文档库 › Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门
Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门

第一讲Stata操作入门

张文彤赵耐青

第一节概况

Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。

Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。

由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。

Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。

由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。

第二节Stata操作入门

一、Stata的界面

图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下:

1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。

2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

3.命令回顾窗口:即review窗口,位于界面左上方,所有执行过的命令会依次在该窗口中列出,单击后命令即被自动拷贝到命令窗口中;如果需要重复执行,用鼠标双击相应的命令即可。

4.变量名窗口:位于界面左下方,列出当前数据及中的所有变量名称,。

除以上四个默认打开的窗口外,在Stata中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log窗口等,如果需要使用,可以用Window或Help菜单将其打开。

命令

回顾

窗口

变量名窗口

结果窗

图1 Stata 7.0启动后的界面

命令窗口

二、数据的录入与储存

Stata为用户提供了简捷,但是非常完善的数据接口,熟悉它的用法是使用Stata的第一步,在Stata中读入数据可以有三种方式:直接从键盘输入、打开已有数据文件和拷贝、粘贴方式交互数据。1)从键盘输入数据

在Stata中可以使用命令行方式直接建立数据集,首先使用input 命令制定相应的变量名称,然后一次录入数据,最后使用end语句

表明数据录入结束。

例1 在某实验中得到如下数据,请在Stata中建立数据集。

观测数据

X 1 3 5 7 9

Y 2 4 6 8 10

解:此处需要建立两个变量X、Y,分别录入相应数值,Stata中的操作如下,其中划线部分为操作者输入部分。

. drop _all

. input x y

x y

1. 1 2

2. 3 4

3. 5 6

4. 7 8

5. 9 10

6. end

2)用stata的数据编辑工具

①进入数据编辑器

进入stata界面,在命令栏键入edit或在stata的window下

拉菜单中单击data editor或点击编辑图标(注意:是浏览图标,点击后只能浏览,不能编辑)即可进入stata数据编辑器。(stata界面如下图2)

图2

②数据编辑

stata 数据编辑器界面:此时进入了数据全屏幕编辑状态。

图3

在第一列输入数据后,Stata第一列自动命名为var1;在第二列输入数据后,第二列自动命名为var2……依次类推。在输入数据后,双击纵格顶端的变量名栏(如:Var1或Var2处),可以更改变量名,

并可以在label栏中注释变量名的含义,点击OK 确认(如图4所示)。仍沿用上例,双击观察值所在列顶端的变量名栏,更改变量名为x,并在label栏中注明“7岁男童身高(cm)”。

点击此处可以改变量名

图4

数据输入完毕后,单击preserve键确认所输数据,按关闭键即可退出编辑器。

图5

数据输入完毕后,单击preserve键确认所输数据,按关闭键

即可退出编辑器。

3)拷贝、粘贴方式交互数据

Stata的数据编辑窗口是一个简单的电子表格,可以使用拷贝、粘贴方式直接和EXCEL等软件交互数据,在数据量不大时,这种方式操作极为方便。

例2 现在EXCEL中已录入了三个变量,共五条记录,格式见下图,请将数据读入Stata。

解:首先将EXCEL中的A1~C6全部18个单元格选中,选择菜单编辑→复制,将数据拷贝到剪贴板上;然后切换到Stata,选择菜单Window→Data Editor,打开数据编辑窗口;再选择Edit→Paste,相应的数据就会被直接粘贴如数据编辑窗口中,并且变量名、记录数、

变量格式等均会被自动正确设置,见图6和图7。

图6 在EXCEL中的数据格式图7 粘贴入Stata后的数据格式4)、打开已有的数据文件

Stata能够直接打开的数据文件只能是自身专用格式或者以符号分隔的纯文本格式,后者第一行可以是变量名,分述如下:1.点击图标,然后选择路径和文件名,可以打开Stata专用格式的数据文件,并且扩展名为.dta。

2.打开Dta数据文件:该格式文件是Stata的专用格式数据文件,也使用use命令即可打开,例如要打开数据文件“C:\data1.dta”,则命令为:

. use c:\data1

即扩展名可以省略,如果Stata中已经修改或者建立了数据集,则需要使用clear选项清除原有数据,命令为:

. use c:\data1 , clear

3.读入文本格式数据:需要使用insheet命令实现,例如需要读入已建立好的文本格式数据文件“C:\data1.txt”,则命令为:. insheet using c:\data1.txt

该命令会自动识别第一行是否为变量名,以及变量列间的分隔符是tab、逗号还是其他字符。如果Stata中已经修改或者建立了数据

集,则需要使用clear选项清除原有数据,命令为:

. insheet using c:\data1.txt , clear

5)数据文件的保存

为了方便以后重复使用,输入Stata的数据应存盘。Stata实际上只能将数据存为自身专用的数据格式或者纯文本格式,分述如下:1.点击图标,然后选择路径和文件名,点击保存。

2.存为dta格式:可以直接使用文件菜单,也可以使用save 命令操作,如欲将上面建立的数据文件存入“C:\”中,文件名为Data1.dta,则命令为:

. save c:\data1

file c:\data1.dta saved

该指令将在C盘根目录建立一个名为“data1.dta”的Stata数据文件,后缀dta可以在命令中省略,会被自动添加。该文件只能在Stata中用use命令打开。如所指定的文件已经存在,则该命令将给出如下信息:file c:\data1.dta already exists,告诉用户在该目标盘及子目录中已有相同的文件名存在。如欲覆盖已有文件,则加选择项replace。命令及结果如下:

. save c:\data1.dta , replace

file c:\data1.dta saved

2.存为文本格式:需要使用outsheet命令实现,该命令的基本格式如下。

outsheet [变量名列表] using 文件名[, nonames replace ]

其中变量名列表如果省略,则将全部变量存入指定文件。

如欲将上面建立的数据文件存入文本文件“C:\data1.txt”中,则命令为:

. outsheet using c:\data1.txt

此时建立的文件data1.txt第一行为变量名,第2~6行为变量值。变量列间用Tab键分隔。如果不希望在第一行存储变量名,则可以使用nonames选项。如果文件已经存在,则需要使用replace选项。

STATA面板数据模型操作命令

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= αi αi αi εit ~e it ~1-t e i ,8858.0~=θ5.0-~=θ验:是否存在门槛效应 混合面板: reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量; maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre ()表示以某一个变量为前定解释变量;endogenous ()表示以某一个变量为内生解释变量。

自相关检验:estat abond 萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误;外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

最新Stata软件基本操作和数据分析入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

STATA面板数据模型操作命令讲解

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 it x y it i it 固定效应模型 it it it 随机效应模型(一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= i i i it ~e it ~1-t e i ,8858.0~ 5.0-~验:是否存在门槛效应 混合面板:reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量; maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre ()表示以某一个变量为前定解释变量;endogenous ()表示以某一个变量为内生解释变量。 自相关检验:estat abond

萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误; 外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

5分钟速学stata面板数据回归(初学者超实用!)

5分钟速学stata面板数据回归(超实用!) 第一步:编辑数据。 面板数据的回归,比如该回归模型为:Y it=β0+β1X1it+β2X2it+β3X3it+εt,在stata中进行回归,需要先将各个变量的数据逐个编辑好,该模型中共有Y X1 X2 X3三个变量,那么先从Y的数据开始编辑,将变量Y的面板数据编辑到stata软件中,较方便的做法是,将excel的数据直接复制到stata软件的数据编辑框中,而excel中的数据需要如下图编辑: 从数据的第二行开始选中20个样本数据,如图:

直接复制粘贴至stata中的data editor中,如图: 第二步:格式调整。 首先,请将代表样本的var1Y变量数据是选20个省份5年的数据为样本,那么口令为rename var1 province 。例如:本例中的Y变量数据编辑接下来需要输入口令为reshape long var,i(province) 其中,var代表的是所有的年份(var2,var3,var4,var5,var6),转化后格式如图: 转化成功后,继续重命名,其中_j这里代表原始表中的年份,var代表该变量的名称

例如,我们编辑的是Y变量的数据,所以口令3和口令4的输入如下: 口令3:rename _j year 口令4:rename var taxi (注:taxi就是Y变量,我们用taxi表示Y) 命名完,数据编辑框如下图所示。 第三步:排序。 例如,本例中的Y变量(taxi),是20个省份和5年的面板数据, 那么口令4为sort province year (虽意思是将province按升序排列,然后再根据排好的province数列排year这一列升序排列。然很多时候在执行sort之前,数据已经符合排序要求了,但为以防万一,请务必执行此操作) 第三步:保存。

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998 ,1999,2000, 2001 ??)为横轴,样本名(北京,天津,河北??) 为纵轴 1 裁*■■別1A I 11 ■u 9K ILEXxl- V,j si ao LL B- iic190 ..1( HJ曲1 1 g力?r4 々■l* Mfl 1 KM J| JgRi MM3icm*w II7QQ -HQ SiqD tuff 1 'C4 3 4 IftJV -mi KH>loogi liW (0M 3M9WH jaii I MO Kai W w ■齐itm xm fill OTI Mil taiK ■5W?U|J TXE HH sia心?9 f Id 叼m in a* ft I*■JtaC如M~4 気Hi A|$A rm inoo IM? livra.w vtatr1IJMj X#*4>t1| 筑?BF7 ■?|!N I9*V1IRV gw 1W1VJ I-J H itW Ml ? 稠申审砂y li>M l>R Md w VIM e> mu IM HM 內)944 w 命■ n I L BII i mi 靜Ml hw w 3K:1ST? *7^ FJE inm ifini uni 4 5w 心 HtJ TW JTfl 9MI*HAS ■ilJto KO >4*461/M3 1 <141*11诃却4LJt 4ktt VM匸F w g ivt E4M laM ■ii T PD w im W i.JV 1 P w L*l 1tiZF MM7 <1 H1! liyi 将中文地名替换为数字。

[推荐] stata基本操作汇总常用命令

[推荐] Stata基本操作汇总——常用命令 help和search都是查找帮助文件的命令,它们之间的 区别在于help用于查找精确的命令名,而search是模糊查找。 如果你知道某个命令的名字,并且想知道它的具体使用方法,只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部 内容。如果你想知道在stata下做某个估计或某种计算,而 不知道具体该如何实现,就需要用search命令了。使用的 方法和help类似,只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名 和链接列表。在列表中寻找最相关的内容,点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找,反复实验,通常可以较快地找到你需要的内容.下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成,所以,当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同,你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata 窗口上部的工具栏中有个孤立的小按钮,把鼠标放上去会出

现“bring do-file editor to front”,点击它就会出现do文件编 辑器。 为了使do文件能够顺利工作,一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。capture clear (清空内存中的数据)capture log close (关闭所有 打开的日志文件)set more off (关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出。)set matsize 4000 (设置矩阵的最大阶数。我用的是不是太大了?)cd D: (进入数据所在的盘符和文件夹。和dos的命令行很相似。)log using (文件名).log,replace (打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果。)use (文件名),clear (打开数据文件。)(文件内容)log close (关闭日志文件。)exit,clear (退出并清空内存中的数据。) 实证工作中往往接触的是原始数据。这些数据没有经过整理,有一些错漏和不统一的地方。比如,对某个变量的缺失观察值,有时会用点,有时会用-9,-99等来表示。回归时如果 使用这些观察,往往得出非常错误的结果。还有,在不同的数据文件中,相同变量有时使用的变量名不同,会给合并数

Stata命令整理

Stata 命令语句格式: [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options] 1、[by varlist:] *如果需要分别知道国产车和进口车的价格和重量,可以采用分类操作来求得, sort foreign //按国产车和进口车排序 . by foreign: sum price weight *更简略的方式是把两个命令用一个组合命令来写。 . by foreign, sort: sum price weight 如果不想从小到大排序,而是从大到小排序,其命令为gsort。 . sort - price //按价格从高到低排序 . sort foreign -price /*先把国产车都排在前,进口车排在后面,然后在国产车内再按价格从大小到排序,在进口车内部,也按从大到小排序*/ 2、[=exp]赋值运算 . gen nprice=price+10 //生成新变量nprice,其值为price+10 /*上面的命令generate(略写为gen) 生成一个新的变量,新变量的变量名为 nprice,新的价格在原价格的基础上均增加了10 元。 . replace nprice=nprice-10 /*命令replace 则直接改变原变量的赋值,nprice调减后与price 变量取值相等*/ 3、[if exp]条件表达式 . list make price if foreign==0 *只查看价格超过1 万元的进口车(同时满足两个条件),则 . list make price if foreign==1 &price>10000 *查看价格超过1 万元或者进口车(两个条件任满足一个) . list make price if foreign==1 | price>10000 4、[in range]范围筛选 sum price in 1/5 注意“1/5”中,斜杠不是除号,而是从1 到 5 的意思,即1,2,3,4,5。 如果要计算前10 台车中的国产车的平均价格,则可将范围和条件筛选联合使用。 . sum price in 1/10 if foreign==0 5、[weight]加权 sum score [weight=num]其中,num为每个成绩所对应的人数 6、[, options]其他可选项 例如,我们不仅要计算平均成绩,还想知道成绩的中值,方差,偏度和峰度等*/ . sum score, detail . sum score, d //d 为detail 的略写,两个命令完全等价 . list price, nohead//不要表头 Stata 数据类型转换 1、字符型转化成数值型 destring, replace //全部转换为数值型,replace 表示将原来的变量(值)更新 destring date, replace ignore(“ ”)将字符型数据转换为数值型数据:去掉字符间的空格destring price percent, gen(price2 percent2) ignore(“$ ,%”)与date 变量类似,变量price 前面有美元符号,变量percent 后有百分号,换为数值型时需要忽略这些非数值型字符 2、数值型转化为字符型

Stata操作入门(中文)

第一讲Stata操作入门 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来 越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才 和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同 一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹 服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。 除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。 事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口 位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。

5分钟搞定Stata面板数据分析小教程

5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 口令:insheet u sing 文件路径 例如:insheet u sing C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 数据请以时间(1999,2000,2001 )为横轴,样本名(1,2,3 )为纵轴 请注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值,没有数据的位置请以0代替。 如图: 也可直接将数据复制粘贴到stata的data e ditor中 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename v ar1 样本名 例如:rename v ar1 p rovince

也可直接在var1处双击,在弹出的窗口中修 改: 接下来将数据转化为面板数据的格式 口令:reshape l ong v ar, i(样本名) 例如:reshape l ong v ar, i(province) 其中var代表的是所有的年份(var2,var3,var4 ) 转化后的格式如图:

转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j y ear rename v ar t axi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

步骤三:排序 口令:sort 变量名 例如:sort p rovince y ear 意思为将province按升序排列,然后再根据排好的province数列排year这一列 如图:

stata处理面板数据及修正命令集合

步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。 注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。 打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using??文件路径 调用例如:insheet using? C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1?样本名 例如:rename var1 province ?也可直接在var1处双击,在弹出的窗口中修改: 接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j year rename var taxi

也可直接在需要修改的名称处双击,在弹出的窗口中修改 步骤三:排序 口令:sort?变量名 例如:sort province year 意思为将province按升序排列,然后再根据排好的province数列排year这一列 最后,保存。 至此,一个变量的前期数据处理就完成了,请如法炮制的处理所有的变量,也就是说每个变量都做一个dta文件。在处理新变量前请使用 口令:clear 将stata重置 步骤四:合并数据 任意打开一个处理过的变量的dta文件作为基础表(推荐使用因变量的dta文件,这里使用so2作为因变量) 口令:?merge?样本名时间?using?文件路径 例如:merge province year using C:\STUDY\paper\taxi.dta ?意思是将taxi的数据添加到so2的数据表中 然后使用 口令:tab _merge 然后使用 口令:drop _merge 将数据表中的_merge一列去掉, 接着重新使用 口令:sort?样本名时间 例如:sort province year 为新生成的表排序。 如法炮制,将所有的变量都添加到基础表中,

stata简单讲义第五讲

Stata软件基本操作和数据分析入门 第五讲多组平均水平的比较 赵耐青 一、复习和补充两组比较的统计检验 1. 配对设计资料(又称为Dependent Samples) a)对于小样本的情况下,如果配对的差值资料服从正态分布,用配对t检验 (ttest 差值变量=0) b)大样本的情况下,可以用配对t检验 c)小样本的情况下,并且配对差值呈偏态分布,则用配对符号秩检验(signrank 差值变量=0) 2. 成组设计(Two Independent Samples) a)如果方差齐性并且大样本情况下,可以用成组t检验(ttest 效应指标变 量,by(分组变量)) b)如果方差齐性并且两组资料分别呈正态分布,可以用成组t检验 c)(Ranksum test)

二、多组比较 1. 完全随机分组设计(要求各组资料之间相互独立) a)方差齐性并且独立以及每一组资料都服从正态分布(小样本时要求),则采用 完全随机设计的方差分析方法(即:单因素方差分析,One Way ANOV A)进 行分析。 b)方差不齐或小样本情况下资料偏态,则用Kruskal Wallis 检验(H检验) 例5.1 为研究胃癌与胃粘膜细胞中DNA含量(A.U)的关系,某医师测得数据如下,试问四 组人群的胃粘膜细胞中平均DNA含量是否相同? 组别group DNA含量(A.U) 浅表型胃炎 1 9.81 12.73 12.29 12.53 12.95 9.53 12.6 8.9 12.27 14.26 10.68 肠化生 2 14.61 17.54 15.1 17 13.39 15.32 13.74 18.24 13.81 12.63 14.53 16.17早期胃癌 3 23.26 20.8 20.6 23.5 17.85 21.91 22.13 22.04 19.53 18.41 21.48 20.24

1 STATA入门

1 STATA入门 Stata统计软件包是目前世界上最著名的统计软件之一,与SAS、SPSS一起被并称为三大权威软件。它广泛的应用于经济、教育、人口、政治学、社会学、医学、药学、工矿、农林等学科领域,同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,几乎可以完成全部复杂的统计分析工作。其功能非常强大且操作简单、使用灵活、运行速度极快,在许多方面别具一格,而且操作灵活简单,易学易用。 Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。尽管它也提供了窗口菜单式的操作方式,但强烈建议大家坚持使用命令行/程序操作方式,很快你就会体会到使用程序和命令方式所带来的那种随心所欲自由地处理和分析数据的快感。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。这一特点使得STATA始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 STATA由美国计算机资源中心(Computer Resource Center)研制,现为STATA 公司的产品。从1985至2007的二十多年时间里,已连续推出1.1,1.2,…,7.0,8.0,9.0,10.0等多个版本。我们将要学习的是9.0版本。 1安装 (1) https://www.wendangku.net/doc/6417662662.html,/bbs/dispbbs.asp?boardID=67&ID=97705&page=2 上有stata9.rar下载,但是做正式的论文或工作还是应该尽量用正版软件。 (2)将其解压到D:/stata9。 (3)点击setup安装>>改变安装路径到D:/stata8>>选择Stata/SE版本。 1.2启用和退出 (1) 程序→Stata,即可进入Stata,启动后出现文件对话框,要求输入注册单位和密码等。

[数据分析] 推荐 Stata软件基本操作和数据分析入门

Stata是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。在全球范围内被广泛应用于企业和学术机构中。用Stata 绘制的统计图形相当精美,很有特色。 它与 SPSS、SAS 并称为当今三大统计软件。与后者相比,Stata 体积小巧、简单易懂且功能强大。Stata 把EViews, SPSS 的傻瓜式菜单和SAS 的命令、编程完美结合起来,所以它一推出就受到了初学者和高级用户的普遍欢迎。 01 Stata的功能 标准方法 ?基本表格整理 ?统计分析 ?方差分析 ?经典线性回归 ?Time series ?聚类分析 ?因子分析 ?主成分分析 ?数据处理 ?绘图 高级方法 ?多层模型 ?生存分析 ?动态面板

?编程 ?贝叶斯分析 ?合成控制法 ?面板门限回归 02 Stata的优势 ?操作简单、易学习 ?统计分析功能完备、运行速度快 ?制图图形质量高,出版级别 ?兼容性强、可使用丰富的第三方插件,能应对科研大多数据统计分析需求 ?可混用菜单和命令 ...... 03 适用领域 统计学、经济学、计量经济学、医学 S t a t a 为了帮助同学们更好的学习了解Stata的使用,我们请到了华中科技大学行政管理学博士——宋丽洁,为大家讲解Stata的功能及使用。 通过课程你会对STATA强大的数据处理、统计分析功能的深入了解;获得STATA学习的重要资源;掌握利用STATA提高数据处理的方法;为后续深入学习STATA及数据的统计分析等奠定良好的基础。

04 课程主题 《Stata软件基本操作和数据分析入门》 05 开课时间 7月29日20:00-21:00 07 上课方式 在线视频直播+永久回放+社群交流答疑 08

计量经济学stata操作指南

计量经济学stata操作(实验课) 第一章stata基本知识 1、stata窗口介绍 2、基本操作 (1)窗口锁定:Edit-preferences-general preferences-windowing-lock splitter (2)数据导入 (3)打开文件:use E:\example.dta,clear (4)日期数据导入: gen newvar=date(varname, “ymd”) format newvar %td 年度数据 gen newvar=monthly(varname, “ym”) format newvar %tm 月度数据 gen newvar=quarterly(varname, “yq”) format newvar %tq 季度数据 (5)变量标签 Label variable tc ` “total output” ’ (6)审视数据 describe list x1 x2 list x1 x2 in 1/5 list x1 x2 if q>=1000 drop if q>=1000 keep if q>=1000 (6)考察变量的统计特征 summarize x1 su x1 if q>=10000 su q,detail su tabulate x1 correlate x1 x2 x3 x4 x5 x6 (7)画图 histogram x1, width(1000) frequency kdensity x1 scatter x1 x2 twoway (scatter x1 x2) (lfit x1 x2) twoway (scatter x1 x2) (qfit x1 x2) (8)生成新变量 gen lnx1=log(x1) gen q2=q^2 gen lnx1lnx2=lnx1*lnx2 gen larg=(x1>=10000) rename larg large

stata数据分析

合肥学院 《计量经济与实证分析》实验报告 题目:地区财政收入影响因素 学生姓名:朱盈超学号:23 系别:管理系专业:财务管理 提交时间:2015 年11 地区财政收入影响因素 一、实验目的 研究地区财政收入影响的因素有哪些,判断这些因素是否存在多重共线性,并提出解决

二、实验内容 1.用软件计算回归结果 2.根据回归结果判断是否存在多重共线性,提出解决多从共线性的方法 3.判断是否存在其他未被纳入模型的因素 三、实验过程与结论 第一步:构建模型 以财政收入为被解释变量,固定资产投资总额、工业总产值、农林牧渔总产值、社会消费品零售总额以及地区总人口为解释变量建立线性回归模型。 Y=β0 + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + u 其中: Y----财政收入 X1----固定资产投资总额 X2----工业总产值 X3----农林牧渔总产值 X4----社会消费品零售总额 X5----地区总人口 β0、β1、β2、β3、β4、β5----表示待定系数

u----表示随机误差项 第二步:利用stata软件计算回归结果,结果如下: F值, R-square 5个变量由T值看均没有通过显著性检验,R 平方很大,所以可能存在多重共线性这时的模型方程为Y=+第二步进行多重共线性的检验 判断VIF值大小

从结果看出vif=大于10,所以存在多重共线性。下面开始采取补救措施 进行主成分分析 多重共线性检验修正

进行逐步回归剔除X1X2X5变量留下X3X4 从VIF值可以看出多重共线性不存在了 (3)可能还有地区发展不平衡,国际环境不稳定,国家对经济发展的结构性调整等因素影响地区财政收入。 合肥学院 《计量经济与实证分析》实验报告

STATA 学习入门必须知道的基础

STATA 学习入门必须知道的基础 作者:量化研究方法 关于Stata软件,我经常会被人问道:“你知道它到底能做什么吗?”那我们今天就带大家来了解一下这门当下热门的软件究竟的用处是什么? 1 关于Stata,这些基础的东西你必须要知道 很长一段时间里,我一直把“Stata”读为“Stay-ta”。有一次和一个从日本回来的朋友聊天,她把Stata读为“Star-ta”,让我甚感不适。经查阅,方才发现,原来“Stata”并非数个单词的缩写(因此其正确拼写为Stata 而非STATA),而是由“statistics”和“data”合成的一个新词。从这个小小的趣闻中,可以看出Stata 在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了三十余年的发展,Stata 已经升级到第15版,在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。Stata 擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色。(表1) 2为何选择Stata? 这是个不太容易回答的问题。Stata网站列举了数条可能的原因。Edwards(2005)曾经非常细致地对比了Stata,SPSS和SAS的优劣。Princeton大学的Torres-Reyna博士则将四种常用软件的特征总结为表2。整体而言,Stata具有较强的优势。 3 弱水三千,我为何钟情于Stata? 就我个人的经历而言,如下几个原因使我自2003年以来一直钟情于Stata。 Stata的数据处理功能很强大。由于将数据导入内存后进行运算,其速度非常快。在多个数据文件的合并和追加,以及文字资料、时序资料,以及调查资料的处理方面,Stata 总能以极为简洁的命令完成分析。

STATA初级视频教程说明书(连玉君)

STATA初级视频教程(2010版) 使用说明 连玉君 (中山大学 岭南学院 金融系) arlionn@https://www.wendangku.net/doc/6417662662.html, 目 录 1 课程简介 (1) 2 课程特色 (2) 3 课程配套资料 (2) 4 配套资料的使用方法 (2) 5 讨论和建议 (4) 6 讲师介绍 (4) 7 报名咨询 (4) 8 培训优惠 (4) 附录A:STATA初级视频目录(时间节点) (5) 第一讲STATA简介 (5) 第二讲数据处理 (9) 第三讲Stata绘图 (13) 第四讲矩阵操作 (16) 第五讲STATA 编程初步 (18) 附录B:STATA高级视频教程简介 (20)

工欲善其事,必先利其器。无论是经济学、管理学还是社会科学的其他学科,定量分析都变得越来越重要了。作为一个较为年轻的计量软件,STATA自1985年问世以来,以其在数据处理、绘图、回归分析等方面的出色表现,赢得了越来越多的青睐。然而,相比于SPSS、Eviews等以菜单操作为主的软件,以命令操作见长的STATA软件门槛相对较高。由于进入国内的时间较短,相关的参考资料甚为有限,而STATA公司提供的近10000页的全英文使用手册更是令多数初学者望而生畏。这也成为阻碍多数国内同仁学习这款功能强大的计量软件的主要障碍。 鉴于上述情况,我们分别于2007年11月和2008年10月推出了“STATA初级视频教程”和“STATA高级视频教程”,内容涉及STATA的基本操作、数据处理、绘图、编程、常用计量模型的估计,以及Bootstrap和Monte Carlo模拟等内容。视频教学的直观性,加之课程的实用性导向,使这两套教程获得了广泛的好评。承蒙广大STATA视频教程学员的积极参与和反馈,我在过去两年多的时间里收集到了100余条修改建议,历经半年多的制作,最终得以为大家呈现这套新版STATA初级视频——“STATA初级视频教程(2010版)”。 STATA初级视频教程(2010版)共5讲,包含36个视频文件,总计40余个学时。内容涉及:STATA入门、数据处理、绘图、矩阵以及编程。内容简介如下(详细目录见附录A):第1讲从整体上介绍了STATA的基本架构,以便使学员在最短的时间内掌握STATA的精髓,包括:数据的导入导出、执行命令、修改和查验资料、log文件和do文件的使用、STATA与Word(Excel、LaTeX)等软件的完美结合,以及STATA常用设定等内容。 第2讲通过大量的实例,介绍了各种数据处理技巧,是本课程最为核心、最有特色的内容。主要包括:复杂变量的创建;分位数;重复样本值、缺漏值和离群值的处理;资料的合并、追加和重新组合;文字变量、类别变量的处理;时间序列和面板资料的处理;以及数据的查验和对比等内容。这些内容的学习将大幅提高学员的数据处理能力。 第3讲介绍STATA绘图。为了达到举一反三的效果,我先从整体上介绍STATA绘图的基本知识,进而将绘图命令拆解成8类选项和5类元素,并最终通过40余个实例全面介绍了15类常用图形的绘制方法。 第4讲介绍STATA矩阵操作,包括矩阵的定义和管理、矩阵运算、矩阵解析等四个主题,为后续学习STATA编程知识奠定了扎实的基础。 第5讲介绍STATA编程的基本知识,包括:程序的定义和调用、单值、暂时性物件(暂元、暂时性变量、暂时性文件、暂时性矩阵等)、循环语句、条件语句,以及STATA返回值的引用等内容。通过本讲的学习,学员将能够通过独立编写STATA程序来提高数据处理和模型估计的效率,为后续学习STATA高级程序奠定基础。 以上各讲都以专题的形式进行讲解,其中不但包含了STATA官方提供的常用命令,还包含了大量外部命令(520多个),为学员提供了强有力的实证分析工具。

最新Stata面板数据的统计分析

S t a t a面板数据的统 计分析

面板数据的统计分析(Stata) 在写论文时经常碰见一些即是时间序列又是截面的数据,比如分析1999-2010的公司盈余管理影响因素,而影响盈余管理的因素有6个,那么会形成如下图 和截面数据都是二维的,把面板数据当成时间序列数据或者截面数据来处理都是不合适的。 处理面板数据的软件较多,一般使用Eviews6.0、Stata等。个人推荐使用Stata,因为Stata比较适合处理面板数据,且个性化强。以下以Stata11.0为例来讲解怎么样处理面板数据。 由于面板数据的存储结构与我们通常使用的存储结构不太一样,所在统计分 启动Stata11.0,Stata界面有4个组成部分,Review(在左上角)、Variables (左下角)、输出窗口(在右上角)、Command(右下角)。首先定义变量,可以输入命令,也可以通过点击Data----Create new Variable or change variable。 特别注意,这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等,还要定义年份和公司名称两个变量,这两个变量的数据类型(Type)最好设置为int(整型),公司名称不要使用中文名称或者字母等,用数字代替。定义好变量之后可以输入数据了。数据可以直接导入(File-Import),也可以手工录入或者复制粘贴(Data-Data Edit(Browse)),手工录入数据和在excel中的操作一样。

以上面说的为例,定义变量 year、 company、 factor1、 factor2、 factor3、factor4、 factor5、 factor6、 DA。 变量company 和year分别为截面变量和时间变量。显然,通过这两个变量我们可以非常清楚地确定panel data 的数据存储格式。因此,在使用STATA 估计模型之前,我们必须告诉它截面变量和时间变量分别是什么,所用的命令为tsset,命令为: tsset company year 输出窗口将输出相应结果。 由于面板数据本身兼具截面数据和时间序列二者的特性,所以对时间序列进行操作的运算同样可以应用到面板数据身上。这一点在处理某些数据时显得非常方便。如,对于上述数据,我们想产生一个新的变量Lag _factor1 ,也就是factor1 的一阶滞后,那么我们可以采用如下命令: gen Lag_factor1=L.factor1 差分变量: Gen fiscal(D)=D.fiscal 统计描述: 在正式进行模型的估计之前,我们必须对样本的基本分布特性有一个总体的了解。对于面板数据而言,我们至少要知道我们的数据中有多少个截面(个体) ,每个截面上有多少个观察期间,整个数据结构是平行的还是非平行的。进一步地,我们还要知道主要变量的样本均值、标准差、最大值、最小值等情况。这些都可以通过以下三个命令来完成: xtdes 命令用于初步了解数据的大体分布状况,我们可以知道数据中含有多少个截面,最大和最小的时间跨度是多少。在某些要求使用平行面板数据的情况下,我们可以采用该命令来诊断处理后的数据是否为平行数据。Xtsum用来查询对组内、组间、整体计算各个变量的基本统计量(如均值、方差等)。为了方便,以下的举例都只用factor1,factor2两个自变量。 xtdes DA factor1 facto2 xtsum DA factor1 facto2 模型回归。 常用的处理面板数据的模型有混合OLS模型、固定效应模型、随机效应模型。各个模型的区别请上网查查。下面说说各个模型的命令: 混合OLS模型输入命令: regress DA factor1 facto2 固定效应模型输入命令: xtreg DA factor1 factor , fe 随机效应模型输入命令: xtreg DA factor1 factor , re 模型的选择及检验 固定效应模型要检验个体效应的显著性,这可以通过固定效应模型回归结果的最后一行的F统计量看出,F越大越好,可以得出固定效应模型优于混合OLS模型的结论。随机效应模型要检验随机效应是否显著,要输入命令:xttest0

相关文档
相关文档 最新文档