文档库 最新最全的文档下载
当前位置:文档库 › stata例题

stata例题

stata例题
stata例题

例2-1 从某单位1999年的职工体检资料中获得101名正常成年女子的血清总胆固醇(mmol/L )的测量结果如下,试编制频数分布表。

2.35 4.21

3.32 5.35

4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.80 3.41 4.12 3.95

5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51

3.86

3.02

3.70

4.33

3.29

3.25

4.15

4.36

4.95

3.00

3.26

sum x

di r(max)-r(min)

gen group=int((x-2.30)/0.30)*0.30+2.3 tab group 计算表101名正常成年女子的血清总胆固醇(mmol/L)的标准差。

tabstat x,s(sd)

对例2-1,已计算出101名正常成年女子的血清总胆固醇均数 4.06X =mmol/L ,标准差0.654S =mmol/L 。试估计该单位:①正常女子血清总胆固醇在4.00mmol/L 以下者占正常女子总人数的百分比;②在4.00~5.00mmol/L 之间者占正常女子总人数的百分比;③在5.00mmol/L 以上者各占正常女子总人数的百分比。

sum x

recode x (min/4=1) (4.01/5=2) (5.01/max=3), gen(group) tab group

由例2-1资料估计正常成年女子血清总胆固醇的95%参考值范围。 sum x

di r(mean)-1.96*r(sd) di r(mean)+.96*r(sd)

例3-3 某地抽得正常成人200名,测得其血清胆固醇的均数为3.64 mmol/L ,标准差为1.20mmol/L ,试估计该地正常成人血清胆固醇均数的95%可信区间。

cii 200 3.64 1.20

例2-4 某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10,20,40,40,160,求几何均数。

means x

例2-5 69例类风湿关节炎(RA )患者血清EBV-VCA-lgG 抗体滴度的分布见表2-5第(1)、(2)栏,求其平均抗体滴度。

表2-5 69例RA 患者血清EBV-VCA-lgG 抗体测定结果

抗体滴度

人数f 滴度倒数X

lg X

lg f X

?

⑴ ⑵ ⑶ ⑷ ⑸ 1: 10 1: 20 1: 40 4 3 10 10 20 40 1.0000 1.3010 1.6021 4.0000 3.9030 16.0210

1: 160 1: 320 1: 640 1: 1280 11

15

14

2

160

320

640

1280

2.2041

2.5051

2.8062

3.1072

24.2451

37.5765

39.2868

6.2144

合计69 ——150.2778 means x [fw=f]

例2-6 7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。

centile x

例2-8 试计算表2-2某医院1123名产后出血孕妇人工流产次数的中位数。

表2-2 某医院1123名产后出血孕妇人流次数的分布

人流次数产后出血人数累计频数累计频率(%)

(1) (2) (3) (4)

0 402 402 35.80

1 330 73

2 65.18

2 232 964 85.84

3 118 1082 96.35

4 27 1109 98.75

5 11 1120 99.73

6 3 1123 100.00

合计1123 ——

tab x [fw=f]

expand f

centile x

例2-10 某地118名链球菌咽喉炎患者的潜伏期频数表见表2-5第(1)、(2)栏,试分别求中位数及第25、第75百分位数。

表2-5 118名链球菌咽喉炎患者的潜伏期

天数人数,f累计频数累计频率(%)

(1) (2) (3) (4)

12~ 4 4 3.4

24~17 21 17.8

36~32 53 44.9

48~24 77 65.3

60~18 95 80.5

72~12 107 90.7

84~ 5 112 94.9

96~ 4 116 98.3

≥108 2 118 100.0

例2-11 试计算下面三组同龄男孩的身高(cm)均数和极差。

甲组:90 95 100 105 110 100c m X =甲,1109020cm R =-=甲; 乙组:96 98 100 102 104 100cm X =乙,104968cm R =-=乙; 丙组:96 99 100 101 104 100c m X =丙, 104968cm R =-=丙。

sum x1-x3

例2-12 续例2-10。已知25P =39.2,75P =67.7,计算118名链球菌咽喉炎患者潜伏期的四分位数间距。

Tabstat x [fw=f], st(q)

计算三组资料的标准差。

su x1 x2 x3

例3-4 为了解甲氨蝶呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29例(1n ),采用安慰剂;试验组32例(2n ),采用小剂量甲氨蝶呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10 IU/ml (1X ),标准差为7.02 IU/ml (1S );试验组治疗前IL-2的均数为16.89 IU/ml (2X ),标准差为8.46 IU/ml (2S )。问两组治疗前基线的IL-2总体均数相差有多大?

ttesti 29 20.10 7.02 32 16.89 8.46

例3-5 某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L ,标准差为25.74g/L 。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L ?

ttest x=140

ttesti 36 130.8333 25.74102 140

例3-6 为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定其结果如表3-5第(1)~(3)栏。问两法测定结果是否不同?

表3-5 两种方法对乳酸饮料中脂肪含量的测定结果(%)

编号 (1) 哥特里-罗紫法

(2) 脂肪酸水解法

(3) 差值d (4)=(2)-(3) 1 0.840 0.580 0.260 2 0.591 0.509 0.082 3 0.674 0.500 0.174 4 0.632 0.316 0.316 5 0.687 0.337 0.350 6 0.978 0.517 0.461 7 0.750 0.454 0.296 8 0.730 0.512 0.218 9 1.200 0.997 0.203 10 0.870 0.506 0.364 ttest x1=x2

例3-7 为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用40名2型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜糖平胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3-6,能否认为该国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同?

表3-6 试验组和对照组空腹血糖下降值(mmol/L)

试验组X1 (n1=20) -0.70 -5.60 2.00 2.80 0.70 3.50 4.00 5.80 7.10 -0.50 2.50 -1.60 1.70 3.00 0.40 4.50 4.60 2.50 6.00 -1.40

对照组X2 (n2=20)

3.70 6.50 5.00 5.20 0.80 0.20 0.60 3.40 6.60 -1.10 6.00 3.80 2.00 1.60 2.00 2.20 1.20 3.10 1.70 -2.00 ttest x,by(group)

例3-8 在上述例3-7国产四类新药阿卡波糖胶囊的降血糖效果研究中,测得用拜糖平胶囊的对照组20例病人和用阿卡波糖胶囊的试验组20例病人,其8周时糖化血红蛋白HbA1c(%)下降值如表3-7。问用两种不同药物的病人其HbA1c 下降值是否不同?

1

c下降值(%)

对照组20 1.46 1.36

试验组20 1.13 0.70

ttesti 20 1.46 1.36 20 1.13 0.70,une

ttesti 20 1.46 1.36 20 1.13 0.70,une w

例3-9 试用矩法对表3-1中计算机模拟抽样所得100个样本均数进行正态性检验。

2X

*表示该样本资料算得的可信区间未包含已知总体均数167.7cm

set seed 050322

set obs 10

quietly for num 1/100:gen varX=invnorm(uniform())*5.3+167.7 xpose,clear

egen mean=rmean(v1-v10)

sktest mean

例3-10 对例3-7,请用F检验判断两总体空腹血糖下降值的方差是否不等。sdtest x,by(group)

例3-11 对例3-8,请用F检验判断对照组和试验组病人HbA1c(%)下降值的总体方差是否不等。

sdtesti 20 1.46 1.36 20 1.13 0.70

例4-1 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名患者,采用完全随机设计方法将患者等分为4组进行双盲试验。问如何进行分组?

set obs 120 gen id =_n

set seed 050323 gen r=uniform() sort r

gen treat=group(4) list

例4-2 某医生为了研究一种降血脂新药的临床疗效,按统一纳入标准选择120名高血脂患者,采用完全随机设计方法将患者等分为4组(具体分组方法见例4-1),进行双盲试验。6周后测得低密度脂蛋白作为试验结果,见表4-3。问4个处理组患者的低密度脂蛋白含量总体均数有无差别?(方差分析)

表4-3 4个处理组低密度脂蛋白测量值(mmol/L)

分 组

测量值

统计量

n

i X

X ∑ 2X ∑

安慰剂组 3.53 4.59 4.34 2.66 3.59 3.13 2.64 2.56 3.50 3.25

30

3.43 102.91 367.85

3.30

4.04 3.53 3.56 3.85 4.07 3.52 3.93 4.19 2.96 1.37 3.93 2.33 2.98 4.00 3.55 2.96 4.3 4.16 2.59

降血脂新药

30

2.72 81.46 23

3.00

2.4g 组

2.42

3.36

4.32 2.34 2.68 2.95 1.56 3.11 1.81 1.77

1.98

2.63 2.86 2.93 2.17 2.72 2.65 2.22 2.90 2.97 2.36 2.56 2.52 2.27 2.98

3.72 2.80 3.57

4.02 2.31 4.8g 组

2.86 2.28 2.39 2.28 2.48 2.28

3.21 2.23 2.32 2.68

30 2.70 80.94 225.54

2.66 2.32 2.61

3.64 2.58 3.65 2.66 3.68 2.65 3.02 3.48 2.42 2.41 2.66 3.29 2.70 3.04 2.81 1.97 1.68 7.2g 组

0.89 1.06 1.08 1.27 1.63 1.89 1.19 2.17 2.28 1.72

30 1.97 58.99 132.13

1.98 1.74

2.16

3.37 2.97 1.69 0.94 2.11 2.81 2.52 1.31 2.51 1.88 1.41 3.19 1.92 2.47 1.02 2.10 3.71

oneway x group

例4-3 如何按随机区组设计,分配5个区组的15只小白鼠接受甲、乙、丙三种抗癌药物?

set obs 15 egen id=seq()

egen b=seq(),block(3) set seed 050323 gen r=uniform() sort b r

gen group=mod(_n-1,3)+1 sort id b l id b g

例4-4 某研究者采用随机区组设计进行实验,比较三种抗癌药物对小白鼠肉瘤抑瘤效果,先将15只染有肉瘤小白鼠按体重大小配成5个区组,每个区组内3只小白鼠随机接受三种抗癌药物(具体分配方法见例4-3),以肉瘤的重量为指标,试验结果见表4-9。问三种不同的药物的抑瘤效果有无差别?

表4-9 不同药物作用后小白鼠肉瘤重量(g )

区组 A 药 B 药 C 药 g

ij i X =

1 0.8

2 0.65 0.51 1.98 2 0.7

3 0.5

4 0.23 1.50 3 0.43 0.34 0.28 1.0

5 4 0.41 0.21 0.31 0.93 5

0.68

0.43 0.24 1.35 n

ij j X =∑

3.07 2.17 1.57 6.81

()ij X ∑∑

i

X

0.614

0.434 0.314 0.454 ()X

21

n

ij

j X

=∑

2.0207

1.0587

0.5451

3.6245

2()ij X ∑∑

anova x group treat

例4-5 某研究者为了比较甲、乙、丙、丁、戊、己 6种药物给家兔注射后产生的皮肤疱疹大小(mm 2),采用拉丁方设计,选用6只家兔、并在每只家兔的6个不同部位进行注射。试验结果见表4-11,试作方差分析。

表4-11 例4-5拉丁方设计与试验结果(皮肤疱疹大小,mm 2)

anova x treat row col

例6-2 在对13名输卵管结扎的育龄妇女经壶腹部-壶腹部吻合术后,观察其受孕情况,发现有6人受孕,试据此资料估计该吻合术受孕率的95%可信区间。

cii 13 6,level(95)

家兔编号 (行区组)

注射部位编号(列区组)

行区组 合计(R j ) i X

1

2

3

4

5

6

1 C (87) B (75) E (81) D (75) A (84) F (66) 468.0 78.0

2 B (73) A (81) D (87) C (85) F (64) E (79) 469.0 78.2

3 F (73) E (73) B (74) A (78) D (73) C (77) 448.0 74.7

4 A (77) F (68) C (69) B (74) E (76) D (73) 437.0 72.8

5 D (64) C (64) F (72) E (76) B (70) A (81) 427.0 71.2

6 E (75) D (77) A (82) F (61) C (82) B (61) 438.0 73.0 列区组 合计(C i )

449.0 438.0 465.0 449.0 449.0 437.0 j X

74.8 73.0 77.5 74.8 74.8 72.8

药物 D

E

C

A

B

F

X =74.6

合计T k

449.0 483.0 464.0 483.0 427.0 404.0 k X

74.8

80.5

77.3

80.5

71.2

67.3

例7-1 某医院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?

表7-1 两组降低颅内压有效率的比较

组别 有效 无效 合计 有效率(%)

试验组 99(90.48)a 5(13.52)b 104)(b a + 95.20 对照组 75(83.52)c 21(12.48)d 96)(d c + 78.13 合计

174)(c a +

26)(d b +

200)(n

87.00

tabi 99 5\75 21,chi2

例 7-8 测得某地5801人的ABO 血型和MN 血型结果如表7-10,问两种血型系统之间是否有关联?

表7-10 某地5801人的血型

ABO 血型 MN 血型

合计 M N MN O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 32 348 合计

1451

1666

2684

5801

tabi 431 490 902\388 410 800\495 587 950\137 179 32,all

统计学第四版贾俊平人大_回归与时间序列stata

回归分析与时间序列 一、一元线性回归 11.1 (1)编辑数据集,命名为linehuigui1.dat 输入命令scatter cost product,xlabel(#10, grid) ylabel(#10, grid),得到如下散点图,可以看到,产量和生产费用是正线性相关的关系。 (2)输入命令reg cost product,得到如下图: 可得线性函数(product为自变量,cost为因变量):y=0.4206832x+124.15,即β0=124.15,β1=0.4206832 (3)对相关系数的显著性进行检验,可输入命令pwcorr cost product, sig star(.05) print(.05),得到下图:

可见,在α=0.05的显著性水平下,P=0.0000<α=0.05,故拒绝原假设,即产量和生产费用之间存在显著的正相关性。 11.2 (1)编辑数据集,命名为linehuigui2.dat 输入命令scatter fenshu time,xlabel(#4, grid) ylabel(#4, grid),得到如下散点图,可以看到,分数和复习时间是正线性相关的关系。 2)输入命令cor fenshu time计算相关系数,得下图: 可见,r=0.8621,可见分数和复习时间之间存在高度的正相关性。 11.3 (1)(2)对于线性回归方程y=10-0.5x,其中β0=10,表示回归直线的截距为10;β1=-0.5,表示x变化一单位引起y的变化为-0.5。 (3)x=6时,E(y)=10-0.5*6=7。 11.4 (1) ,判定系数 测度了回归直线对观测数据的拟合程度,即在分数的变差中,有90%可以由分数与复习时间之间的线性关系解释,或者说,在分数取值的变动中,

Stata操作入门

Stata软件基本操作和数据分析入门 第一讲Stata操作入门 张文彤赵耐青 第一节概况 Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。 Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。 由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。 Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。用户可随时到Stata网站寻找并下载最新的升级文件。事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。 由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。 第二节Stata操作入门 一、Stata的界面 图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下: 1.结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。 2.命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。

运用stata进行时间序列分析

运用stata进行时间序列分析 1 时间序列模型结构模型虽然有助于人们理解变量之间的影响关系,但模型的预测精度比较低。在一些大规模的联立方程中,情况更是如此。而早期的单变量时间序列模型有较少的参数却可以得到非常精确的预测,因此随着Box and Jenkins(1984)等奠基性的研究,时间序列方法得到迅速发展。从单变量时间序列到多元时间序列模型,从平稳过程到非平稳过程,时间序列分析方法被广泛应用于经济、气象和过程控制等领域。本章将介绍如下时间序列分析方法,ARIMA模型、ARCH族模型、 VAR模型、VEC模型、单位根检验及协整检验等。 一、基本命令 1.1时间序列数据的处理 1)声明时间序列:tsset 命令 use gnp96.dta, clear list in 1/20 gen Lgnp = L.gnp tsset date list in 1/20 gen Lgnp = L.gnp 2)检查是否有断点:tsreport, report use gnp96.dta, clear tsset date tsreport, report drop in 10/10 list in 1/12 tsreport, report tsreport, report list /*列出存在断点的样本信息*/ 3)填充缺漏值:tsfill tsfill tsreport, report list list in 1/12 4)追加样本:tsappend use gnp96.dta, clear tsset date list in -10/-1 sum tsappend , add(5) /*追加5个观察值*/ list in -10/-1 sum 2 5)应用:样本外预测: predict reg gnp96 L.gnp96 predict gnp_hat list in -10/-1 6)清除时间标识: tsset, clear tsset, clear 1.2变量的生成与处理 1)滞后项、超前项和差分项 help tsvarlist use gnp96.dta, clear tsset date gen Lgnp = L.gnp96 /*一阶滞后*/ gen L2gnp = L2.gnp96 gen Fgnp = F.gnp96 /*一阶超前*/ gen F2gnp = F2.gnp96 gen Dgnp = D.gnp96 /*一阶差分*/ gen D2gnp = D2.gnp96 list in 1/10 list in -10/-1 2)产生增长率变量: 对数差分 gen lngnp = ln(gnp96) gen growth = D.lngnp gen growth2 = (gnp96-L.gnp96)/L.gnp96 gen diff = growth - growth2 /*表明对数差分和变量的增长率差别很小*/ list date gnp96 lngnp growth* diff in 1/10 1.3日期的处理日期的格式 help tsfmt 基本时点:整数数值,如 -3, -2, -1, 0, 1, 2, 3 .... 1960年1月1日,取值为 0; 3 显示格式: 定义含义默认格式%td 日%tdDlCY %tw 周%twCY!ww %tm 月 %tmCY!mn %tq 季度 %tqCY!qq %th 半年 %thCY!hh %ty 年 %tyCY 1)使用tsset 命令指定显示格式 use B6_tsset.dta, clear tsset t, daily list use B6_tsset.dta, clear tsset t, weekly list 2)指定起始时点 cap drop month generate month = m(1990-1) + _n - 1 format month %tm list t month in 1/20 cap drop year gen year = y(1952) + _n - 1 format year %ty list t year in 1/20 3)自己设定不同的显示格式日期的显示格式 %d (%td) 定义如下: %[-][t]d<描述特定的显示格式> 具体项目释义: “<描述特定的显示格式>”中可包含如下字母或字符 c y m l n d j h q w _ . , : - / ' !c C Y M L N D J W 定义如下: c an d C 世纪值(个位数不附加/附加0)

5分钟速学stata面板数据回归(初学者超实用!)

5分钟速学stata面板数据回归(超实用!) 第一步:编辑数据。 面板数据的回归,比如该回归模型为:Y it=β0+β1X1it+β2X2it+β3X3it+εt,在stata中进行回归,需要先将各个变量的数据逐个编辑好,该模型中共有Y X1 X2 X3三个变量,那么先从Y的数据开始编辑,将变量Y的面板数据编辑到stata软件中,较方便的做法是,将excel的数据直接复制到stata软件的数据编辑框中,而excel中的数据需要如下图编辑: 从数据的第二行开始选中20个样本数据,如图:

直接复制粘贴至stata中的data editor中,如图: 第二步:格式调整。 首先,请将代表样本的var1Y变量数据是选20个省份5年的数据为样本,那么口令为rename var1 province 。例如:本例中的Y变量数据编辑接下来需要输入口令为reshape long var,i(province) 其中,var代表的是所有的年份(var2,var3,var4,var5,var6),转化后格式如图: 转化成功后,继续重命名,其中_j这里代表原始表中的年份,var代表该变量的名称

例如,我们编辑的是Y变量的数据,所以口令3和口令4的输入如下: 口令3:rename _j year 口令4:rename var taxi (注:taxi就是Y变量,我们用taxi表示Y) 命名完,数据编辑框如下图所示。 第三步:排序。 例如,本例中的Y变量(taxi),是20个省份和5年的面板数据, 那么口令4为sort province year (虽意思是将province按升序排列,然后再根据排好的province数列排year这一列升序排列。然很多时候在执行sort之前,数据已经符合排序要求了,但为以防万一,请务必执行此操作) 第三步:保存。

时间序列模型stata 基本命令汇总..

时间序列模型 结构模型虽然有助于人们理解变量之间的影响关系,但模型的预测精度比较低。在一些大规模的联立方程中,情况更是如此。而早期的单变量时间序列模型有较少的参数却可以得到非常精确的预测,因此随着Box and Jenkins(1984)等奠基性的研究,时间序列方法得到迅速发展。从单变量时间序列到多元时间序列模型,从平稳过程到非平稳过程,时间序列分析方法被广泛应用于经济、气象和过程控制等领域。本章将介绍如下时间序列分析方法,ARIMA模型、ARCH族模型、VAR模型、VEC模型、单位根检验及协整检验等。 一、基本命令 1.1时间序列数据的处理 1)声明时间序列:tsset 命令 use gnp96.dta, clear list in 1/20 gen Lgnp = L.gnp tsset date list in 1/20 gen Lgnp = L.gnp 2)检查是否有断点:tsreport, report use gnp96.dta, clear tsset date tsreport, report drop in 10/10 list in 1/12 tsreport, report tsreport, report list /*列出存在断点的样本信息*/ 3)填充缺漏值:tsfill tsfill tsreport, report list list in 1/12 4)追加样本:tsappend use gnp96.dta, clear tsset date list in -10/-1 sum tsappend , add(5) /*追加5个观察值*/ list in -10/-1 sum

Stata时间序列笔记

文档结尾是FAQ和var建模的15点注意事项 【梳理概念】 向量自回归(VAR, Vector Auto regression)常用于预测相互联系的时间序列系统以及分析随机扰动对变量系统的动态影响。 VAR模型: VAR方法通过把系统中每一个内生变量,作为系统中所有内生变量的滞后值的函数来构造模型,从而回避了结构化模型的要求。 VAR模型对于相互联系的时间序列变量系统是有效的预测模型,同时,向疑自回归模型也被频繁地用于分析不同类型的随机误差项对系统变量的动态影响。如果变量之间不仅存在滞后影响,而不存在同期影响关系,则适合建立VAR模型,因为VAR模型实际上是把当期关系隐含到了随机扰动项之中。 协整: Engle和Granger (1987a)指岀两个或多个非平稳时间序列的线性组合可能是平稳的。假如这样一种平稳的或的线性组合存在,这些非平稳(有单位根)时间序列之间被认为是具有协整关系的。这种平稳的线性组合被称为协整方程且可被解释为变量之间的长期均衡关系。 * 第六讲时间序列分析 *一一目录—— ? d?简介 *6」时间序列数据的处理 d ■平稳时间序列模型 * 6.2 ARIMA 模型 * 6.3 VAR 模型 非平稳时间序列模型一近些年得到重视,发展很快 * 6.4非平稳时间序列简介 * 6.5单位根检验——检验非平稳 * 6.6协整分析一一非平稳序列的分析 黑-自回归条件异方差模型 * 6.7 GARCH模型一一金融序列不同时点上序列的差界 反映动态关系的时间数据顺序不可颠倒 cd d:\stata 10\ado\personal\Net_Course\B6_TimcS *时间序列数据的处理help time *声明时间序列:tsset命令 use gnp96.dta, clear list in 1/20

stata处理面板数据及修正命令集合

步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。 注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。 打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using??文件路径 调用例如:insheet using? C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1?样本名 例如:rename var1 province ?也可直接在var1处双击,在弹出的窗口中修改: 接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j year rename var taxi

也可直接在需要修改的名称处双击,在弹出的窗口中修改 步骤三:排序 口令:sort?变量名 例如:sort province year 意思为将province按升序排列,然后再根据排好的province数列排year这一列 最后,保存。 至此,一个变量的前期数据处理就完成了,请如法炮制的处理所有的变量,也就是说每个变量都做一个dta文件。在处理新变量前请使用 口令:clear 将stata重置 步骤四:合并数据 任意打开一个处理过的变量的dta文件作为基础表(推荐使用因变量的dta文件,这里使用so2作为因变量) 口令:?merge?样本名时间?using?文件路径 例如:merge province year using C:\STUDY\paper\taxi.dta ?意思是将taxi的数据添加到so2的数据表中 然后使用 口令:tab _merge 然后使用 口令:drop _merge 将数据表中的_merge一列去掉, 接着重新使用 口令:sort?样本名时间 例如:sort province year 为新生成的表排序。 如法炮制,将所有的变量都添加到基础表中,

stata 1 数据录入

数据录入 在Stata中读入数据可以有三种方式:直接从键盘输入、打开已有数据文件和拷贝、粘贴方式交互数据。 (1)从键盘输入数据 在Stata中可以使用命令行方式直接建立数据集,首先使用input命令制定相应的变量名称,然后一次录入数据,最后使用end语句表明数据录入结束。 例1 在某实验中得到如下数据,请在Stata中建立数据集。 观测数据 X 1 3 5 7 9 Y 2 4 6 8 10 解:此处需要建立两个变量X、Y,分别录入相应数值,Stata中的操作如下,其中划线部分为操作者输入部分。 . drop _all . input x y x y 1. 1 2 2. 3 4 3. 5 6 4. 7 8 5. 9 10 6. end (2)用stata的数据编辑工具 ①进入数据编辑器 进入stata界面,在命令栏键入edit或在stata的window下拉菜单中单击data editor或点击编辑图标(注意:是浏览图标,点击后只能浏览,不能编辑)即可进入stata数据编辑器。(stata界面如下图)

②数据编辑 在空白处输入数据。注:键入数据后要按Enter 在第一列输入数据后,Stata第一列自动命名为var1;在第二列输入数据后,第二列自动命名为var2……依次类推。在输入数据后,双击纵格顶端的变量名栏(如:Var1或Var2处),可以更改变量名,并可以在label栏中注释变量名的 含义,点击4所示)。仍沿用上例,双击观察值所在列顶端的变量名栏,更改变量名为x,并在label栏中注明“7岁男童身高(cm)”。数据输 入完毕后,单击即可退出编辑器。 ○3指令解释 Preserve:保存已经输入的数据,相当于Word里的Save功能。 Rrstore:撤销所有未保存的数据。 Sort:按某一列数据排序。(注:需先选中某列数据) 《:将某列数据移到左边一列。 》:将某列数据移到右边一列。 Hide:隐藏某列数据。(注:需先选中某列数据) Delete:删除数据。 (3)从Excel中导出数据 首先将EXCEL中的A1-6~D1-6全部24个单元格选中,并复制;然后切换到Stata,选择菜单Window Data Editor,打开数据编辑窗口;点右键选择Paste,相应的数据就会被直接粘贴如数据编辑窗口中,并且变量名、记录数、变量格式等均会被自动正确设置。

STATA面板数据模型操作命令

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

与时间序列相关的STATE命令及其统计量的解析

与时间序列相关的STATE命令及其统计量的解析与时间序列相关的STATA 命令及其统计量的解析残差U 序列相关: ①DW 统计量——针对一阶自相关的(高阶无效) STATA 命令: 1.先回归 2.直接输入dwstat 统计量如何看:查表②Q 统计量——针对高阶自相关correlogram-Q-statistics STATA 命令: 1.先回归reg 2.取出残差predict u,residual(不要忘记逗号) 3. wntestq u Q 统计量如何看:p 值越小(越接近0)Q 值越大——表示存在自相关具体自相关的阶数可以看自相关系数图和偏相关系数图:STATA 命令: 自相关系数图: ac u( 残差) 或者窗口操作在Graphics ——Time-series graphs ——correlogram(ac) 偏相关系数图: pac u 或者窗口操作在Graphics——Time-series graphs—— (pac) 自相关与偏相关系数以及Q 统计量同时表示出来的方法: corrgram u 或者是窗口操作在 Statistics——Time-series——Graphs—— Autocorrelations&Partial autocorrelations ③LM 统计量——针对高阶自相关 STATA 命令: 1.先回归reg 2.直接输入命令 estate bgodfrey,lags(n) 或者窗口操作在 Statistics——Postestimation(倒数第二个)——Reports and Statistics(倒数第二个) ——在里面选择 Breush-Godfrey LM(当然你在里面还可以找到方差膨胀因子还有DW 统计量等常规统计量) LM 统计量如何看:P 值越小(越接近 0)表示越显著(显著拒绝原假设),存在序列相关具体是几阶序列相关,你可以把滞后期写为几,当然默认是 1,(通常的方法是先看图,上面说的自相关和偏相关图以及Q 值,然后再利用LM 肯定)。 平稳时间序列存在自相关的问题的解决方案残差出现序列相关的补救措施: 一阶自相关最近简单的方法是用AR(1)模型补救,就是在加一个残差的滞后项即可。 高阶的自相关用AR(n)模型补救。 AR 模型的识别与最高阶数的确定: 可以通过自相关系数来获得一些有关 AR(p) 模型的信息,如低阶 AR(p) 模型系数符号的信息。但是,对于自回归过程AR(p),自相关系数并不能帮助我们确定 AR(p) 模型的阶数 p。所以,可以考虑使用偏自相关系数 k,k,以便更加全面的描述自相关过程AR(p)的统计特征。 且对于一个AR(p) 模型, k,k 的最高阶数为p,也即AR(p) 模型的偏自相关系数是 p 阶截尾的。因此,可以通过识别AR(p)模型的偏

Stata面板数据分析

5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。

注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。

打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using 文件路径 调用例如:insheet using C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1 样本名 例如:rename var1 province 也可直接在var1处双击,在弹出的窗口中修改:

接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化后的格式如图: 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称口令例如: rename _j year rename var taxi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

步骤三:排序 口令:sort 变量名 例如:sort province year 意思为将province按升序排列,然后再根据排好的province数列排year这一列如图:

STATA面板数据模型操作命令讲解

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= αi αi αi εit ~e it ~1-t e i ,8858.0~=θ5.0-~=θ验:是否存在门槛效应 混合面板: reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量; maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre ()表示以某一个变量为前定解释变量;endogenous ()表示以某一个变量为内生解释变量。 自相关检验:estat abond

与时间序列相关的STATA-命令及其统计量的解析

与时间序列相关的STATA 命令及其统计量的解析 残差U 序列相关: ①DW 统计量——针对一阶自相关的(高阶无效) STATA 命令: 1.先回归 2.直接输入dwstat 统计量如何看:查表 ②Q 统计量——针对高阶自相关correlogram-Q-statistics STATA 命令: 1.先回归reg 2.取出残差predict u,residual(不要忘记逗号) 3. wntestq u Q 统计量如何看:p 值越小(越接近0)Q 值越大——表示存在自相关 具体自相关的阶数可以看自相关系数图和偏相关系数图: STATA 命令: 自相关系数图: ac u( 残差) 或者窗口操作在 Graphics ——Time-series graphs —— correlogram(ac) 偏相关系数图: pac u 或者窗口操作在Graphics——Time-series graphs—— (pac) 自相关与偏相关系数以及Q 统计量同时表示出来的方法: corrgram u或者是窗口操作在 Statistics——Time-series——Graphs——Autocorrelations&Partial autocorrelations ③LM 统计量——针对高阶自相关 STATA 命令: 1.先回归reg 2.直接输入命令estate bgodfrey,lags(n) 或者窗口操作 在 Statistics——Postestimation(倒数第二个)——Reports and Statistics(倒数第二个) ——在里面选择 Breush-Godfrey LM(当然你在里面还可以找到方差膨胀因子还有DW 统计量等常规统计量) LM 统计量如何看: P 值越小(越接近 0)表示越显著(显著拒绝原假设),存在序列相关 具体是几阶序列相关,你可以把滞后期写为几,当然默认是 1,(通常的方法是先看图,上面说的自相关和偏相关图以及Q 值,然后再利用LM 肯定)。 平稳时间序列存在自相关的问题的解决方案 残差出现序列相关的补救措施: 1、一阶自相关 : 最近简单的方法是用AR(1)模型补救,就是在加一个残差的滞后项即可。 2、高阶的自相关: 用AR(n)模型补救。

stata数据整理常用命令

Stata常用指令 解释 set more off set virtual on 把虚拟内存打开 di exp(3.567) = display Browse the data tabmiss x1 x2 (findit tabmiss) 显示MV的freq与比例 browse var1 var2 (if ….) Look like editor window, but cannot edit listblck in 1/10, repeat(1) (findit listblck) list, 但将版面精缩 repeat(1/n) => 前1(n)个重复出现after row 2 (findit univar) univar chinese math science, boxplot , by(gender) onehdr univar math, by(gender) onehdr boxplot onescal univar (=sum) 但增加q25, midian, q75的呈现get a table with one header onescale才能相比较 Summary Statistics & Tables sum we can use if : eg. (if crime==1) Summarize all variables (mean, SD, freqency) tab x1, sort miss (sort=按照distribution排列; miss=列出MV distribution as well) tab=tabulate ta x1 x2, chi2 miss , nof column (no frequency / column percentage) , row (row percentage) , all (all available statistics) , exact (Fisher’s exact test) Chi2=Pearson chi-square test of independence ta maage_group, plot tab1 x1 x2 x3 x4 = tab x1 / tab x2……. tab2 x1 x2 x3 x4 tab all possible two-way.. ta paedu, sum(crime) By levels of paedu, summarize crime tabstat score, stats(mean sd n max min…) by (subject) median, p10, p25, iqr, q… iqr=interquaritile range=p75-p25 q=quartiles= if we specify p25 p50 p75 table x1 x2, contents(mean y1 median y2) Also min, max….etc…..

stata数据分析

合肥学院 《计量经济与实证分析》实验报告 题目:地区财政收入影响因素 学生姓名:朱盈超学号:1313101023 系别:管理系专业:财务管理 提交时间:2015年11 地区财政收入影响因素 一、实验目的 研究地区财政收入影响的因素有哪些,判断这些因素是否存在多重共线性,并提出解决 二、实验内容 1.用软件计算回归结果 2.根据回归结果判断是否存在多重共线性,提出解决多从共线性的方法

3.判断是否存在其他未被纳入模型的因素 三、实验过程与结论 第一步:构建模型 以财政收入为被解释变量,固定资产投资总额、工业总产值、农林牧渔总产值、社会消费品零售总额以及地区总人口为解释变量建立线性回归模型。 Y=β0 + β1*X1 + β2*X2 + β3*X3 + β4*X4 + β5*X5 + u 其中: Y----财政收入 X1----固定资产投资总额 X2----工业总产值 X3----农林牧渔总产值 X4----社会消费品零售总额 X5----地区总人口 β0、β1、β2、β3、β4、β5----表示待定系数 u----表示随机误差项 第二步:利用stata软件计算回归结果,结果如下: F值71.68, R-square 0.9348 5个变量由T值看均没有通过显著性检验,R平方很大,所以可能存在多重共线性这时的模型方程为Y=96.867+0.665X1-0.0015X2-0.3639X3+0.277X4+0.0345X5+u 第二步进行多重共线性的检验

判断VIF值大小 从结果看出vif=14.83大于10,所以存在多重共线性。下面开始采取补救措施 进行主成分分析 多重共线性检验修正

Stata 数据分析

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。[1] 除了之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过 Stata Journal 获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。参见“”、“[2]”、“[3]”、“[4]”等。 编辑本段Stata 的统计功能 Stata 的统计功能很强,除了传统的统计分析方法外,还收集了近 20 年发展起来的新方法,如 Cox 比例风险回归,指数与 Weibull 回归,多类结果与有序结果的 logistic 回归, Poisson 回归,负二项回归及广义负二项回归,随机效应模型等。具体说, Stata 具有如下统计分析能力:数值变量资料的一般分析:参数估计,t检验,单因素和多因素的方差分析,协方差分析,交互效应模型,平衡和非平衡设计,嵌套设计,随机效应,多个均数的两两比较,缺项数据的处理,方差齐性检验,正态性检验,变量变换等。 分类资料的一般分析:参数估计,列联表分析 ( 列联系数,确切概 率 ) ,流行病学表格分析等。 等级资料的一般分析:秩变换,秩和检验,秩相关等 相关与回归分析:简单相关,偏相关,典型相关,以及多达数十种的回归分析方法,如多元线性回归,逐步回归,加权回归,稳键回归,二阶段回归,百分位数 ( 中位数 ) 回归,残差分析、强影响点分析,曲线拟合,随机效应的线性回归模型等。 其他方法:质量控制,整群抽样的设计效率,诊断试验评价, kappa 等。 编辑本段Stata 的作图功能 Stata 的作图模块,主要提供如下八种基本图形的制作 : 直方图(histogram) ,条形图 (bar), 百分条图 (oneway) ,百分圆图 (pie) ,散点图 (twoway) ,散点图矩阵(matrix) ,星形图 (star) ,分位数图。这些图形的巧妙应用,可以满足绝大多数用户的统计作图要求。在有些非绘图命令中,也提供了专门绘制某种图形的功能,如在生存分析中,提供了绘制生存曲线图,回归分析中提供了残差图等。

时间序列分析STATA 第三课

第三课:ARMA/ARIMA建模及预测 核心问题:1,前提:同方差,因此,不用考虑不同时刻变量的离散性; 2,建立的是变量分布的均值模型, 也就是,随机变量分布的均值所在的位置 3,难点在于,时间序列数据建立模型并没有唯一性 以quarterly.dta的数据来说明。这个数据是美国的季度GDP数据,数据从1947年一季度开始,到2012年一季度结束。研究对象,GDP,存在通货膨胀问题。所以要用GDP平减指数(GDP Deflator)进行矫正,这里是以2005年的美元作为基准的。所以考察变量是GDP2005,即以2005年的美元作为基准的各季度的GDP 真实值。 一,一些基本符号: D L F 二,建立模型: 前期准备:观察时序图 相关命令:tsset, tsline/twoway

从图上可以看出,GDP2005值呈线性的向右上方倾斜, 第一种方法: 可以用确定性分析理的方法,使用研究变量对时间变量进行回归 即:regress lrgdp date (采用的是最小二乘估计) 然后对残差项进行White Noise 检验 观察此图:特征大值跟大值,小值跟小值,这说明Residual 中存在着自相关信息。肯定不是White Noise 因此,从这里看出,确定性的方法比较直观,简单,但效果不好,弥补:对残差序列进行回归,建立AR 模型,这就是所谓的 残差自回归模型。 第二种方法 BOX-JENKINS 方法,也就是通常所说的ARMA(p,d) /ARIMA(p,d,d)建模(采用的是最大似然估计)。 四大步骤:1、模型识别Identification :决定p 和q 2、模型估计Estimation :估计εσθφμ 个),(,个)(, q p 3、模型检验Diagnostic Checking 4、模型优化Parsimony

相关文档