文档库 最新最全的文档下载
当前位置:文档库 › 时间序列分析word版

时间序列分析word版

时间序列分析word版
时间序列分析word版

第2章 时间序列的预处理

拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。 2.1 平稳性检验 2.1.1 特征统计量

平稳性是某些时间序列具有的一种统计特征。要描述清楚这个特征,我们必须借助如下统计工具。

一、概率分布

数理统计的基础知识告诉我们分布函数或密度函数能够完整地描述一个随 机变量的统计特征。同样,一个随机 变量族的统计特性也完全由它们的联 合分布函数或联合密度函数决定。

对于时间序列{t X ,t ∈T },这样来定义它的概率分布:

任取正整数m ,任取m t t t ,,

,?21∈T ,则m 维随机向量(m t t t X X X ,,,?21)’的联合概率分布记为),,,(m t t t x x x F m

??21,,,21,由这些有限维分布函数构成的全体。 {),,,(m t t t x x x F m

??21,,,21,?m ∈正整数,?m t t t ,,,?21∈T } 就称为序列{t X }的概率分布族。

概率分布族是极其重要的统计特征描述工具,因为序列的所有统计性质理论上都可以通过 概率分布推测出来,但是概率分布族的重要 性也就停留在这样的理论意义上。在实际应 用中,要得到序列的联合概率分布几乎是不 可能的,而且联合概率分布通常涉及非常复 杂的数学运算,这些原因使我们很少直接使 用联合概率分布进行时间序列分析。

二、特征统计量 一个更简单、更实用的描述时间序列统计特征的方法是研究该序列的低阶矩,特别是均值、方差、自协方差和自相关系数,它们也被称为特征统计量。

尽管这些特征统计量不能描述随机序列全部的统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机 序列的主要概率特征,所以我们对时间序列进行分析,主要就是通过分析这些统计量的统计特性,推断出随机序列的性质。

1.均值

对时间序列{t X ,t ∈T }而言,任意时刻的序列值t X 都是一个随机变量,都有它自己的概率分布,不妨记为)(x F t 。只要满足条件

就一定存在着某个常数t μ,使得随机变量t X 总是围绕在常数值t μ附近做随机波动。我们称t μ为序列{t X }在t 时刻的均值函数。

t μ=t EX =

)

(-x xdF t ∞∞?

当t 取遍所有的观察时刻时,就得到一个均值函数序列{t μ,t ∈T }。它反映的是时间序列{t X ,t ∈T }每时每刻的平均水平。

2.方差

当∞

∞)(-x xdF t 时,可以定义时间序列的方差函数用以描述序列值围绕其均值

做随机波动时的平均波动程度。

)()()(2

2t 2t x dF x X E DX t t t t μμσ-?=-==∞∞-

同样,当t 取遍所有的观察时刻时,我们得到一个方差函数序列{T t t ∈,2

σ}。

3.自协方差函数和自相关系数

类似于协方差函数和相关系数的定义,在时间序列分析中我们定义自协方差函数(autocovariance function )和自相关系数(autocorrelation coefficient )的概念。

对于时间序列{t X ,t ∈T },任取t ,s ∈T ,定义γ(t ,s )为序列{t X }的自协方差函数:

))(()s t (s t s t X X E μμγ--=,

定义),(s t ρ为时间序列{t X }的自相关系数,简记为ACF 。

s

t DX DX s t s t ?=

)

,(),(γρ

之所以称它们为自协方差函数和自相关系数,是因为通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度,而自协方差函数和自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象地讲就是度量自己过去的行为对自己现在的影响。

2.1.2 平稳时间序列的定义

平稳时间序列有两种定义,根据限制条件的严格程度,分为严平稳时间序列和宽平稳时间序列。

一、严平稳

所谓严平稳(strictly stationary )就是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质不会随时间的推移而发生变化时,该序列才能被认为平稳。而我们知道,随机变量族的统计性质完全由它们的联合概率分布族决定。所以严平稳时间序列的定义如下:

定义2.1 设{t X }为一时间序列,对任意正整数m ,任取m t t t ,,

,?21∈T ,对任意整数τ,有

),,,(m t t t x x x F m

??21,,,21=),,,(m t t t x x x F m ?+++?21,,,21τ

ττ

则称时间序列{t X }为严平稳时间序列。

前面说过,在实践中要获得随机序列的联合分布是一件非常困难的事,而且即使知道随机序列的联合分布,计算和应用也非常不便。所以严平稳时间序列通常只具有理论意义,在实践中用得更多的是条件比较宽松的宽平稳时间序列。

二、宽平稳

宽平稳(weak stationary )是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证效率低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。

定义2.2 如果{t X }满足如下三个条件: (1)任取t ∈T ,有∞<2

T EX

(2)任取t ∈T ,有μμ,=t EX 为常数;

(3)任取t ,s ,k ∈T ,且k+s-t ∈T ,有γ(t,s)=γ(k,k+s-t)

则称{t X }为宽平稳时间序列。宽平稳也称为弱平稳或二阶平稳(second-order stationary )。 显然,严平稳比宽平稳的条件严格。严平稳是对序列联合分布的要求,以保证序列所有的统计特征都相同;而宽平稳只要求序列二阶平稳,对于高于二阶的矩没有任何要求。所以通常情况下,严平稳序列也满足宽平稳条件,而宽平稳序列不能反推严平稳成立。

但这不是绝对的,两种情况都有特例。

比如服从柯西分布的严平稳序列就不是宽平稳序列,因为它不存在一、二阶矩,所以无法验证它二阶平稳。严格地讲,只要存在二阶矩的严平稳序列才能保证它一定也是宽平稳序列。

宽平稳一般推不出严平稳,但当序列服从多元正态分布时,则二阶平稳可以推出严平稳。

定义2.3 时间序列{t X }称为正态时间序列,如果任取正整数n ,任取n 21t t t ,,,?∈T ,

相对应的有限维随机变量n 21...X X X ,,

,服从n 维正态分布,密度函数为: )]~~()'~~(2

1ex p[||)2()~(121

2

,...,,21n n n n n n n

n t t t X X X f n μμπ-Γ--Γ=---

其中,'~

21),,,(n n X X X X ?=;'~21),,

,(n n EX EX EX ?=μ;n Γ为协方差阵:

??

???

?

?

??=Γ),(...)

,(),(............),(...),(),(),(...)

,(),(112121211111n n n n n n n t t t t t t t t t t t t t t t t t t γγγγγγγγγ

从正态随机序列的密度函数可以看出,它的n 维分布仅由均值向量和协方差阵决定,即

对正 态随机序列而言,只要二阶矩平稳了,就等于分布 平稳了,所以宽平稳的正态序列一定是严平稳时间序列。对于非正态过程,就没有这个性质了

在实际应用中,研究最多的是宽平稳随机序列,以后见到平稳随机序列,如果不加特别注明,指的都是宽平稳随机序列。如果序列不满足平稳条件,就称为非平稳序列。

2.1.3 平稳时间序列的统计性质

根据平稳时间序列的定义,可以推断出它一定具有如下两个重要的统计性质。 一、常数均值 T t EX t ∈?=,μ

二、自协方差函数和自相关系数只依赖于时间的平移长度而与时间的起止点无关 T k s t t s k k s t ∈?-+=,,),,(),(γγ

根据这个性质,可以将自协方差函数由二维函数),(s t γ简化为一维函数)(t s -γ: T s t s t t s ∈?=-,),,()(γγ 由此引出延迟k 自协方差函数的概念。

定义2.4 对于平稳时间序列{t X ,t ∈T },任取t(t+k ∈T ),定义γ(k)为时间序列{t X }的延迟k 自协方差函数:

),()(k t t k +=γγ

根据平稳序列的这个性质,容易推断出平稳随机序列一定具有常数方差: T t t t DX t ∈?==),0(),(γγ

由延迟k 自协方差函数的概念可以等价得到延迟k 自相关系数的概念:

)

0()

()

,(γγγρk DX DX k t t k

t t k =

?+=

+ 容易验证和相关系数一样,自相关系数具有如下三个性质: (1)规性 10=ρ且

k 1k ?≤,ρ

(2)对称性 k k -=ρρ

(3)非负定性

对任意正整数m ,相关阵m Γ为对称非负定阵。

????

??

?

??=Γ----02

1

201

110ρρρρρρρρρm m m m m 值得注意的是,k ρ除了具有上述三个性质外,还具有一个特别的性质:对应模型的非唯一性。

一个平稳时间序列一定唯一决定了它的自相关函数,但它的自相关函数未必唯一对应

着一个平稳的时间序列。我们在后面的章节中将证明这一点。这个性质就给我们根据样本的自相关系数的特点来确定模型增加了一定的难度。

2.1.4 平稳时间序列的意义

时间序列分析方法作为数理统计学的一个分支,遵循数理统计学的基本原理,都是利用样本信息来推测总体信息。

传统的统计分析通常都拥有如下数据结构,见表2-1。

根据数理统计学常识,显然要分析的随机变量越少越好(m 越小越好),而每个变量获得的样本信息越多越好(n 越大越好)。因为随机变量越少,分析的过程越简单, 而样本容量越大,分析的结果就会越可靠。

但是时间序列分析的数据结构有它的特殊性。对随机序列...}X ...X X {...t 21,,,

,,而言,它在任意时刻t 的序列值t X 都是一个随机变量,而且由于时间的不可重复性,该变量在任意一个时刻只能获得唯一的样本观察值。因为时间序列分析的数据结构如下,见表2-2。

由于样本信息太少,如果没有其他的辅助信息,通常这种数据结构是没有办法进行分析的。而序列平稳性概念的提出可以有效地解决这个问题。

在平稳序列场合,序列的均值等于常数意味着原本含有可列多个随机变量的均值数列

{}T t t ∈,μ 变成了一个常数序列 {}T t ∈,μ

原本每个随机变量的均值)(T t t ∈μ只能依靠唯一的一个样本观察值t x 去估计

t t x =μ

?

现在由于)(T t t ∈?=μμ,于是每一个样本观察值)(T t x t ∈?,都变成了常数均值μ的样本观察值

n

x

x n

i i

∑===1

这极大地减少了随机变量的个数,并增加了待估参数的样本容量。换句话说,这大大降低了时序分析的难度,同时也提高了对均值函数的估计精度。

同理,根据平稳序列二阶矩平稳的性质,可以得到基于全体观察样本计算出来的延迟k 自协方差函数的估计值

n k k

n x x x x

k k

n t k t t

<

∑-=+0))(()(?1

,γ

并进一步推导出总体方差的估计值

1

)(?1

2

0--=

∑=n x x

n

t t

γ

和延迟k 自相关系数的估计值

n k k k <

0(?)

(??,γγρ

当延迟阶数k 远远小于样本容量n 时,

n k x x

x x x x

n

t t

k

n t k t t

k <

)((?1

2

1

ρ

2.1.5 平稳性的检验

对序列的平稳性有两种检验方法,一种是根据时序图和自相关图显示的特征做出判断的图检验方法;一种是构造检验统计量进行假设检验的方法。

图检验方法是一种操作简便、运用广泛的平稳性判别方法,它的缺点是判别结论带有很强的主观色彩。所以最好能用统计检验方法加以辅助判断。目前最常用的平稳性统计检验方法是单位根检验(unit root test )。由于目前知识的局限性,本章将主要介绍平稳性的图检验方法,单位根检验将在第6章详细介绍。

一、时序图检验

所谓时序图就是一个平面二维坐标图,通常横轴表示时间,纵轴表示序列取值。时序图可以直观地帮助我们掌握时间序列的一些基本分布特征。

根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的围有界的特点。如果观察序列的时序图,显示出该

序列有明显的趋势性或周期性,那它通常不是平稳序列。根据这个性质,对于很多非平稳序列,可以通过查看它的时序图将其识别出来。

例2-1

绘制1964-1999年中国纱年产量序列时序图(数据见表A1-4)。

时序图如图2-1所示。

图2-1 中国纱年产量时序图

时序图给我们提供的信息非常明确,中国纱年产量序列有明显的递增趋势,所以它不一定不是平稳序列。

例2-2

绘制1962年1月至1975年12月平均每头奶牛月产奶量序列时序图(数据见表A1-5)

时序图如图2-2所示。

图2-2 平均每头奶牛月产奶量序列时序图

时序图清晰地显示平均每头奶牛的月产奶量以年为周期呈现出规则的周期性,除此之外,还有明显的逐年递增的趋势。显然该序列也不一定不是平稳序列。

例2-3

绘制1949-1998年北京市每年最高气温序列时序图(数据见表A1-6)时序图如图2-3所示。

图2-3 北京市每年的最高气温时序图

时序图显示北京市每年的最高气温始终围绕在37℃附近随机波动,没有明显趋势或周期,基本可以视为平稳序列。为了稳妥起见,我们还需要利用自相关图进一步辅助识别。

二、自相关图检验

自相关图是一个平面二维坐标悬垂线图,一个坐标轴表示延迟时期数,另一个坐标轴表示自相关系数,通常以悬垂线表示自相关系数的大小。

在后面的章节里我们会证明平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数k的增加,平稳序列的自相关系数kρ?会很快地衰减向零。反之,非平稳序列的自相关系数kρ?衰减向零的速度通常比较慢,这就是我们利用自相关图进行平稳性判

断的标准。

例2-1续

绘制1964-1999年中国纱年产量序列自相关图。

自相关图如图2-4所示。

图2-4 中国纱年产量序列自相关图

该图横轴表示自相关系数,纵轴表示延迟时期数,用水平方向的垂线表示自相关系数的大小。从图中我们发现序列的自相关系数递减到零的速度相当缓慢,在很长的延迟时期里,自相关系数一直为正,而后,又一直为负,在自相关图上显示出明显的三角对称性,这是具有单调趋势的非平稳序列的一种典型的自相关图形式。这和该序列时序图(图2-1)显示的显著的单调递增性是一致的。

例2-2 续

绘制1962年1月至1975年12月平均每头奶牛的月产奶量序列自相关图。

自相关图如图2-5所示。

图2-5 平均每头奶牛的月产奶量序列自相关图

自相关图显示序列自相关系数长期位于零轴的一边,这是具有单调趋势序列的典型特征,同时自相关图呈现出明显的正弦波动规律,这是具有周期变化规律的非平稳序列的典型特征。自相关图显示出来的这两个性质和该序列时序图(图2-2)显示出的带长期递增趋势的周期性质是非常吻合的。

例2-3 续(1)

绘制1949-1998年北京市每年最高气温序列自相关图。

自相关图如图2-6所示。

自相关图显示该序列的自相关系数一直都比较小,始终控制在2倍的标准差围以,可以认为该序列自始至终都在零轴附近波动,这是随机性非常强的平稳时间序列通常具有的自相关图特征。

2.2 纯随机性检验

拿到一个观察值序列之后,首先是判断它的平稳性。通过平稳性检验,序列可以分为平稳序列和非平稳序列两大类。

对于非平稳序列,由于它不具有二阶矩平稳的性质,所以对它的统计分析要周折一些,通常要进行进一步的检验、变换或处理之后,才能确定适当的拟合模型。

如果序列平稳,情况就简单多了,我们有一套非常成熟的平稳序列建模方法。但是,并不是所有的平稳序列都值得建模。只有那些序列值之间具有密切的相关关系,历史数据对未来的发展有一定影响的序列,菜值得我们花时间去挖掘历史数据中的有效信息,用来预测序列未来的发展。

如果序列值彼此之间没有任何相关性,那就意味着该序列是一个没有记忆的序列,过去的行为对将来的发展没有丝毫影响,这种序列称为纯随机序列。从统计分析的角度而言,纯随机序列是没有任何分析价值的序列。

为了确定平稳序列还值不值得继续分析下去,我们需要对平稳序列进行纯随机性检验。

2.2.1 纯随机序列的定义

定义2.5 如果时间序列{t X }满足如下性质: (1)任取t ∈T ,有μ=t EX (2)任取t ,s ∈T ,有

???≠==s

t s

t s t ,0,),(2σγ

称序列{t X }为纯随机序列,也称为白噪声(white noise )序列,简记为),(~2

σμWN X t 。

之所以称之为白噪声序列,是因为人们最初发现白光具有这种特性。容易证明白噪声序列一定是平稳序列,而且是最简单的平稳序列。

例2-4

随机产生1000个服从标准正态分布的白噪声序列观察值,并绘制时序图。 时序图如图2-7所示。

图2-7 标准正态白噪声序列时序图 2.2.2 白噪声序列的性质

白噪声序列虽然很简单,但它在我们进行时间序列分析时所起的作用却非常大。它的两个重要性质在后面的分析过程中要经常用到。

一、纯随机性

由于白噪声序列具有如下性质:

0,0)(≠?=k k γ

这说明白噪声序列的各项之间没有任何相关关系,这种“没有记忆”的序列就是纯随机序列。

纯随机序列各项之间没有任何关联,序列在进行完全无序的随机波动。一旦某个随机事件呈现出纯随机波动的特征,就认为该随机事件没有包含任何值得提取的有用信息,我们就应该终止分析了。

如果序列值之间呈现出某种显著的相关关系:

0,0)(≠?≠k k γ

就说明该序列不是纯随机序列,该序列间隔k 期的序列值之间存在着一定程度的相互影响关系, 这种相互影响关系,统计上称为相关信息。我 们分析的目的就是要想方设法把这种相关信息 从观察值序列中提取出来。一旦观察值序列中 蕴含的相关信息被我们充分提取出来

了,那么 剩下的残差序列就应该呈现出纯随机的性质。 所以纯随机性还是我们判断相关信息是否提取 充分的一个判别标准。

二、方差齐性

所谓方差齐性,就是指序列中每个变量的方差都相等,即

2

)0(σγ==t DX

如果序列不满足方差齐性,就称该序列具有异方差性质。

在时间序列分析中,方差齐性是一个非常重要的限制条件。因为根据马尔可夫定理,只有方差齐 性假定成立时,用最小二乘法得到的未知参数估 计值才是准确的、有效的。如果假定不成立,最 小二乘估计值就不是方差最小线性无偏估计,拟合模型的预测精度会受到很大影响。

所以我们在进行模型拟合时,检验容之一就是要检验拟合模型的残差是否满 足方差齐性假定。如果不满足,那就说 明残差序列还不是白噪声序列,即拟合模型没有充分提取随机序列中的相关信 息,这时拟合模型的精度是值得怀疑的。 在这种场合下,我们通常需要使用适当的条件异方差模型来处理异方差信息。

2.2.3 纯随机性检验

纯随机性检验也称为白噪声检验,是专门用来检验序列是否为纯随机序列的一 种方法。我们知道如果一个序列是纯随机序列,那它的序列值之间应该没有任何相关关系,即满足

0,0)(≠?=k k γ

这是一种理论上才会出现的理想状态。实际上,由于观测值序列的有限性,导致纯随机序列的样本自相关系数不会绝对为零。 例2-4 续(1)

绘制例2-4标准正态白噪声序列的样本自相关图。 自相关图如图2-8所示。

图2-8 白噪声序列样本自相关图

样本自相关图显示这个纯随机序列没有一个样本自相关系数严格等于零。但这些自相关系数确实都非常小,都在零值附近以一个很小的幅度做着随机波动。 这就提醒我们应该考虑样本自相关系数的分布性质,从统计意义上来判断序列的纯随机性质。

Barlett 证明,如果一个时间序列是纯随机的,得到一个观察期数为n 的观察序列

{}n t x t ,,,...21,= ,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方

差为序列观察期数倒数的正态分布,即

0),1,0(~?≠?k n

N k &ρ

式中,n 为序列观察期数。

根据Barlett 定理,我们可以构造检验统计量来检验序列的纯随机性。

一、假设条件

由于序列值之间的变异性是绝对的,而相关性是偶然的,所以假设条件如下确定。 原假设:延迟期数小于或等于期的序列值之间相互独立。 备择假设:延迟期数小于或等于期的序列 值之间有相关性。 该假设条件用数学语言描述即为:

1,0...:210≥?====m H m ρρρ m k m H k ≤≥?≠,1,0:1ρ至少存在某个

二、检验统计量 1.Q 统计量

为了检验这个联合假设,Box 和Pierce 推导出了Q 统计量: ∑==m

k k

n

Q 1

2?ρ

式中,n 为序列观察期数;m 为指定延迟期数。

根据正态分布和卡方分布之间的关系,我们很容易推导出Q 统计量近似服从自由度为m 的卡方分布:

)(~?21

2m n

Q m

k k χρ

&∑==

当Q 统计量大于)(2

-1m αχ分位点,或该统计量的P 值小于α时,则可以以α-1的置信水平拒绝原假设,认为序列为白噪声序列;否则,接受原假设,认为该序列为纯随机序列。

2.LB 统计量

在实际应用中人们发现Q 统计量在大样本场合(n 很大的场合)检验效果很好,但在小样本场合就不太精确。为了弥补这一缺陷,Box 和Ljung 又推导出LB (Ljung-Box )统计量:

∑=???

? ??-+=m

k k k n n n LB 12?)2(ρ

式中,n 为序列观测期数;m 为指定延迟期数。

Box 和Ljung 证明LB 统计量同样近似服从自由度为m 的卡方分布。 实际上LB 统计量就是Box 和Pierce 的Q 统计量的修正,所以人们习惯把它们统称为Q 统计量,分别记作BP Q 统计量和LB Q 统计量,在各种检验场合普遍采用的Q 统计量通常指

的都是LB 统计量。

例2-4续(2)

计算例2-4中白噪声序列延迟6期、延迟12期的LB Q 统计量的值,并判断该序列的随机性(05.0=α)。

由图2-8微米可以得到该序列延迟12期样本自相关系数,数据如下,见表2-3.

根据上述数据,很容易计算出表2-4的结果。

可以认为该序列的波动没有任何统计规律可循,因而可以停止对该序列的统计分析。

还需要解释的一点是,为什么在本例中只检验了前6期和前12期延迟的Q 统计量和LB 统计量就直接判断该序列是白噪声序列呢?为什么不进行全部999期延迟呢?

这是因为平稳序列通常具有短期相关性,如果序列值之间存在显著的相关关系,通常只存在于延迟时期比较短的序检验结果列值之间。所以,如果一个平稳序列短期延迟的序列值之间都不存在显著的相关关系,通常长期延迟之间就更不会存在显著的相关关系。

另一方面,假如一个平稳序列显示出显著的短期相关性,那么该序列就一定不是白噪声序列, 我们就可以对序列值之间存在的相关性进行分析。假如此时考虑的延迟期数太长,反而可能 淹没了该序列的短期相关性。因为平稳序列只要延迟期足够长,自相关系数都会收敛于零。 例2-3续(2)

对1949-1998年北京市最高气温序列做白噪声检验(05.0=α)。 检验结果见表2-5。

根据这个检验结果,不能拒绝序列纯随机的原假设。因而可以认为北京市最高气温的变动属于纯随机波动。这说明我们很难根据历史信息预测未来年份的最高气温。至此,对该序

列的分析也就结束了。 例2-5

对1950-1998年北京市城乡居民定期储蓄所占比例序列的平稳性与纯随机性进行检验(数据见表A1-7)。

(1)绘制该序列时序图。 时序图如图2-9所示。

图2-9 北京市城乡居民定期储蓄所占比例序列时序图

该时序图显示北京市城乡居民定期储蓄始终占储蓄存款余额的80%左右,波动比较平稳。

(2)自相关图检验。考察该序列的样本自相关图,进一步检验该序列的平稳性。 自相关图如图2-10所示。

样本自相关图显示延迟3阶之后,自相关系数都落入2倍标准差围之,而且自相关系数向零衰减的速度非常快,延迟8阶之后自相关系数即在零值附近波动。这是一个非常典型的短期相关的样本自相关图。由时序图的样本自相关图的性质,可以认为该序列平稳。

(3)纯随机性检验(05.0=α)。检验结果见表2-6.

图2-10 北京市城乡居民定期储蓄所占比例序列自相关图

延迟期数

LB统计量检验

LB检验统计量的值P值

6 75.46 <0.0001

12 82.57 <0.0001

检验结果显示,在各阶延迟下LB统计量的P值都非常小(<0.0001),所以我们可以以很大的把握(置信水平>99.999%)断定北京市城乡居民定期储蓄所占比例序列属于非白噪声序列。

结合前面的平稳性检验结果,说明该序列不仅可以视为是平稳的,而且还蕴含着值得提取的信息。这种平稳非白噪声序列是目前最容易分析的一种心理,下一章我们就要详细介绍对这种平稳非白噪声序列的建模及预测方法。

2.3 习题

1.考虑序列{1,2,3,4,5,…,20}:

(1) 判断该序列是否平稳;

(2) 计算该序列的样本自相关系数k ?(k=1,2,…,6);

(3) 绘制该样本自相关图,并解释该图形。

2.1975-1980 年夏威夷岛莫那罗亚火山(Mauna Loa)每月释放的2

CO数据如下(单位:ppm)见表2-7(行数据)。

表2-7

330.45 330.97 331.64 332.87 333.61 333.55 331.90 330.05 328.58 328.31 329.41 330.63 331.63 332.46 333.36 334.45 334.82 334.32 333.05 330.87 329.24 328.87 330.18 331.50 332.81 333.23 334.55 335.82 336.44 335.99 334.65 332.41 331.32 330.73 332.05 333.53 334.66 335.07 336.33 337.39 337.65 337.57 336.25 334.39 332.44 332.25 333.59 334.76 335.89 336.44 337.63 338.54 339.06 338.95 337.41 335.71 333.68 333.69 335.05 336.53 337.81 338.16 339.88 340.57 341.19 340.87 339.25 337.19 335.49 336.63 337.74 338.36 (1)绘制该序列时序图,并判断该序列是否平稳。

(2)计算该序列的样本自相关系数 k ?ρ

(k=1,2,…,24)。 (3)绘制该样本自相关图,并解释该图形。

3.1945-1950 年费城月度降雨量数据如下(单位:mm ),见表2-8(行数据) 表2-8

69.3 80.0 40.9 74.9 84.6 101.1 225.0 95.3 100.6 48.3 144.5 128.3 38.4 52.3 68.6 37.1 148.6 218.7 131.6 112.8 81.8 31.0 47.5 70.1 96.8 61.5 55.6 171.7 220.5 119.4 63.2 181.6 73.9 64.8 166.9 48.0 137.7 80.5 105.2 89.9 174.8 124.0 86.4 136.9 31.5 35.3 112.3 143.0 160.8 97.0 80.5 62.5 158.2 7.6 165.9 106.7 92.2 63.2 26.2 77.0 52.3 105.4 144.3 49.5 116.1 54.1 148.6 159.3 85.3 67.3 112.8 59.4

(1)计算该序列的样本自相关系数k ?ρ

(k=1,2,…,24)。 (2)判断该序列的平稳性。

(3)判断该序列的纯随机性。

4.若序列长度为100,前12个样本自相关系数如下:

1ρ=0.02 2ρ=0.05 3ρ=0.10 4ρ=-0.02 5ρ=0.05 6ρ=0.01 7ρ=0.12 8ρ=-0.06 9ρ=0.08 10ρ=-0.05 11ρ=0.02 12ρ=-0.05

该序列能否视为纯随机序列(05.0=α)?

5.表2-9数据是某公司在2000-2003年期间每月的销售量。 表2-9

月份 2000年 2001年 2002年 2003年 1 153 134 145 117 2 187 175 203 178 3 234 243 189 149 4 212 227 214 178 5

300

298

295

248

6 221 256 220 202

7 201 237 231 162

8 175 165 174 135

9 123 124 119 120 10 104 106 85 96 11 85 87 67 90 12 78 74 74 63

(1)绘制该序列时序图及样本自相关图。 (2)判断该序列的平稳性。 (3)判断该序列的纯随机性。

6.1969年1月至1973年9月在芝加哥海德公园每28天发生的抢包案件数见表2-10(行数据)。 表2-10 10 15 10 10 12 10 7 7 10 14 8 17 14 18 3 9 11 10 6 12 14 10 25 29 33 33 12 19 16 19 19 12 34 15 36 29 26 32 17 19 13 20 24 12 6 14 6 12 9 11 17 12 8 14 14 12 5 8 10 3 16

8

8

7

12

6

10

8

10

5

(1)判断该序列{}t x 的平稳性及纯随机性。 (2)对该序列进行函数运算: 1--=t t t x x y

并判断序列{}t y 的平稳性及纯随机性。

2.4 上机指导 2.4.1 绘制时序图

在SAS 系统中,使用GPLOT 程序可以绘制多种精美的时序图,以表2-11数据为例,介绍GPLOT 程序的基本命令。 表2-1

Time Price1 Price2 2004年7月 12.85 15.21 2004年8月 13.29 14.23 2004年9月 12.41 14.69 2004年10月 15.21 13.27 2004年11月 14.23 16.75 2004年12月

13.56

15.33

data example2_1 input price1 price2

time=intnx (‘month ’,’01jul2004’d, _n_-1); format time date.; cards;

统计基础知识第五章时间序列分析习题及答案

第五章时间序列分析 一、单项选择题 1.构成时间数列的两个基本要素是( C )(2012年1月) A.主词和宾词 B.变量和次数 C.现象所属的时间及其统计指标数值 D.时间和次数 2.某地区历年出生人口数是一个( B )(2011年10月) A.时期数列 B.时点数列 C.分配数列 D.平均数数列 3.某商场销售洗衣机,2008年共销售6000台,年底库存50台,这两个指标是( C ) (2010年10) A.时期指标 B.时点指标 C.前者是时期指标,后者是时点指标 D.前者是时点指标,后者是时期指标 4.累计增长量( A ) (2010年10) A.等于逐期增长量之和 B.等于逐期增长量之积 C.等于逐期增长量之差 D.与逐期增长量没有关系 5.某企业银行存款余额4月初为80万元,5月初为150万元,6月初为210万元,7月初为160万元,则该企业第二季度的平均存款余额为( C )(2009年10) 万元万元万元万元 6.下列指标中属于时点指标的是( A ) (2009年10) A.商品库存量 B.商品销售量 C.平均每人销售额 D.商品销售额 7.时间数列中,各项指标数值可以相加的是( A ) (2009年10) A.时期数列 B.相对数时间数列 C.平均数时间数列 D.时点数列 8.时期数列中各项指标数值( A )(2009年1月) A.可以相加 B.不可以相加 C.绝大部分可以相加 D.绝大部分不可以相加 10.某校学生人数2005年比2004年增长了8%,2006年比2005年增长了15%,2007年比2006年增长了18%,则2004-2007年学生人数共增长了( D )(2008年10月) %+15%+18%%×15%×18% C.(108%+115%+118%)-1 %×115%×118%-1 二、多项选择题 1.将不同时期的发展水平加以平均而得到的平均数称为( ABD )(2012年1月) A.序时平均数 B.动态平均数 C.静态平均数 D.平均发展水平 E.一般平均数2.定基发展速度和环比发展速度的关系是( BD )(2011年10月) A.相邻两个环比发展速度之商等于相应的定基发展速度 B.环比发展速度的连乘积等于定基发展速度

时间序列分析作业

时间序列分析作业 1、数据收集 通过长江证券金长江网上交易软件收集中信证券(600030)股价数据(2010-7-1~2011-5-9,共200组),保存文件,命名为“股价数据”。 2、工作表建立 打开eviews,点击file下拉菜单中的new项选择workfile项,弹出窗口如下: (1)、在datespecification中选择integer date。 (2)、在start和end中分别输入“1”“200” (3)、在wf项后面的框中输入工作表名称hr,点击ok。 窗口如下: 3、数据导入 在hr工作文件的菜单选项中选择pro,在弹出的下拉菜单中选择import,然后再下拉二级菜单中选择read text-lotus-excell,找到数据,双击弹出如下对话框:

默认date order,选择右边upper-left data cell下面的空格填写,输入excel中第一个有效数据单元格地址B6,在names for series or number if named in file 中输入序列名称,不妨设为s,点击ok,导入数据。 4、平稳性检验 点击s序列,选择菜单view/correlogram,弹出correlogram specification对话框,如下图,在对话框中默认level,lags to include 改为20(200/10),可得下图:

序列的自相关系数没有很快的趋近0,说明原序列是非平稳的序列。 5、对原序列做对数差分处理 A、在主窗口输入smpl 2 200,对样本数据进行选取, B、在主命令窗口输入series is=log(s)-log(s(-1)) 可以得到新的序列is 对is序列做同上的平稳性检验可以得到如下图:

第三次作业AR模型拟合

实验报告 报告题目:AR模型拟合 课程名称:应用时间序列分析 专业:统计学 年级:统计121 学号:65 学生姓名:陈江余 指导教师:胡尧 学院:理学院 实验时间:2015年5月26日

学生实验室守则 一、按教学安排准时到实验室上实验课,不得迟到、早退和旷 课。 二、进入实验室必须遵守实验室的各项规章制度,保持室内安 静、整洁,不准在室内打闹、喧哗、吸烟、吃食物、随地 吐痰、乱扔杂物,不准做与实验内容无关的事,非实验用 品一律不准带进实验室。 三、实验前必须做好预习(或按要求写好预习报告),未做预习 者不准参加实验。 四、实验必须服从教师的安排和指导,认真按规程操作,未经教师允许不得擅自动用仪器设备,特别是与本实验无关的仪器设备和设施,如擅自动用或违反操作规程造成损坏,应按规定赔偿,严重者给予纪律处分。 五、实验中要节约水、电、气及其它消耗材料。 六、细心观察、如实记录实验现象和结果,不得抄袭或随意更改原始记录和数据,不得擅离操作岗位和干扰他人实验。 七、使用易燃、易爆、腐蚀性、有毒有害物品或接触带电设备进行实验,应特别注意规范操作,注意防护;若发生意外,要保持冷静,并及时向指导教师和管理人员报告,不得自行处理。仪器设备发生故障和损坏,应立即停止实验,并主动向指导教师报告,不得自行拆卸查看和拼装。 八、实验完毕,应清理好实验仪器设备并放回原位,清扫好实验现场,经指导教师检查认可并将实验记录交指导教师检查签字后方可离去。 九、无故不参加实验者,应写出检查,提出申请并缴纳相应的实验费及材料消耗费,经批准后,方可补做。 十、自选实验,应事先预约,拟订出实验方案,经实验室主任同意后,在指导教师或实验技术人员的指导下进行。 十一、实验室内一切物品未经允许严禁带出室外,确需带出,必须经过批准并办理手续。

时间序列分析练习题

第二十七章时间序列分析 一、单项选择题 1、以下关于发展水平的说法中,错误的是()。 A、在绝对数时间序列中,发展水平是绝对数 B、在相对数时间序列中,发展水平表现为相对数 C、发展水平是时间序列中对应于具体时间的指标数值 D、平均数时间序列中,发展水平表现为绝对数 2、()也称序时平均数或动态平均数,是对时间序列中各时期发展水平计算的平均数,它可以概括性描述现象在一段时期内所达到的一般水平。 A、发展水平 B、发展速度 C、平均发展水平 D、平均发展速度 我国2005—2017年平均每年第三产业就业人数是()万人。 A、12 480 B、12 918 C、14 000 D、14 412 4、环比发展速度等于()。 A、逐期增长量与其前一期水平之比 B、累计增长量与最初水平之比 C、报告期水平与最初水平之比 D、报告期水平与其前一期水平之比 5、已知一个序列的环比发展速度为102%、103%、105%,则该序列的定基发展速度为()。 A、103% B、105% C、110% D、112% 6、以相对数形式表示的两个不同时期发展水平的比值是()。 A、增长量 B、发展水平 C、增长速度 D、发展速度 7、已知某地区2012-2016年社会消费品零售总额的环比增长速度分别为5%、7%、10%、11%,则这一时期该地区社会消费品零售总额的定基增长速度为()。 A、5%×7%×10%×11% B、(5%×7%×10%×11%)+1

C、105%×107%×110%×111% D、(105%×107%×110%×111%)-1 8、甲企业某种商品前11个月的实际销售量如下表所示。采用移动平均数法预测,取k=3,则第 A、303 B、350 C、384 D、394 9、目前计算平均发展速度通常采用()。 A、众数 B、几何平均法 C、算术平均法 D、增长1%的绝对值法 10、某企业2010年—2016年销售收入的年平均增长速度是27.6%,这期间相应的年平均发展速度是()。 A、4.6% B、17.6% C、127.6% D、72.4% 11、平均增长速度与平均发展速度的数量关系是()。 A、平均增长速度=1/平均发展速度 B、平均增长速度=平均发展速度-1 C、平均增长速度=平均发展速度+1 D、平均增长速度=1-平均发展速度 12、我们经常统计的城镇人口比重属于()。 A、平均数时间序列 B、相对数时间序列 C、时期序列 D、时点序列 13、下列统计指标中,属于相对指标的是()。 A、社会消费品零售总额 B、人口性别比 C、房屋建筑面积 D、城镇居民人均可支配收入 14、已知一个有关发展速度的时间序列的指标值是70%、80%、-5%、99%,其平均发展速度()。 A、61% B、50%

计量经济学大作业

计量经济学大作业 ――税收影响因素的研究学号: 姓名: 专业:

税收影响因素的研究 摘要 本文研究的是税收影响因素模型,通过对1991-2010年税收规模资料的分析,以了解税收的结构、规模及演变的新特点,并探讨影响税收的各因素,运用Eviews软件对1991—2010的历史数据进行分析,并通过我国实际经济发展状况和政策导向运用此关系对以后情况进行预测。 关键词:税收财政支出 OLS 1 问题的提出 从进入21世纪以来,我国的经济发展面临着巨大的挑战与机遇,在新的经济背景下,基于知识和信息的产业发展迅速,全球一体化日渐深入,中国已是WTO的一员。新形势的经济发展是经济稳定和协调增长的结果,由于税收具有敛财与调控的重要功能,因而他在现实的经济发展中至始至终都发挥着非常重要的作用,所以研究影响我国税收收入的主要原因具有非常重要的作用。改革开放以来,中国经济高涨,对税收影响最大的当属财政支出。另外各种消费价格指数也是重要影响因素,而前人有对国内生产总值是否具有影响进行过实证分析。经济发展水平是制约税制结构的生产力要素,两者之间的相关程度较高。这种相关性主要表现为经济发展水平规定着税收参与社会产品分配的比例,决定着税制结构的选择。经济发展水平的差异通常以人均国内生产总值的高低来衡量。在人均国内生产总值不同的国家里,税收规模即税收占国内生产总值的比重是不一样的。以世界银行公布的1980年的调查材料为例,在人均国内生产总值260美元的低收入国家里,国内生产总值税收率为13.2%;人均国内生产总值为2000美元的中等收入国家,这一比率为23.3%;而在人均国内生产总值为1万美元的高收入国家,这一比例是28.1%。显然,一国国内生产总值税收率愈高,税负承受能力愈强,因而也为税制结构的调整提供了物质基础。本文站在前人的基础上,引用计量的方法,将三者综合起来对税收进行探讨,作者认为,在我国经济飞速发展的过程中,国内生产总值有了很大的增长,因而本文将国内生产总值引入该项目的实证研究分析。

时间序列分析作业讲解

《时间序列分析与应用》 课程作业 地震数据(COP.BHZ-24)时间序列分析 一.前言 本次作业选取了第24号文件,共1440个数据。截取前1200个数据进行理分析,然后建立模型。之后再对数据进行预测,然后对1200之后的30个数据进行更新,将更新结果与原观测值进行比对分析,最后得出结论。 二.数据处理

1. 数据读取与画图 首先将文件“COP.BHZ.txt”保存到E盘根目录下,以便于读取。用scan()函数将数据读入,并保存到sugar2文件中。如图1所示。 图1 数据读取 然后,画出该时间序列图。横轴表示时间,单位是*10ms,纵轴表示高程,单位是um。代码及图示如图2、图3所示。 图2 时序图代码 图3 前1200个数据散点图 2. 平稳性检验 从图中看出,该组数据随时间变化基本平稳,仅有小幅波动。最高点与最低点相差也仅在250um之内。通过adf.test()函数可以验证该假设,可以看出该序列是平稳的(stationary)。如图4所示。然后用求平均函数mean()求出这1200个数据的平均值a,可以从图5看到结果。

图4 平稳性检验结果 图5 求平均值 然后,将原始数据减去平均值,得到一组零均值的新数据,命名为sugar3。 3. 数据建模分析 接下来绘制震前数据的自相关函数和偏自相关函数图像,初步判断其大概符合什么模型。图6为画出图像的代码,新序列sugar3的ACF、PACF图像如下所示。 图6 ACF、PACF、EACF图像代码

图7 ACF图 图8 PACF图 从ACF、PACF图可以看出,序列一阶之后相关性较强,虽然在第19阶滞后处有超限的情况,但从总体来看,两个图都是拖尾的情况。因此要借助于EACF 图来做进一步判断。扩展自相关函数EACF图如下。 图9 EACF图 3 模型识别 由EACF图可以看出此时间序列符合ARMA(0,1)或ARMA(2,2),根据以上信息尚不能明确判断出具体的模型,要建立确定的模型,就需要排除上述模型中的一种,用模型诊断的方法可以实现。模型诊断,或模型评价,涉及检验模型的拟合优度,并且如果拟合程度很差,要给出适当的调整建议。模型诊断的方法有两种:分析拟合模型的残差和分析过度参数化的模型。下面先使用残差法。 3.1 ARMA(0,1)模型诊断

普通高等学校在校学生总数变动的多因素分析_计量经济学大作业

计量经济学大作业――普通高等学校在校学生总数变动的多因素分析学号:0090863 0090817 0090832 姓名:组长:邱碧涛组员:杨意钟丹兰 专业:财政学 修课时间:2011-2012第一学期 任课教师:朱永军 成绩: 评语:本文通过对中国普通高等学校在校学生总数的变动进行多因素分析,采用中国1985年到2009年的数据,建立以在校大学生总数为应变量,以其它可量化影响因素为自变量的多元线性回归模型,并利用模型对在校大学生总数进行数量化分析,得出各因素与在校大学生总数成正相关关系的结论。从大作业的完成情况来看,说明本小组成员对计量经济学有一定程度的理解,并能使用Eviews软件进行实证分析。 Email:275474458@https://www.wendangku.net/doc/8f4011867.html,

普通高等学校在校学生总数变动的多因素分析 摘要 本文主要通过对中国普通高等学校在校学生总数的变动进行多因素分析,建立以在校大学生总数为应变量,以其它可量化影响因素为自变量的多元线性回归模型,并利用模型对在校大学生总数进行数量化分析,观察各因素是如何分别影响在校大学生总数的。 关键词:在校大学生总数多因素分析模型计量经济学检验 Abstract This text uses the total number of students in Chinese colleges and universities to do multivariate analysis, and it establishes a multiple linear regression model, which uses the total number of college students to be the dependent variable and other factors to be the independent variable .What's more, it uses the model to do quantitative analysis of the total number of college students, and observe how various factors affect the total number of college students respectively. Key words: The total number of college students, Multivariate analysis, Model, Econometric, Test

《时间序列分析及应用:R语言》读书笔记

《时间序列分析及应用:R语言》读书笔记 姓名:石晓雨学号:1613152019 (一)、时间序列研究目的主要有两个:认识产生观测序列的随机机制,即建立数据生成模型;基于序列的历史数据,也许还要考虑其他相关序列或者因素,对序列未来的可能取值给出预测或者预报。通常我们不能假定观测值独立取自同一总体,时间序列分析的要点是研究具有相关性质的模型。 (二)、下面是书上的几个例子 1、洛杉矶年降水量 问题:用前一年的降水量预测下一年的降水量。 第一幅图是降水量随时间的变化图;第二幅图是当年降水量与去年降水量散点图。 win.graph(width=4.875, height=2.5,pointsize=8) #这里可以独立弹出窗口 data(larain) #TSA包中的数据集,洛杉矶年降水量 plot(larain,ylab='Inches',xlab='Year',type = 'o') #type规定了在每个点处标记一下 win.graph(width = 3,height = 3,pointsize = 8) plot(y = larain,x = zlag(larain),ylab = 'Inches',xlab = 'Previous Year Inches')#zlag 函数(TSA包)用来计算一个向量的延迟,默认为1,首项为NA

从第二幅图看出,前一年的降水量与下一年并没有什么特殊关系。 2、化工过程 win.graph(width = 4.875,height = 2.5,pointsize = 8) data(color) plot(color,ylab = 'Color Property',xlab = 'Batch',type = 'o') win.graph(width = 3,height = 3,pointsize = 8) plot(y = color,x = zlag(color),ylab = 'Color Property',xlab = 'Previous Batch Color Property') len <- length(color) cor(color[2:len],zlag(color)[2:len])#相关系数>0.5549 第一幅图是颜色属性随着批次的变化情况。

第九章 时间序列分析习题

第九章时间序列分析习题 一、填空题 1.时间序列有两个组成要素:一是,二是。 2.在一个时间序列中,最早出现的数值称为,最晚出现的数值称为。 3.时间序列可以分为时间序列、时间序列和时间序列三种。其中是最基本的序列。 4.绝对数时间序列可以分为和两种,其中,序列中不同时间的数值相加有实际意义的是序列,不同时间的数值相加没有实际意义的是序列。 5.已知某油田1995年的原油总产量为200万吨,2000年的原油总产量是459万吨,则“九五”计划期间该油田原油总产量年平均增长速度的算式为。 6.发展速度由于采用的基期不同,分为和两种,它们之间的关系可以表达为。 7.设i=1,2,3,…,n,a i为第i个时期经济水平,则a i/a0是发展速度,a i/a i-1是发展速度。 8.计算平均发展速度的常用方法有方程式法和. 9.某产品产量1995年比1990年增长了105%,2000年比1990年增长了306.8%,则该产品2000年比1995增长速度的算式是。 10.如果移动时间长度适当,采用移动平均法能有效地消除循环变动和。 11.时间序列的波动可分解为长期趋势变动、、循环变动和不规则变动。 12.用最小二乘法测定长期趋势,采用的标准方程组是。 二、单项选择题 1.时间序列与变量数列( ) A都是根据时间顺序排列的B都是根据变量值大小排列的 C前者是根据时间顺序排列的,后者是根据变量值大小排列的 D前者是根据变量值大小排列的,后者是根据时间顺序排列的 2.时间序列中,数值大小与时间长短有直接关系的是( ) A平均数时间序列B时期序列C时点序列D相对数时间序列 3.发展速度属于( ) A比例相对数B比较相对数C动态相对数D强度相对数 4.计算发展速度的分母是( ) A报告期水平B基期水平C实际水平D计划水平 则该车间上半年的平均人数约为( ) A 296人 B 292人 C 295 人 D 300人 6.某地区某年9月末的人口数为150万人,10月末的人口数为150.2万人,该地区10月的人口平均数为( ) A150万人B150.2万人C150.1万人D无法确定 7.由一个9项的时间序列可以计算的环比发展速度( ) A有8个B有9个C有10个D有7个 8.采用几何平均法计算平均发展速度的依据是( )

(整理)8章 时间序列分析练习题参考答案.

第八章 时间数列分析 一、单项选择题 1.时间序列与变量数列( ) A 都是根据时间顺序排列的 B 都是根据变量值大小排列的 C 前者是根据时间顺序排列的,后者是根据变量值大小排列的 D 前者是根据变量值大小排列的,后者是根据时间顺序排列的 C 2.时间序列中,数值大小与时间长短有直接关系的是( ) A 平均数时间序列 B 时期序列 C 时点序列 D 相对数时间序列 B 3.发展速度属于( ) A 比例相对数 B 比较相对数 C 动态相对数 D 强度相对数 C 4.计算发展速度的分母是( ) A 报告期水平 B 基期水平 C 实际水平 D 计划水平 B 5.某车间月初工人人数资料如下: 则该车间上半年的平均人数约为( ) A 296人 B 292人 C 295 人 D 300人 C 6.某地区某年9月末的人口数为150万人,10月末的人口数为150.2万人,该地区10月的人口平均数为( ) A 150万人 B 150.2万人 C 150.1万人 D 无法确定 C 7.由一个9项的时间序列可以计算的环比发展速度( ) A 有8个 B 有9个 C 有10个 D 有7个 A 8.采用几何平均法计算平均发展速度的依据是( ) A 各年环比发展速度之积等于总速度 B 各年环比发展速度之和等于总速度 C 各年环比增长速度之积等于总速度 D 各年环比增长速度之和等于总速度 A 9.某企业的科技投入,2010年比2005年增长了58.6%,则该企业2006—2010年间科技投入的平均发展速度为( ) A 5 %6.58 B 5%6.158 C 6 %6.58 D 6%6.158 B 10.根据牧区每个月初的牲畜存栏数计算全牧区半年的牲畜平均存栏数,采用的公式是( ) A 简单平均法 B 几何平均法 C 加权序时平均法 D 首末折半法 D 11.在测定长期趋势的方法中,可以形成数学模型的是( ) A 时距扩大法 B 移动平均法 C 最小平方法 D 季节指数法

数据模型与决策课程大作业

数据模型与决策课程大作业 以我国汽油消费量为因变量,乘用车销量、城镇化率和90#汽油吨价与城镇居民人均可支配收入的比值为自变量时行回归(数据为年度时间序列数据)。试根据得到部分输出结果,回答下列问题:1)“模型汇总表”中的R方和标准估计的误差是多少 2)写出此回归分析所对应的方程; 3)将三个自变量对汽油消费量的影响程度进行说明; 4)对回归分析结果进行分析和评价,指出其中存在的问题。 1)“模型汇总表”中的R方和标准估计的误差是多少 答案:R方为^2= ;标准估计的误差为^()= 2)写出此回归分析所对应的方程; 答案:假设汽油消费量为Y,乘用车销量为a,城镇化率为b,90#汽油吨价/城镇居民人均可支配收入为c,则回归方程为: Y=++)将三个自变量对汽油消费量的影响程度进行说明; 乘用车销量对汽油消费量相关系数只有,数值太小,几乎没有影响,但是城镇化率对汽油消费量相关系数是,具有明显正相关,当城镇化率每提高1,汽油消费量增加。乘用90#汽油吨价/城镇居民人均可支配收入相关系数为,呈明显负相关,即乘用90#汽油吨价/城镇居民人均可支配收入每增加1个单位,汽油消费量降低个单位。a, b, c三个自变量的sig值为、、,在显着性水平情形下,乘用车消费量对

汽油消费量的影响显着为正。 (4)对回归分析结果进行分析和评价,指出其中存在的问题。 在学习完本课程之后,我们可以统计方法为特征的不确定性决策、以运筹方法为特征的策略的基本原理和一般方法为基础,结合抽样、参数估计、假设分析、回归分析等知识对我国汽油消费量影响因素进行了模拟回归,并运用软件计算出回归结果,故根据回归结果,对具体回归方程,回归准确性,自变量影响展开分析。 Anova表中,sig值是t统计量对应的概率值,所以t和sig两者是等效的,sig要小于给定的显着性水平,越接近于0越好。F是检验方程显着性的统计量,是平均的回归平方和平均剩余平方和之比,越大越好。在图表中,回归模型统计值F=,p值为,因此证明回归模型有统计学意义,表现回归极显着。即因变量与三个自变量之间存在线性关系。 系数表中,除了常数项系数显着性水平大于,不影响,其它项系数都是,小于,即每个回归系数均具有意义。

银行业和证券业的统计分析

目录

银行业和证券业的统计分析 ——从上市公司的角度 1 研究概要 背景介绍 随着中国金融市场的逐步完善与繁荣,越来越多的人开始关注这个领域。而作为金融市场重要组成部分的证券市场,理所应当地吸引了人们最多的眼球。本次统计大作业的研究中心选择也正是基于这种考虑。在行业类型的选择上,我们结合了小组成员的专业和兴趣,确定了金融行业的两大主要组成部分——银行业与证券业。以期通过SPSS统计软件进行相应的统计分析,寻找这些公司间的共性与特性,为投资者的投资提供有用的参考。 数据选择 我们从A股上市的银行和券商中分别选取十家,根据其2009年6月30日的半年报计算出九个主要的财务指标:股东权益比、负债权益比、主营收入增长率、管理费用比例、总资产周转率、资产负SPSS统计软件债率、每股收益、经营净利率和资产利润率。数据见附表1。 统计方法 通过上述财务指标比较分析银行业与证券业的差异、盈利水平以及股价的变动等方面。我们运用到的统计方法包括描述统计、相关分析、多元线性回归、方

差分析、两个独立样本的非参数检验、主成分分析、聚类分析、判别分析、多维尺度分析、时间序列分析。 2 SPSS统计分析结果 描述统计——两行业特征的比较 我们分别对银行和券商这两个行业的十组数据进行统计描述,以求对两行业之间的特征能有个大致的掌握。结果如下所示: (1)银行业: (2)券商: 通过上表可以看出 (1)券商的股东权益比均值为远大于银行的,说明证券行业风险较大要求券商有较强的抵御外部风险的能力;

(2)银行的负债权益比相较证券业的高,说明银行的负债比例较高,这主要是由于银行吸收存款的特性造成的; (3)从主营收入增长率来看,银行业发展比较稳定,而券商的成长能力较强。 (4)比较两个行业的盈利水平,可以发现券商的资产管理能力,资产的利用率相对较高,善于改善生产经营管理,降低成本费用,有利于利润总额的增加 两个独立样本的非参数检验——银行业与证券业各指标分布的差异 通过对两个独立样本(银行业与证券业)的均值、中位数、离散趋势、偏度等进行差异性检验,分析它们是否来自相同分布的总体。 样本变量的Mann-Whitney U统计量的值分别为0、0、39、33、0、45、26、0;Wilcoxon W统计量的值分别为55、55、94、88、55、55、100、81、55;Z 统计量值分别为、、、、、、、、,负值说明实际观测的秩和比期望观测的秩和要小。股东权益比、负债权益比、总资产周转率、资产负债率和资产利润率比的Sig值比小,说明银行业与证券业的这些指标有显着差异。而主营收入增长率、管理费用比例、每股收益和经营利润率的Sig值比大,说明这些指标在银行业与券商业中差异不大。 为了验证前面得出的结论,用K-S Z方法来检验同一个问题,上表为分析结果。K-S Z的值分别为、、、、、、、和,其所对应的双边渐进显着性水平分别为小于、小于、、小于、小于、、和小于。即主营收入增长率、管理费用比例、每股收益和

第五章 时间序列的模型识别

第五章时间序列的模型识别 前面四章我们讨论了时间序列的平稳性问题、可逆性问题,关于线性平稳时间序列模型,引入了自相关系数和偏自相关系数,由此得到ARMA(p, q)统计特性。从本章开始,我们将运用数据开始进行时间序列的建模工作,其工作流程如下: 图5.1 建立时间序列模型流程图 在ARMA(p,q)的建模过程中,对于阶数(p,q)的确定,是建模中比较重要的步骤,也是比较困难的。需要说明的是,模型的识别和估计过程必然会交叉,所以,我们可以先估计一个比我们希望找到的阶数更高的模型,然后决定哪些方面可能被简化。在这里我们使用估计过程去完成一部分模型识别,但是这样得到的模型识别必然是不精确的,而且在模型识别阶段对于有关问题没有精确的公式可以利用,初步识别可以我们提供有关模型类型的试探性的考虑。 对于线性平稳时间序列模型来说,模型的识别问题就是确定ARMA(p,q)过程的阶数,从而判定模型的具体类别,为我们下一步进行模型的参数估计做准备。所采用的基本方法主要是依据样本的自相关系数(ACF)和偏自相关系数(PACF)初步判定其阶数,如果利用这种方法无法明确判定模型的类别,就需要借助诸如AIC、BIC 等信息准则。我们分别给出几种定阶方法,它们分别是(1)利用时间序列的相关特性,这是识别模型的基本理论依据。如果样本的自相关系数(ACF)在滞后q+1阶时突然截断,即在q处截尾,那么我们可以判定该序列为MA(q)序列。同样的道理,如果样本的偏自相关系数(PACF)在p处截尾,那么我们可以判定该序列为AR(p)序列。如果ACF和PACF 都不截尾,只是按指数衰减为零,则应判定该序列为ARMA(p,q)序列,此时阶次尚需作进一步的判断;(2)利用数理统计方法检验高阶模型新增加的参数是否近似为零,根据模型参数的置信区间是否含零来确定模型阶次,检验模型残差的相关特性等;(3)利用信息准则,确定一个与模型阶数有关

时间序列的分析课后作业

《应用时间序列分析》 实训报告 实训项目名称时间序列预处理 实训时间 2013年10月14日 实训地点实验楼309 班级统计1004班 学号 1004100415 姓名范瑛

《应用时间序列分析》 实训(实践) 报告 实训名称时间序列预处理 一、实训目的 目的:熟悉平稳性检验方法和纯随机性检验方法的相关理论和软件实现的过程,并对结果给出解释,加深对理论的理解,提高动手能力。 任务:Eviews软件的常用菜单方式和命令方式操作;时间序列的自相关函数计算;序列的初步分析,并序列进行平稳性和纯随性进行检验,并写出实训报告。 二、实训要求 1、掌握Eviews软件的工作文件建立方法; 2、对时间序列进行初步分析,总结特征; 3、学会用Eviews软件计算时间序列分析相关函数的; 4、对序列进行平稳性和纯随性检验; 5、在上完机后要写出实验报告。 三、实训内容 1、熟悉Eviews软件的菜单操作和命令操作,包括工作文件的建立、数据的输入 与编辑、新序列的产生、在工作文件窗口中删除、更名变量、序列的各种观察(线图、各种统计量)以及时间序列的差分运算和相关函数的计算。本部分主要由教师来演示介绍。 2、初步对序列进行观察,对序列进行观察分析,求出序列的自相关函数和Q-统 计量,并对序列进行平稳性检验和纯随机性检验。 四、实训分析与总结 第一题 根据Eviews分析所得时间序列图如图1所示:

图1:系列样本序列时序图 该时序图显示系列样本有明显的递增趋势,所以它一定不是平稳序列。 Autocorrelation Partial Correlation AC PAC Q-Stat Prob . |****** | . |****** | 1 0.729 0.729 12.293 0.000 . |**** | . | . | 2 0.511 -0.042 18.682 0.000 . |*** | . | . | 3 0.342 -0.033 21.712 0.000 . |**. | . | . | 4 0.215 -0.025 22.983 0.000 . |* . | . | . | 5 0.124 -0.016 23.435 0.000 . | . | . | . | 6 0.063 -0.008 23.560 0.001 . | . | . | . | 7 0.026 -0.002 23.584 0.001 . | . | . | . | 8 0.008 0.003 23.586 0.003 . | . | . | . | 9 0.001 0.005 23.586 0.005 . | . | . | . | 10 0.000 0.003 23.586 0.009 . | . | . | . | 11 0.000 -0.001 23.586 0.015 . | . | . | . | 12 0.000 -0.001 23.586 0.023 图2:系列样本序列自相关图 从图中我们发现序列的自相关系数递减到零的速度相当缓慢,在很长的延迟 时期里,自相关系数一直为正。这是具有单调趋势的非平稳序列的一种典型的自 相关图形式。这和该序列时序图显示的显著的单调递增性是一致的。 第二题 根据Eviews分析所得时间序列图如图3所示:

时间序列分析习题

第8 章时间序列分析 一、填空题: 1.平稳性检验的方法有___________ 、_________ 和__________ 。 2.单位根检验的方法有:__________ 和___________ 。 3.当随机误差项不存在自相关时,用____________ 进行单位根检验;当随机误差 项存在自相关时,用___________ 进行单位根检验。 4. ___________________________________________________ EG检验拒绝零假设说明_______________________________________________________ 。 5. __________________________________________ DF检验的零假设是说被检验时间序列___________________________________________ 。 6. ____________________________ 协整性检验的方法有和。 7. 在用一个时间序列对另一个时间序列做回归时,虽然两者之间并无任何有意 义的关系,但经常会得到一个很高的R2的值,这种情况说明存在____________ 问题。 8. ________________________________________________ 结构法建模主要是以____________________________________________________________ 来确定计量经济模型的理论关系形式。 9. _________________________________ 数据驱动建模以作为建模的主要准则。 10. 建立误差校正模型的步骤为一般采用两步:第一步,______________________

时间序列分析及其应用

时间序列分析及其应用 摘要:本文介绍了目前时间序列分析的发展状况以及应用情况,对常见的几种趋势拟合及其预测方法进行了简要叙述。 关键词:时间序列趋势建模 1 引言 时间序列分析是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。时间序列是按时间顺序的一组数字序列。时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来 事物的发展。时间序列分析是定量预测方法之一,它的基本原理:一是承认事物发展的延续性。应用过去数据,就能推测事物的发展趋势。二是考虑到事物发展的随机性。任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理。 2 时间序列分析的趋势及建模 时间序列分析的成分有:(1)长期趋势,即时间序列随时间的变化而逐渐增加或减少的长期变化的趋势;(2)季节变动,即时间序列在一年中或固定时间内,呈现出的固定规则的变动;(3)循环变动,即

沿着趋势线如钟摆般地循环变动;(4)不规则变动,即在时间序列中由于随机因素影响所引起的变动。 时间序列建模基本步骤是:用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据;根据动态数据作相关图,进行相关分析,求自相关函数。相关图能显示出变化的趋势和周期,并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。然后辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。 主要的趋势拟合方法有平滑法、趋势线法和自回归模型。对于很多情况,时间序列具有季节趋势,比如气象学中的气温、降雨量,水文学中雨季和干季的河流水量等等。这就需要分析时间序列时,将季节趋势考虑在内。季节性预测法的基本步骤是(1)对原时间序列求移动平均,以消除季节变动和不规则变动,保留长期趋势;(2)将原序列y除以其对应的趋势方程值(或平滑值),分离出季节变动(含不规则变动),即季节系数=tsci/趋势方程值(tc或平滑值);(3)将月度(或季度)的季节指标加总,以由计算误差导致的值去除理论加总值,得到一个校正系数,并以该校正系数乘以季节性指标从而获得调整后季节性指标;(4)求预测模型,若求下一年度的预测值,延长趋势线即可;若求各月(季)的预测值,需以趋势值乘以各月份(季

时间序列分析作业

1、某股票连续若干天的收盘价如下表: 304 303 307 299 296 293 301 293 301 295 284 286 286 287 284 282 278 281 278 277 279 278 270 268 272 273 279 279 280 275 271 277 278 279 283 284 282 283 279 280 280 279 278 283 278 270 275 273 273 272 275 273 273 272 273 272 273 271 272 271 273 277 274 274 272 280 282 292 295 295 294 290 291 288 288 290 293 288 289 291 293 293 290 288 287 289 292 288 288 285 282 286 286 287 284 283 286 282 287 286 287 292 292 294 291 288 289 选择适当模型拟合该序列的发展,并估计下一天的收盘价。 解:根据上面的图和SAS软件编辑程序得到时序图,程序如下: data shiyan7_1; input x@@; time=_n_; cards; 304 303 307 299 296 293 301 293 301 295 284 286 286 287 284 282 278 281 278 277 279 278 270 268 272 273 279 279 280 275 271 277 278 279 283 284 282 283 279 280 280 279 278 283 278 270 275 273 273 272 275 273 273 272 273 272 273 271 272 271 273 277 274 274 272 280 282 292 295 295 294 290 291 288 288 290 293 288 289 291 293 293 290 288 287 289 292 288 288 285 282 286 286 287 284 283 286 282 287 286 287 292 292 294 291 288 289 ; proc print data=shiyan7_1; proc gplot data=shiyan7_1; plot x *time=1; symbol1c=red v=star i=spline; run; 通过SAS运行上述程序可得到如下结果:

时间序列分析期末大作业 GNP平减指数的季度序列分析

20XX级XX专业时间序列分析大作业 20XX年X月X日 某国1960年第一季度-1993年第四季度GNP平减指数的季度序列分析 摘要 附录中给出了某国1960年第一季度-1993年第四季度GNP平减指数的季度序列,本文旨在利用时间序列分析并结合Eviews来研究该时间序列,并给出该国GNP平减指数的时间序列方程式,从而对该国的GNP平减指数进行定性分析。 在进行时间序列分析时,先对数据进行平稳性检测,发现这个序列不平稳且具有季节性,故要用差分进行平稳化操作。经过4阶普通差分,周期为4的季节差分后序列达到平稳。平稳化后进行模型的识别。首先要进行模型的识别与定阶,通过平稳后的序列的自相关系数和偏自相关系数图初步判定模型的种类,当模型都可以通过检验时,通过AIC准则进行模型的拟合度检验,模型的AIC值较小的拟合度较高。拟合度检验后发现AR(4)SAR(4)的模型拟合度最高,故此序列的模型为AR(4)SAR(4)模型。当模型定阶后,就要对模型参数

()12,,T p ????=,()12,,T q θθθθ=进行估计,这一步可以得到模型表达式。定阶 与参数估计完成后,还要对模型进行检验,即要检验t ε是否为平稳白噪声,这里我们用2χ检验法进行模型检验。 关键字:时间序列分析,Eviews ,乘积季节模型 1、平稳性和季节性检测 1.1 从序列的时序图可以初步判断样本序列是否平稳:根据平稳时间序列均值、方差为常数的性质,平稳时间序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界的特点。如果观察序列的时序图显示出该序列有明显的趋势性或者周期性,则时间序列通常不是平稳的时间序列。 该时间序列的时序图如下图所示:

应用时间序列分析 第5章

佛山科学技术学院 应用时间序列分析实验报告 实验名称第五章非平稳序列的随机分析 一、上机练习 通过第4章我们学习了非平稳序列的确定性因素分解方法,但随着研究方法的深入和研究领域的拓宽,我们发现确定性因素分解方法不能很充分的提取确定性信息以及无法提供明确有效的方法判断各因素之间确切的作用关系。第5章所介绍的随机性分析方法弥补了确定性因素分解方法的不足,为我们提供了更加丰富、更加精确的时序分析工具。 5.8.1 拟合ARIMA模型 【程序】 data example5_1; input x@@; difx=dif(x); t=_n_; cards; 1.05 -0.84 -1.42 0.20 2.81 6.72 5.40 4.38 5.52 4.46 2.89 -0.43 -4.86 -8.54 -11.54 -1 6.22 -19.41 -21.61 -22.51 -23.51 -24.49 -25.54 -24.06 -23.44 -23.41 -24.17 -21.58 -19.00 -14.14 -12.69 -9.48 -10.29 -9.88 -8.33 -4.67 -2.97 -2.91 -1.86 -1.91 -0.80 ; proc gplot; plot x*t difx*t; symbol v=star c=black i=join; proc arima; identify var=x(1); estimate p=1; estimate p=1 noint; forecast lead=5id=t out=out; proc gplot data=out; plot x*t=1 forecast*t=2 l95*t=3 u95*t=3/overlay; symbol1c=black i=none v=star; symbol2c=red i=join v=none; symbol3c=green I=join v=none;

相关文档
相关文档 最新文档