《应用多元统计分析》
课程实验报告
实验名称:利用回归法分析山东省农村居民收入的消费分配学生班级:统计学院统计0901班
学生姓名:王冬冬、王鹏、王莉、王璐
指导老师:张艳丽___________________________________ 完成日期:2011-12-10
一、 实验内容
本文通过分析研究更深一步了解山东省农村居民生活水平。实验中充分利用了回归分析、聚类分析等多种分析手段。先通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势,以及城乡之间的对比;然后利用聚类分析说明了收入支出的地区差异。然后利用回归分析建立了山东省农村居民收入与支出之间的模型,试图寻找出农村居民收入的消费分配现状,即单位收入的支出方向问题。
二、 实验目的
通过本实验主要想达到三个目的:
1、利用山东省统计年鉴中有关农村居民收入支出的数据,结合多元统计方法,熟练掌握聚类分析和回归分析的原理及其基本步骤;
2、希望通过本次实验充分掌握和运用多元统计分析的统计方法,能够利用基本的统计软件如Eviews 、Spss 等软件处理分析数据,并对结果作出合理的解释。
3、了解近几年来山东省农村居民收入支出的基本状况,其中包括城乡差距问题和居民收入的消费分配问题,进而掌握山东省农村居民的基本生活状况,为我省经济的长远发展提供依据。
三、 实验方法背景和原理
Ⅰ、聚类分析的背景和原理 1.聚类分析的定义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”,通俗地说就是相似元素的集合。
2.聚类的方法分类
聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。本文中应用的是系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,这一过程一直继续直到所有对象归为一类为止。并类的过程可用一张谱系聚类图描述。
3.系统聚类法的基本步骤
(1)计算n 个样品两两间的距离,得样品间的距离矩阵(0)
D
。类与类之间的距离本文应用
的是类平均法。所谓类平均法就是:两类样品两两之间平方距离的平均作为类之间的距离,
即: 2
2
,1
p q
pq ij
i G j G p q
D d n n ∈∈=
∑
采用这种类间距离的聚 类方法,称为类平均法。
(2).初始(第一步:i=1)n 个样本各自构成一类,类的个数k=n ,第t 类{}
()t t G X =(t=1,2···,n )。此时类间的距离就是样品间的距离(即(1)
(0)D D =)
。 (3)对步骤i 得到的距离矩阵(1)
i D -,合并类间距离最小的两类为一新类。此时类的总个数
k 减少1类,即k=n-i+1.
(4)计算新类与其他类的距离,得新的距离矩阵(0)D 。若合并后类的总个数k 扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。 (5)画谱系聚类图;
(6)决定总类的个数及各类的成员。
Ⅱ、回归分析的背景和原理
1.回归分析的基本原理
回归分析是研究两个或多个变量之间关系的统计分析方法,在实际问题中,因变量 y 往往不是只与一个变量有关,而是和多个变量12,,,p x x x L 有关 ,设
01122p p y x x x ββββε=+++++L (3.1)
其中0,1,,p βββL 是p+1个未知参数,0,β称为回归常数,1,,p ββL 称为回归系数,y 为被解释变量(因变量),而12,,p x x x L 是p 个可以精确测量并可控制的一般变量,称为解释变量(自变量),ε 是随机误差.称
E(y)= 01122p p x x x ββββ++++L (3.2) 为理论回归方程。
对一个实际问题我们获的n 组观测数据12(,,;),1,2,,i i ip i x x x y i n =L L ,则线性回归模
型(3.2)可表示为10111212112012122222
01122p p p p p
n n p np p y x x x y x x x y x x x ββββεββββεββββε=+++++??
=+++++????=+++++?L L M
L (3.3)
写成矩阵形式为y X βε=+
(3.4)
其中0111111
2
211,,,1p n np p n n y x x y y X x x y βεβεβεβε????
??
?? ? ?
? ? ? ? ?==== ? ? ?
? ? ? ? ??? ?
??
????
M O
M M M M
最小二乘原理就是求一个参数向量β的估计μβ,使得回归的残差平方和函数SSE(β)取得最小值
()()()SSE Y X Y X βββ=--
由微分求极值法及矩阵微商有:
'()
1220SSE XY X X βββ?=+=?
得到正规方程组''
X X X Y β=
若'
X X 非退化,则得β的最小二乘解
'
1
=XY β-(X X ) 2
()
=
1
SSE n p βσβ--的估计
2. 模型的基本假定及检验
为了方便进行模型的参数估计,做如下基本假定:
①.解释变量是确定性变量,不是随机变量.并且要求 rank ( X ) = p + 1< n ,它表明设计矩阵是满秩的.
②.对随机误差项假定 2()0.1,2,,(,1,2,,),cov(,)0,i i j E i n i j n i j i j
εσεε==??
=?=?=??≠??
L L
这个假定称为高斯-马尔科夫条件。
③.正态分布的假定为2
12(0,),1,2,,,,,i n N i n
εσεεε?==????L L 相互独立
对于多元线性回归的矩阵形式这个条件可以表示为
2~n N εσ(0,I )
由此可以得到2
~(,),n n Y N X I I βσ其中是单位阵。)
为了验证是否能做到基本假定,所以需要做回归模型的显著性检验: ①F 检验
对多元回归方程的显著性检验就是要看自变量12,,p x x x L 从整体上对随机变量y 是否有明显的影响,故提出原假设
012:0P H βββ====L 构成F 统计量
//(1)
SSR P
F SSE n p =
--
并且称,1
SSR SSE
MSR MSE p n p ==--为均方回归和均方误差,他们都是误差项i ε的方差2σ的估计量,但两者的性质有差别。MSR 总是2σ得无偏有效估计量,而MSR 只当原假设成立时才会是2
σ的有效估计量,则将趋于无穷。假设成立时统计量服从自由度(p ,n-p-1)的F 分布。对事先给定的显著性水平σ确定临界值(,1)F F p n p αα=--或者计算F 对应的相伴概率值p 。若F F αα>或p<,就拒绝原假设,认为回归方程显著,自变量与因变量之
间存在显著的线性关系。 ②t 检验
在多元回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,因此需 要对每个系数进行显著性检验.故提出原假设
0:0(1,2,,)i H i p β==L 由2
'
1
1~(,()),p y N X X βσ-+记'
1
ij ()=X X -L (c ),(i,j=0,1,2,,p)则
22i (),var(),~(,),(0,1,2,,)i i ii i i ii E c N c i p βββσββσ===L
因此构造t 统计量为
μi t =
,其中σ==是标准回归差。
在原假设成立时,统计量i t 服从自由度为n-p-1的t 分布。对于给定的显著性水平α,查处双侧检验的临界值/2t α。当/2(1)t t n p α>--,或者t 值所对应的相伴概率值p α<,就拒绝原假设,认为该系数对应的自变量与因变量之间存在显著的线性关系。否则,就接受原假设,认为该自变量与因变量之间不存在显著性的线性关系。 ③拟合优度检验
拟合优度检验用与检验回归方程对样本观测值的拟合程度,定义样本决定系数时,就需要对2
R 加以修正,理由方差之比得调整后的2
R 为
2/(n-p-11/n-1SSE R SST =-
)
()
R越大越好。
在线性回归中2
④共线性诊断
如何诊断模型是否存在多重共线性,现在还没有一个统一的诊断标准,这里提供一些经验的诊断规则:1. 判定系数很高的同时,针对回归系数的t检验统计量的值又偏小.2. 自
R很高的同时,因变量与自变量之间的变量之间有高度的线性相关关系.3. 回归方程的2
偏相关系数却很低.4. 特征值、病态指数(条件数)、方差比、膨胀因子、容许度.这些统计量都可以用来诊断多重共线性.
⑤残差分析
的正态性假定;
进行残差分析有两个目的,一是证实关于模型中误差项随机变量
i
二是检验数据集中可能包含的异常值.残差分析是回归分析的最后一项工作,也是最基本的一项工作.
3.回归模型建立的步骤
①确定回归方程中的解释变量和被解释变量
由于回归分析用于分析一个事物如何随其他事物的变化而变化,因此回归分析的第一步应确定哪个事物是需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。在多元线性回归分析中,模型中应引入多少解释变量是需要重点研究的。如果引入的解释变量较少,回归方程将无法很好地解释说明被解释变量的变化。但是也并非引入解释变量越多越好,因为这些变量之间可能存在多重共线性。因此要采取一些策略对解释变量引入回归方程加以控制和筛选。在多元的回归分析中并不是所有的变量都对因变量具有显著的影响,因此就存在着挑选自变量的问题,挑选自变量有多种方法:前进法、后退法、逐步筛选法等。
这里主要采用后退法挑选自变量。后退法策略是解释变量不断剔除出回归方程的过程。首先,所有的解释变量全部引入回归方程,并对回归方程进行各种检验。然后,在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的解释变量,并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量,并重新建立回归方程和进行各种检验。如果新建回归方程中说有解释变量的回归系数检验都显著,则回归方程建立结束。否则,按照上述方法再一次剔除最不显著的解释变量,直到再也没有可剔除的解释变量为止
②确定回归模型
根据函数拟合方式,通过观察散点图确定应通过哪种教学模型来概括回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;反之,如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。
③建立回归模型
根据手机到样本数据以及上一步所确定的回归模型,在一定得统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。
④对回归方程进行各种检验
各种检验方法在前文中已经涉及,在此不在一一说明。
⑤利用方程进行回归预测
建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。
四、实验数据与实验结果
Ⅰ、数据的收集和处理
通过图书馆查阅资料以及网络查询资料等方式采集了山东省统计年鉴(2010)中有关各市农村居民指标(2009))的数据。分析过程中,一般利用了Eviews,spss等统计软件进行统计分析。农村人均总收入与总支出应用一元线性回归模型分析数据;城乡差异应用折线图来展现;各城市之间的地区差异运用SPSS软件进行聚类分析的处理;消费的不同类别应用
因子分析法处理数据并得出结论;收入和支出模型的建立利用了后退法筛选变量并做出回归分析,同时用散点图直观展现其线性关系。
Ⅱ、数据分析
(一)收入和支出的概况分析 (1)收入支出随时间的增长趋势
表21-1(b )人均总收入线性回归结果
由表知回归模型为:$y =2724.857+553.1632$x
,回归模型的斜率是553.1632,表明每增长一年,人均纯收入增加553.1632元。
从上表中R-squared 为0.942564,说明拟合优度比较高;Prob(F-statistic)为0.000003,说明方程显著地。2724.857所对应的Prob( t-Statistic )为0.0000,在显著性水平0.05的条件下是显著的,回归系数553.1632所对应的Prob( t-Statistic )为0.0000,说明是显著的。
山东省农民的收入水平是随着我国经济发展而快速增长的一个过程,以2000 年为基期,如图 所示,山东农民在 2000 年时候的人均纯收入水平是 3872.22元,
到 2009 年的时候,山东省农民的人均总收入水平已经达到了 8683.22元。十年间,山东省农民的收入一共增加了 4811.00 元,收入增长了约 2.24倍。总体来讲,山东省农民的收入一直是呈增加的趋势的。
表21-1(c )2000年至2009年山东省农村居民人均总支出及分析结果
表21-1(d )人均总支出回归结果
由表知回归模型为:$y =2046.519+478.6862$x
,回归模型的斜率是478.6862,表明每增长一年,人均纯支出增加478.6862元。
从上表中R-squared 为0.936820,说明拟合优度比较高;Prob(F-statistic)为0.000004,说明方程显著地。2046.519所对应的Prob( t-Statistic )为0.0001,在显著性水平0.05的条件下是显著的,回归系数478.6862所对应的Prob( t-Statistic )为0.0000,说明是显著的。
山东省农民的支出水平也是随着我国经济发展而快速增长的一个过程,以2000年为基期,如表所示,山东农民在 2000 年时候的人均总支出水平是3036.20元,到2009年的时候,山东省农民的人均总支出水平已经达到了7258.17元。十年间,山东省农民的收入一共
增加了4221.97元,支出增长了约 2.39 倍。总体来讲,山东省农民的收入一直是呈增加的趋势的。
(2)收入支出的城乡差异
年
份
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
总收入3872.2
2
4138.6
1
4305.7
7
4482.1
5
5037.5
2
5676.9
8
6188.5
4
7150.2
8
8136.6
6
8683.8
2
总支出3036.2
3326.7
9
3438.7
8
3521.4
2
3999.2
3
4561.2
7
5090.4
8
5863.2
1
6697.3
8
7258.1
7
年
份
2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 总
收入6521.6
7141.
16
8158.
13
9057.
58
10187
.12
10744
.79
13222
.85
15366
.26
17548
.97
19336
.91
总支出5022.
00
5252.
42
5596.
43
6069.
35
6673.
75
7457.
31
8468.
4
9666.
61
11006
.61
12012
.73 由表可知:城镇收入支出和农村收入的变化速度都是随着年份的增加由缓慢逐渐增快,
但是城镇明显的收入支出比农村的收入要快,而且随着时间的增加,城镇与农村的差距越来越大,但总体都是增长的较快。
(3)收入支出的地区差异
这里利用附录中的关于山东省17个地区的收入支出表,进行聚类分析和因子分析,从而得到不同地区之间收入支出的差异和不同的支出指标之间的差异。
(一)利用聚类分析处理17个地区之间的收入差异
利用spss软件处理得到的结果如下:
图4-2 山东省17个市的年纯收入的聚类分析结果
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
13 ─┐临沂
16 ─┤滨州
14 ─┼─┐德州
11 ─┘├─┐日照
4 ─┬─┘├─────────┐枣庄
8 ─┘││济宁
15 ─┬───┘├─────┐聊城
17 ─┘│├───────────┐菏泽
9 ───────────────┘││泰安
5 ───┬─────────────────┘│东营
12 ───┘├───────────────┐莱芜
6 ───┬─┐││烟台
7 ───┘├───────┐││潍坊
1 ─────┘├───────────────────┘│济南
2 ───────┬─────┘│青岛
10 ───────┘│威海
3 ─────────────────────────────────────────────────┘淄博
这里,利用SPSS层次聚类的Q型聚类对山东17个市区进行分析。其中,个体距离采用平方欧式距离,类间距离采用组间平均连锁距离,由于数据不存在数量级上的差异,因此无须进行标准化处理。生成的聚类分析树形图如图4-2所示,其他结果略去。
通过分析归纳,认为分为三类比较合适,烟台,潍坊,济南,青岛,威海地理位置也是比较近,都位于山东的东北部,之间的地理特点,文化风俗,经济主体相似,都是山东的重要城市,经济发展水平较高。大都是沿海城市,有利于经济的发展,所以收入普遍肩高。淄博年纯收入较高,可以这样解释,淄博是山东乃至全国重要的重化工业基地,工业发展以石油化工、医药、建材、冶金、纺织、机械、陶瓷等行业为骨干,门类齐全,特色鲜明,比较优势突出。,淄博依靠工业发展迅速,经济水平较高,年纯收入较高。
(二)利用聚类分析处理17个地区之间的支出差异
利用spss软件处理数据得到结果如下:
图 4-1 山东省 17个市区各种支出情况的聚类分析结果
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
8 ─┐济宁
13 ─┼─┐临沂
17 ─┘├─┐菏泽
4 ─┬─┘├───────┐枣庄
11 ─┘││日照
9 ─┬───┘├───────────┐泰安
12 ─┘││莱芜
14 ───┬─────────┘├───────────────────────┐德州
15 ───┘││聊城
16 ─────────────────────────┘│滨州
济南 1 ───┬─────┐│济南
5 ───┘├───────────┐│东营
6 ─────────┘├───────────┐│烟台
3 ───────┬───────┐│││淄博
10 ───────┘├─────┘├───────────────┘威海
7 ───────────────┘│潍坊
青岛 2 ─────────────────────────────────┘青岛
这里,利用SPSS层次聚类的Q型聚类对山东17个市区进行分析。其中,个体距离采用平方欧式距离,类间距离采用组间平均连锁距离,由于数据不存在数量级上的差异,因此无须进行标准化处理。生成的聚类分析树形图如图4-1所示,其他结果略去。
通过分析归纳,分为三类比较合适:济南,东营,烟台,淄博,威海,潍坊为一类,这些地区大致位于山东省的东北部,它们之间联系大,所以经济,文化等相互影响,支出水平差不多。济宁,临沂,菏泽,枣庄,日照,泰安,莱芜,德州,聊城为一类,也可以很好解释,这些地区位于山东省的西南方,比较东部沿海的几个城市有着一定的差距,所以与第一类可以区分开成为另一类。青岛自成一类,青岛市位于沿海,有着较强的地理优势,对经济的发展相当有利,生活水平支出水平较高,在全省比较突出,所以归为一类。
二、收入的消费分配回归分析
根据《山东省统计年鉴》(2009年)提供的各地区农村居民家庭平均每人按来源分的纯收入数据,选取总收入和四项收入来源指标作为分配来源.我们把Y作为全年纯收入,Y1为工资性纯收入,Y2为家庭经营性纯收入,Y3为财产性纯收入,Y4为转移性收入。再选取8 个反映消费支出的指标为消费分配的去向:x1—食品支出,x2 —衣着支出,x3—居住支出,x4 —家庭设备及服务支出, x5—医疗保健支出,x6 —交通和通讯支出,x7—文教和娱乐用品及服务支出,x8 —其他商品及服务支出.下面我们将利用后退法分别进行回归分析。
⒈全年纯收入Y与各项支出指标之间的回归分析
这里利用spss软件处理数据,观测每一步检验的变化情况,并进行残差分析和异常点探测,分析结果如表所示:
表22-1(a)多元线性回归分析结果(向后筛选策略)
下表省略了前五步,只留下第六步的最终模型
表22-1(c)多元线性回归分析结果
Coefficients a
Model
Unstandardized Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
6 (Constant) 4030.718 460.703 8.749 .000
衣着消费10.573 1.361 .940 7.766 .000 医疗保健消费 4.632 1.322 .333 3.504 .004 其他商品和服务消费-18.466 5.972 -.352 -3.092 .009 a. Dependent Variable: 全年纯收入
由上表可知,利用后退法共经过六部完成回归方程的建立,最终模型为第六个模型。模
型依次剔除了居住消费、家庭设备用品消费、食品消费和文化教育娱乐消费,保留了衣着消
费、医疗保健消费、其他商品和服务消费。由表2-1(b)(c)可知,回归方程显著性检验
和最终方程的回归系数显著性检验的概率p值远小于显著水平a(a为0.05),因此三个解
释变量和被解释变量间的线性关系显著,其留在模型中是合理的。所以可以得到的最终回归
方程为
Y=4030.718+10.573*衣着消费+4.632*医疗保健消费-18.466*其他商品和服务消费,
即为Y=4030.718+10.573*x2+4.632*x5-18.466*x8。该方程意味着全年纯收入主要与衣着
消费,医疗保健消费呈正相关,与其他商品和服务消费呈负相关,可以通过散点图看出,如
图22-1(d)。
而且从标准化后的方程(Y=0.940*x2+0.333*x5-0.352*x8)可以看出单位收入主要流向
了衣着消费(0.94)和医疗保健(0.333),说明农村居民的基本消费趋向还主要停留在自身
基本状况的需要上;作为其他商品和服务消费(-0.352),系数为负,说明这项消费远远低
于农村居民的基本消费指标。
图22-1(d)全年纯收入分别和衣着消费、医疗保健消费、其他商品和服务消费的散点图
2.工资性纯收入Y1、家庭经营性纯收入Y2、财产性纯收入Y3、转移性纯收入Y4与支出各项指标之间的线性回归
这里同样利用后退法进行回归分析,利用SPSS软件可以分别得到相应的回归分析结果,并通过后退法回归后,得到其散点图,如下所示:
表22-2(a)工资性纯收入与支出指标的回归分析结果
Coefficients a
Model
Unstandardized
Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
7 (Constant) 625.478 365.756 1.710 .109
衣着消费 4.525 .983 .638 4.605 .000
医疗保健消费 3.608 1.214 .412 2.971 .010
a. Dependent Variable: 工资性纯收入
(a1) (a2)
劳动法中的‘工资’是指用人单位依据国家有关规定或劳动合同的约定,以货币形式直接支付给本单位劳动者的劳动报酬,一般包括计时工资、计件工资、资金、津贴和补贴、延长工作时间的工资报酬以及特殊情况下支付的工资等。‘工资’是劳动者劳动收入的主要组成部分。
通过观察标准化后的各项数据可知P值小于0.05,所以工资性纯收入与衣着消费,医疗保健消费线性显著;由散点图乐意看出它们之间存在正相关。
写出标准化后的回归方程Y1(工资性纯收入)=0.638*x1(衣着)+0.412*x5(医疗保健),一单位的衣着消费需要0.638个单位的工资性纯收入,一单位的医疗保健消费需要0.412个单位的工资性纯收入;工资性收入是农民最主要最基本的收入来源,衣着也是其重要消费方式,当工资提高时,人们会提高对衣着的需求和医疗保健的支出。
表22-2(b)家庭经营性纯收入与支出指标的回归分析结果
Coefficients a
Model Unstandardized Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
8 (Constant) 2123.285 525.764 4.038 .001
交通和通讯消费 2.998 1.012 .608 2.962 .010 a. Dependent Variable: 家庭经营纯收入
(b)
经营性收入(Operational Income)是指纳税人通过经常性的生产经营活动而取得的收益,即企业在销售货物、提供劳务以及让渡资产使用权等日常活动中所产生的收入,通常表现为现金流入、其他资产的增加或负债的减少。
由表可知P值小于0.05,认为家庭经营性收入与交通和通讯消费线性关系显著;由图可以很好看出他们之间成正相关。
标准化后的回归方程Y2(经营性收入)=0.608*x6(交通通讯),增加一单位的交通通讯消费需要0.608个单位的经营性收入;增加一单位的经营性收入用于0.608个单位的交通通讯消费;经营性收入不是农民普遍的收入方式,因为需要一定的成本,并且收入高。他们的生活条件也相应较好,从而会增加享受消费,如度假旅游,购买手机等通讯设备。
表22-2(c)财产性纯收入与支出指标的回归分析结果
Coefficients a
Model Unstandardized Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
8 (Constant) -15.136 57.584 -.263 .796
医疗保健消费.913 .204 .757 4.481 .000 a. Dependent Variable: 财产纯收入
(c)
财产性收入,指通过资本、技术和管理等要素与社会生产和生活活动所产生的收入。即家庭拥有的动产(如银行存款、有价证券)和不动产(如房屋、车辆、收藏品等)所获得的收入。包括出让财产使用权所获得的利息、租金、专利收入;财产营运所获得的红利收入、财产增值收益等。
由表可知检验的P值为0.000认为财产性收入与医疗保健消费线性相关关系显著;同样图也能看出之间呈正相关。
由表可以写出其标准化后的回归方程为Y3(财产性纯收入)=0.757*x5(医疗保健消费),可以这样解释,一单位的财产性收入的百分之75.7用于医疗保健消费,说明财产性收入的大部分用于医疗保健支出;同样支出一单位的医疗保健消费需要从财产性纯收入中支付0.757个单位。
通过财产性收入的定义范围可以理解两者之间的关系,对于家庭比较富裕的农民来说,他们会有剩余的钱存入银行获得利息收入和出租房屋车辆等的收入。由于医疗保健不属于必须消费,所以在生活比较宽裕的情况下此种消费会随之提高,这一回归方程很符合现实情况。
Coefficients a
Model Unstandardized Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
8 (Constant) 145.814 46.221 3.155 .007
医疗保健消费.369 .164 .503 2.256 .039 a. Dependent Variable: 转移性纯收入
(d)
转移性收入就是指国家、单位、社会团体对居民家庭的各种转移支付和居民家庭间的收入转移。包括政府对个人收入转移的离退休金、失业救济金、赔偿等;单位对个人收入转移的辞退金、保险索赔、住房公积金、家庭间的赠送和赡养等。
由表可知检验的P值小于0.05,认为转移性收入与医疗保健之间线性相关,通过图也可以看出之间存在正相关。
标准化后的回归方程为Y4(转移性收入) =0.503*x5(医疗保健),这个很好解释了现实情况,很符合现实状况,转移性收入的获得者大都是退休老人,失业或者有疾病生理缺陷的群体,他们对身体健康相对重视,从而对医疗保健消费比较重视。
综上,通过山东省农村居民收入的消费分配的回归分析,得出:山东省农村居民的收入主要流向了衣着消费和医疗保健消费,这说明农村居民的收入还主要用于生活基本消费,还
无法像城镇居民那样享受更多的消费服务。从一侧面反映了山东省的城乡差距依然十分严峻,需要更多地关注农村居民的基本生活,提高农村居民的生活水平,刺激农村居民的消费能力,从而达到全省经济水平的全面提升。
五、心得体会
经过两周的努力,我们终于完成了这篇实验报告的写作。作为统计专业的学生,这是我们第一次实质性地做有关自己专业的报告实践。过程虽然不是十分顺利,但却让我们受益匪浅。写作过程可谓是一波三折:在选择模型时选择哪个模型比较合适,在查找数据时数据的选择、以及整理都遇到了不小的问题。上交初稿之后,老师给我们提出了很多问题:论文结构问题;论文内容的组织问题以及模型建立的合理性问题等等。当时说实话,感觉很失败、很沮丧。最后我们大家还是相互鼓励,按照老师的要求一步一步地将自己的错误进行了更正,将实验报告完善起来。
综合这次实践过程,我们学到了很多:首先,我们熟悉掌握了论文中几种模型的原理和处理方法,将自己的所学运用到了实践过程中;其次,通过这次实验设计,我们对EXCEL、SPSS软件以及Eviews等统计软件的操作和应用更加熟练,为以后的学习建立了良好的基础;再次,我们清楚的明白了想要做好一件事,仅仅一个人是不够的,这需要队友的配合。在一个团队之中,只有更好的配合好,才会做出更好成绩。
参考文献
[1]沈黎华.影响居民家庭现金收入与支出的调研与研究[J].商情教育经济研究, 2008(06):59-60.
[2]刘东.我国农村居民消费结构研究——基于扩展线性支出系统模型的计量分析[J].黑龙江科技信息,2010(2):112-113.
[3]于洪彦, 刘金星, 许友传.吉林省农村居民收入结构对支出行为的影响——基于吉林省2003~2006年抽样调查的面板分析[J].税务与经济, 2009(1): 1-6.
附录-1 2009年山东省农村居民人均总支出状况
(来源于2010年山东省统计年鉴)
附录-2 2009年山东省农村居民人均总收入状况
(来源于2010年山东省统计年鉴)