文档库 最新最全的文档下载
当前位置:文档库 › 基于主成分回归模型在江苏省农民增收研究中的应用_辜子寅

基于主成分回归模型在江苏省农民增收研究中的应用_辜子寅

基于主成分回归模型在江苏省农民增收研究中的应用_辜子寅
基于主成分回归模型在江苏省农民增收研究中的应用_辜子寅

1引言

近年来,江苏省国民经济持续快速发展,农村居

民年人均纯收入得到较快提高,人民生活得到普遍改善。正确认识现阶段江苏省农村居民收入变动特征,探讨影响农民增收的主要因素,深入分析其背后的政策性、体制性动因,对于进一步推动江苏省农村经济全面发展,持续提高农民收入和消费水平,实现共同富裕具有重要意义。

2指标选择及研究方法的确定

2.1指标选取

参考相关文献资料,根据经济理论及实践研究,

分析影响农民收入及其增长的主要因素,本文建立模型所选用的因变量Y 是江苏省农村居民家庭人均纯收入,自变量分别是(1

)农村工业化程度X 1:用江苏省乡镇企业就业人数除以农村劳动力表示;(2)城镇化水平X 2:用江苏省城镇人口占总人口的比重表示;(3)城乡居民收入差距X 3:

用江苏省城镇居民家庭人均可支配收入除以农村居民家庭人均纯收入表示;(4)人均农业财政支出X 4:用江苏省农业财政支出除以农村人口表示;(5)农业开放度X 5:用江苏省农业出口额占农业GDP 的比重表示;(6)人均农村居民家庭固定资产投资X 6:用江苏省农村居民家庭生产性固定资产除以农村居民家庭户数表示;(7)人均每一产业GDP X 7:用江苏省每一产业GDP 除以总人口表示;

(8)人均每二产业GDP X 8:用江苏省每二产业GDP 除以总人口表示;(9)人均每三产业GDP X 9:用江苏省每三产业GDP 除以总人口表示。

本文用于实证分析的数据是1990-2007年江苏省18年时间序列资料,见表1,原始数据来源于历年《江苏省统计年鉴》。

第4期

(总第115期

)2009年4月

No.4

(Series No.115)Apr 2009

统计教育Statistical Thinktank

基于主成分回归模型在江苏省农民

增收研究中的应用

辜子寅

摘要:

增加农民收入是社会主义新农村建设的必然要求,本文以江苏省为例,收集1990-2007年数据,运用主成分回归分析方法建立统计模型,分析影响农民收入的主要因素,得出它们对农民收入增长的贡献率,并根据定量分析结果提出符合实际情况的政策建议。

关键词:

农民增收;相关分析;共线性诊断;主成分回归The Application of the Principle Component Regression Model in Increasing

Farmers'Income of Jiangsu Province

Gu Ziyin

Abstract:Increasing the farmers'income is the requirement of the construction of socialist countryside.Taking Jiangsu Province as an example,the paper collects the 1990-2007data to establish the statistical model by the principal component regression method.and analyzes the major factors influencing the increase of the farmers'income and gets the rate of contribution.At last,according to the results of quantitative analysis,it proposes the policy recommendation fit for the actual situation.

Key Words:increase of farmers'income;correlation analysis;collinearity diagnostics;principal component regression

作者简介:辜子寅,1980年生,湖北武汉人,江苏省常熟理工学院数学系讲师,研究方向:经济统计。

表1

1990-2007年江苏省各指标数据

年份

Y (万元)X 1X 2X 3X 4(万元/人)X 5X 6(万元/人)X 7(万元/人)X 8(万元/人)X 9(万元/人)19900.0880.6320.216 1.6560.0190.0510.0840.0860.4400.09619910.0920.6260.232 1.7630.0240.0590.1110.0850.4990.12019920.1060.6130.238 2.0160.0240.0590.1280.0970.7360.15919930.1270.5890.240 2.1890.0310.0530.1480.126 1.1130.23119940.1830.5730.247 2.0630.0380.0490.1660.194 1.5100.31419950.2460.5550.273 1.8860.0490.0570.1850.244 1.8470.41419960.3030.5500.273 1.7120.0600.0590.2830.275 2.0760.50519970.3270.5490.299 1.7630.0730.0670.3270.293 2.2860.54219980.3380.6130.315 1.7820.0860.0740.3160.296 2.3620.60419990.3500.6240.349 1.8710.1030.0870.3030.292 2.4560.65920000.3600.6440.415 1.8920.1380.1220.4290.289 2.6910.71020010.3780.6550.426 1.9490.1730.1330.4810.296 2.9580.80320020.4000.6600.447 2.0470.2110.1970.5040.265 3.2360.90920030.4240.6400.468 2.1850.2660.2800.5620.286 3.912 1.03220040.4750.6180.482 2.2050.3410.3620.5980.325 4.830 1.16420050.5280.5760.505 2.3350.4520.4770.7130.345 5.700 1.43220060.5810.5200.519 2.4230.5540.5930.7730.359 6.879 1.7152007

0.656

0.476

0.532

2.496

0.716

0.665

0.823

0.402

8.418

2.076

2.2研究方法的确定

在实际问题的研究中,为了全面分析问题,往往涉及众多有关的变量,虽然各自变量对因变量都是有意义的,但是某些自变量彼此相关,变量太多不但会增加计算的复杂性,而且也给合理分析问题和解决问题带来困难。因此,

需要对回归方程中的变量进行共线性诊断,并且确定它们对参数估计的影响,利用相关性对这些变量加以

“改造”,用为数较少的新变量来反映原变量所提供的大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析的基本方法是通过构造原变量的线性组合来产生一系列互不相关的新变量,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。因此,

利用主成分分析可以很好的解决回归分析中多重共线性问题。本文采用主成分回归分析方法建立模型,主成分回归的原理是用主成分分析提取的主成分与因变量回归建模。由于主成分间具有不相关性,并且能较好的反映原来众多相关性指标的综合信息,因此,用主成分作为新的自变量进行回归分析使得回归方程及参数估计更加可靠。主成分回归分析方法具体步骤为:

(1)对P 个自变量(经标准化处理)构成的数据表做主成分分析,得到P 个主成分F 1,F 2,…,F p 。根据选定的累计贡献率,选取前m 个主成分。

(2)采用普通最小二乘法,做前m 个主成分F 1,F 2,…,F p 对因变量Y 的多元线性回归,得到回归模型Y

赞=β

赞0+β赞1F 1+β赞2F 2+…+β赞m F m 。(3)由于每个主成分F 1,F 2,…,F m 均是自变量X 1,X 2,…X p 的线性组合,因此,经转化可得最终线性回归模型Y

赞=α赞0+α赞1X 1+α赞2X 2+…α赞p X p 。3实证研究过程

3.1相关分析

对因变量与所有自变量做相关分析,相关系数矩

阵见表2。可见因变量农村居民家庭人均纯收入除了跟自变量农村工业化程度相关关系不强外(相关系数没有超过0.500

),跟其他自变量的相关性都很强,所以,可以建立因变量与众多自变量之间的线性回归模型,模型具有合理性。3.2共线性诊断

由于自变量的个数太多,而且由相关系数矩阵表也可以看出自变量之间也存在明显的相关性,这样在建立模型时就可能会出现严重的共线性。为验证是否存在多重共线性问题,首先建立因变量Y 与自变量X 1,X 2,…,X 9的多元线性回归模型。从回归结果看,调整后的判定系数R 2=0.999,说明模型总体拟合效果非常好。统计量F =1438.292,显示回归结果有统计学意义,但参数估计结果显示大多数回归系数并无统计学意义。从共线性诊断结果看,

计算各自变量的方差扩大因子,VIF 1=17.240,VIF 2=150.374,VIF 3=11.939,VIF 4=

表2

相关系数矩阵

941.265,VIF 5=154.677,VIF 6=122.690,VIF 7=165.647,VIF 8=2234.445,VIF 9=698.908,各自变量的方差扩大因子VIF 均大于10,可见自变量之间存在较强的多重共线性,并且这种严重的多重共线性会影响最小二乘估计。本文采用主成分回归分析方法消除多重共线性重新建立回归模型。3.3主成分回归建模

运用统计软件SAS8.2对自变量X 1,X 2,…,X 9进行主成分分析,统计分析结果见表3。从中可知,第一主成分的特征根为7.340,解释了总变异的81.550%,第二主成分的特征根为0.939,解释了总变异的10.434%。前两个特征根的累计贡献率达到91.984%,说明前两个主成分已经反映原来9个指标91.984%的信息,因此确定选择前2个主成分建立模型。

提取的前2个主成分与表达式分别为:F 1=-0.180X ′1+0.343X ′2+0.308X ′3+0.363X ′4+0.357X ′5+0.360X ′6+0.310X ′7+0.368X ′8+0.368X ′9

F 2=0.878X ′1+0.375X ′2-0.125X ′3-0.054X ′4-0.081X ′

5

+0.202X ′6+0.140X ′7-0.033X ′8+0.035X ′9

其中,X ′i (i=1,2,…9)为Xi 的标准指标变量,设μ

为X i 的均值,σ为X i 的标准差,则X ′i =X i -μσ。可见,第

一主成分主要包含了除变量X 1以外所有原变量的信息,第二主成分则主要包含变量X 1的信息。

以Y 为因变量,F 1、F 2为自变量进行多元线性回归

分析,建立回归模型为:

Y

赞=0.331+0.059F 1+0.026F 2

从回归结果看,调整后的判定系数R 2=0.928,说明模型总体拟合效果非常好,且能通过F 检验(F=110.899)与t 检验(t 1=14.712,t 2=2.313),回归模型具有统计学意义。因为主成分F 1、F 2为原始自变量X 1,X 2,…,X 9的线性组合,经过转化,用X 1,X 2,…,X 9替代F 1、F 2,得到因变量Y 关于原始自变量X 1,X 2,…,X 9的线性回归方程为:

Y

赞=-0.225+0.243X 1+0.265X 2+0.060X 3+0.098X 4+0.095X 5+0.112X 6+0.228X 7+0.009X 8+0.040X 9

4实证结果解释及政策建议

从最终回归方程可以看出,各自变量对江苏省农

民收入增长均有正向促进作用。其中,城镇化水平、农村工业化程度、

人均每一产业GDP 对农民收入增长影响程度最大,城镇化水平提高1%会导致江苏省农民纯收入平均增长0.265%,农村工业化程度提高1%会导致江苏省农民纯收入平均增长0.243%,

人均每一产业GDP 提高1%会导致江苏省农民纯收入平均增长0.228%,这三个方面对于农民增收的效果是非常强的。其次,影响较大的自变量是人均农村居民家庭固定资产投资、

人均农业财政支出、农业开放度,上述指标每提高1%会导致江苏省农民纯收入平均增长0.112%、0.098%、0.095%。而城乡居民收入差距、人均每三产业GDP 、人均每二产业GDP 对江苏省农民收入增长贡献较小,其增长弹性分别为0.060%、0.040%和0.009%。总体来说分析是符合实际情况的,但回归结果显示出的城乡居民收入差距对江苏农民收入增长起到促进作用,虽然其效果是有限的,但促进作用这一点是与理论不符合。究其原因,随着江苏省城乡收入差距扩大使得农村更多居民涌进城市务工,使得农民的工资性收入大幅度提高。20世纪90年代以来,工资性收入对

Y X1X2X3X4

X5X6X7X8X9Y 1.000-0.3850.9450.6730.9030.8660.9730.9510.9570.968X1-0.385 1.000-0.150-0.427-0.503-0.505-0.323-0.388-0.520-0.465X20.945-0.150 1.0000.7290.8880.8650.9790.8360.9130.935X30.673-0.4270.729 1.0000.8380.8560.7580.4960.8090.794X40.903-0.5030.8880.838 1.0000.9920.9410.7460.9850.980X50.866-0.5050.8650.8560.992 1.0000.9200.6900.9660.958X60.973-0.3230.9790.7580.9410.920 1.0000.8660.9650.978X70.951-0.3880.8360.4960.7460.6900.866 1.0000.8460.857X80.957-0.5200.9130.8090.9850.9660.9650.846 1.0000.997X9

0.968-0.4650.9350.794

0.980

0.958

0.978

0.857

0.997

1.000

表3

主成分分析结果

主成分

特征根贡献率(%)

累计贡献率(%)

17.34081.55081.55020.93910.43491.98430.547 6.08298.06640.146 1.61999.68550.0170.18499.87060.0060.06999.93870.0040.04799.98580.0010.01199.9969

0.000

0.004

100.000

江苏省农民纯收入的增长贡献越来越大,据国家统计局公布,江苏省农民增收额中49.4%来自于工资性收入,已经高于家庭经营纯收入的贡献,因此,在江苏省城乡收入差距扩大反而促进农民收入的增加就不难理解了。

根据实证分析结果,江苏省要实现农民增收目标,必须优化结构、提高综合生产能力、增强农业和农村经济内部活力、转变农民收入增长方式,加快城镇化进程、加大农业投入及农业财政支出、扩大农业开放度,进一步推动农民在非农方面增加收入。重点工作首先要加大对农业产业化的扶持力度。各级财政要增加农业产业化专项资金,对从事农产品生产、初加工的所得税,要按照相关规定予以免征、减征,加大对重点龙头企业信贷、用地、用水、用电等优惠扶持力度,引导龙头企业与农民结成更加紧密的利益共同体。其次,要提高农业对外开放水平。深入实施农产品出口振兴计划,推进农产品出口基地建设。加大农产品境外促销力度,巩固传统市场,开拓新兴市场。扶持农产品出口企业按照出口目标市场的质量标准进行产品认证认定,培育自主知识产权品牌,支持发展农产品出口信贷和信用保险。第三,增强城镇对农村的辐射带动能力。充分发挥大中城市和县城对乡村的带动作用,加快城市基础设施向农村延伸,城市公共服务向农村覆盖。积极探索具有江苏特点的城镇化道路,加强小城镇规划建设,明确发展重点,彰显个性特色。坚持把小城镇建设与壮大县域经济、发展乡镇企业、推进农业产业化结合起来,逐步形成产业发展、人口聚集、市场扩大的良性互动机制,增强小城镇吸纳人口、带动农村发展的能力。

参考文献

[1]包宗顺,金高峰:《江苏农民收入差距新特征及增收对策》[J],

《农业现代化研究》,2007年第3期,285-288页。

[2]何晓群、刘文卿:《应用回归分析(第二版)》[M],北京:中国人民

大学出版社,2007年。

[3]任若恩、王惠文:《多元统计数据分析》[M],北京:国防工业出版

社,1997年。

[4]宋元梁、肖卫东:《中国城镇化发展与农民收入增长关系的动态

计量经济分析》[J],《数量经济技术经济研究》,2005年第9期,30-39页。

[5]王惠文等:《主成分回归的建模策略研究》[J],《北京航空航天大

学学报》,2008年第6期,661-664页。

(责任编辑:扈媛媛)

5结论

对于常见的影响点出现在不同位置和以不同形式出现的情况,局部影响分析方法都表现出很好的稳健性,虽然在精度降低的情况下Smearin现象出现了反复,但这并未影响强影响点的识别,这种显著的出现,可能是因为参数估计精度下降所引起的。局部影响分析的稳健性,为金融时间序列中强影响点的识别带来了极大的便利,通过模拟分析,可知在参数估计精度很低的情况下依然能够很好的识别出强影响点。

参考文献

[1]Ma Guo-dong,Wu Xi-zhi.Local Influence of Stochastic

Volatility Model.[J]Mathematics in Practice and Theory2008, Vol.38(2):78-86.

[2]Ruiz E.Quasi-maximum likelihood estimation of stochastic

volatility models.[J]Journal of Econometrics.1994,Vol.63(1): 289-306.

[3]Andersen T.G.,Sprensen B.E.GMM estimation of a stochastic

volatility model:a Monte Carlo study.[J]Journal of Business& Economic Statistics,1996,Vol.14(3):153-173.

[4]Kim S.,Shephard N.,Chib S.Stochastic volatility:likelihood

inference and comparison with ARCH models.[J]Review of Economic Studies,1998,Vol.65(3):361-393.[5]Green P.J.Reversible jump Markov chain Monte Carlo

computation and Bayesian model determination.[J]Biometrika, 1995,Vol.82(4):711-732.

[6]Watanabe and Toshiaki A non-linear filtering approach to

stochastic volatility models with an application to daily stock return.[J]Journal of Applied Econometrics,2002,Vol.17(2):67-689.

[7]Danielsson J.,Richard J.F.Accelerated Gaussian importance

sample with application to dynamic latent variable models.[J] Journal of Applied Econometrics,1993,Vol.8(S):153-173.

[8]Danielsson J.Stochastic volatility in asset prices:estimation with

simulated maximum likelihood.[J]Journal of Econometrics,1994, Vol.61(1-2):155-173.

[9]ZHANG SHI-YING,FAN ZHI Cointegration Theory and Volatility

Models:Financial Time Series Analysis and Applications.[M] Beijing:Tsinghua University Press.2004,308-322.In Chinese. [10]Cook D.Assessment of local influence.[J]Journal of the Royal

Statistical society.Series B(Methodological),1986,Vol.48(2):133-169.

[11]Wu X.Z.and Luo Z.Second-order approach to local influence.

[J]Journal of the Royal Statistical Society,Series B.1993,Vol.

55(4):929-936.

[12]Shi L.Local influence in principal components analysis.[J]1997,

Biometrika Vol.84(1):175-186.

[13]Poon W.Y.,Poon W.S.Conformal normal curvature and assessment

of local influence.[J]Journal of the Royal Statistical society, Series B,1999,Vol.61(1):51-61.

(责任编辑:扈媛媛)

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!上接第20页

实验八:主成分回归 实验题目:对例5、5的Hald水泥问题用主成分方法建立模型,并与其她方法的结果进行比较。例5、5如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别就是x1铝酸三钙(3CaO、Al2O3),x2硅酸三钙(3CaO、SiO2),x3铁铝酸四钙(4CaO、Al2O3、Fe2O3),x4硅酸三钙(2CaO、SiO2)。现观测到13组数据,如表5-3所示。 实验目的: SPSS输出结果及答案: 一、主成分法: 多重共线性诊断:

N 13 13 13 13 13 **、在、01 水平(双侧)上显著相关。 由表可知,x1,x2,x4的相关性都比较大,较接近,所以存在多重共线性 主成分回归: 解释的总方差 成份 初始特征值提取平方与载入 合计方差的 % 累积 % 合计方差的 % 累积 % 1 2、236 55、893 55、893 2、236 55、893 55、893 2 1、576 39、402 95、294 1、576 39、402 95、294 3 、187 4、665 99、959 、187 4、665 99、959 4 、002 、041 100、000 、002 、041 100、000 提取方法:主成份分析。 输出结果显示有四个特征根,最大的就是λ1=2、236,最小的就是λ4=0、002。 方差百分比显示第一个主成分Factor1的方差百分比近56%的信息量;前两个主成 分累计包含近95、3%的信息量。因此取两个主成分就已经足够。 由于前两个主成分的方差累计已经达到95、3%,故只保留前两个主成分。 成份矩阵a 成份 1 2 3 4 x1 、712 -、639 、292 、010 x2 、843 、520 -、136 、026 x3 -、589 、759 、275 、011 x4 -、819 -、566 -、084 、027 提取方法:主成分 a.已提取了 4 个成份。 由解释的总方差表中累计贡献性知,f1与f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。 得到因子得分的数值,并对其进行处理:sqrt(2、236)* FAD1_1, sqrt(1、576)* FAD2_1可以得出主成分表(f1 f2)。

主成分分析法 [ 编辑 ] 什么是主成分分析法 主成分分析也称 主分量分析 ,旨在利用降维的思想,把多 指标 转化为少数几个综合指标。 在 统计学 中,主成分分析( principal components analysis,PCA )是一种简化数据集的技 术。它是一个线性变换。 这个变换把数据变换到一个新的坐标系统中, 使得任何数据投影的第一 大方差 在第一个坐标 (称为第一主成分 )上,第二大方差在第二个坐标 (第二主成分 )上,依次类推。 主成分分析经常用减少数据集的维数, 同时保持数据集的对 方差 贡献最大的特征。 这是通过保留 低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是, 这也不是一定的,要视具体应用而定。 [ 编辑 ] , PCA ) 又称: 主分量分析,主成分回归分析法 主成分分析( principal components analysis

主成分分析的基本思想 在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

门限分位数自回归模型及在股市收益自相关分析中的应用 摘要:门限分位数自然回归模型是一种非限行分位数回归模型,其可以应用讨论系统之中的门限效应。并且在该模型之中,自然回归阶数以及门限值的确定等都将会为模型的分析效果带来直接的影响。本文主要对门限分位数自然回归模型以及其在股市收益中的相关应用做出分析,希望能够给予同行业的工作人员提供一定参考价值。 关键词:门限分位数;回归模型;股市收益;分析 股市收益的自相关性是金融市场研究中的一个重要问题,研究人员针对于理性预定理论提出了有效的市场假说,奠定了传统的金融学基础。有效的市场假说理论认为在一个有效的市场之中,股市的价格或者收益直接地反映了所有可能会获得的信息,过去的收益以及未来的收益并不相关,股市的收益则是不可以预测的,反而言之如果股市的收益在时间上是自相关的,那么历史收益是可以影响当前的收益的,这也直接表明了有效市场假说是难以成立的,可以采取序列自相关分析的方法,对其有效市场假说做出相应验证。 一、门限分位数自然回归模型的分析 1. 模型的表示分析 主要是记{ yt }作为其1 维响应的变量,然而x =(1,yt -1,yy

-2,…,yt -p)T 主要是为p+1为向量组成的解释变量,然而{ yt }则是为1维门限的白能量,其自然回归模型之中的门限变量通常情况下是需要相应变量{ yt }的滞后项,而γ则表示为门限,其模型如下所示: 和均值自激励门限自然回归的模型进行对比,门限分位数自回归模型存在着下述的优点:一是信息刻画更加全面,回归系数估计在不同的分位点可能存在着不同的表型,同时不同阶段的变量之间关系更加细致。二是具有比较强的稳健性,和均值自激励门限自回归模型要求误差项服从特定分布的不同,其允许误差项服从一般的非对称的分布。 2. 模型的定阶 在门限分位数自然回归之中,最优滞后阶数p的选择是十分重要的,可以通过AIC的准确去进行实现,然而定义AIC的准则则是如下所示: 可以看出,AIC主要由两个部分所组成,一是可以反映出模型的拟合程度,主要是为前半段进行表示。二是反映出模型的复杂城市,则是经过后半段进行表示。 3. 门限效应的诊断检验分析 针对于门限效应而言,其诊断检验主要是包括了以下方面的内容:第一,门限效应存在性检验,主要检验两个阶段的门限效应

第七章主成分分析 (一)教学目的 通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。 (二)基本要求 了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。 (三)教学要点 1、主成分分析基本思想,数学模型,几何解释 2、主成分分析的计算步骤及应用 (四)教学时数 3课时 (五)教学内容 1、主成分分析的原理及模型 2、主成分的导出及主成分分析步骤 在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。 第一节主成分分析的原理及模型 一、主成分分析的基本思想与数学模型 (一)主成分分析的基本思想 主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21=F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。 (二)主成分分析的数学模型 对于一个样本资料,观测p 个变量p x x x ,,21,n 个样品的数据资料阵为: ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21= 其中:p j x x x x nj j j j ,2,1,21=?????? ? ??= 主成分分析就是将p 个观测变量综合成为p 个新的变量(综合变量),即 ???????+++=+++=+++=p pp p p p p p p p x a x a x a F x a x a x a F x a x a x a F 22112222121212121111 简写为: p jp j j j x x x F ααα+++= 2211 p j ,,2,1 = 要求模型满足以下条件:

基于主成分分析及二次回归分析的城市生活垃圾热值建模 1. 引言 随着人们经济水平的提高、环保意识的增强、环保法规日益严格和国家垃圾处理产业化政策的实施,垃圾填埋处理的弊端将引起重视、运营费用将大大增加,而垃圾焚烧处理的优势将逐渐呈现出来并最终获得人们的认可。以城市生活垃圾为燃料而建立垃圾电站进行电力生产,很好的实现了生活垃圾的无害化、资源化利用。 而我国的城市生活垃圾成分复杂,用作为燃料时稳定性较差,因此分析垃圾的成分、计算垃圾的热值模型是垃圾焚烧发电的工艺设计和运营管理中必不可少的基础性工作。 因为我国不同地区人们生活习惯及生活条件差异较大,导致城市生活垃圾成分也存在很大的地域性差异,因此,本文以深圳市为例,对深圳市宝安区的生活垃圾采样数据进行分析,并建立其计算模型。 2. 回归分析及主成分分析理论 2.1. 回归分析 回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,通过回归方程的形式描述和反应这种关系。 2.2. 一般回归模型 如果变量与随机p 变量y 之间存在着相关关系,通常就意味着当x , x ....x 1 2 p x , x ....x取定值后y 便有相应的概率分布与之对应,其概率模型为: = ( , ... ) +e (2-1)1 2 p y f x x x其中p为称自变量,y 称为因变量,为自变量的确定性关系,ε表示x , x ....x 1 2 ( , .... ) 1 2 p f x x x随机误差。 2.3. 线性回归模型 回归模型分为线性回归模型和非线性回归模型,线性回归又有一元线性回归和多元线性回归之分。当变量之间的关系是线性关系的模型都称为线性回归模 型,否则就称之为非线性回归模型。当概率模型(2-1)中的回归函数为线性函数时,有: = b + b + b +e (2-2)p p y x ... x 0 1 1其中βi 是p+1 个未知参数,β0 称为回归常数,β1...βp 称为回归系数。 2.4. 主成分分析 上述的线性回归模型的应用前提是作为自变量的各指标之间相互独立,即不

主成分分析法 主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法 [编辑] 什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。 [编辑] 主成分分析的基本思想

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。 同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主要矛盾。上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。 例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。 [编辑] 主成分分析法的基本原理 主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 [编辑] 主成分分析的主要作用

门限自回归模型及其在水文随机模拟中的应用* 王文圣, 袁 鹏, 丁 晶, 邓育仁 (四川大学水电学院,四川成都 610065) 摘 要:为了客观描述日流量变化的非线性特性,将一种非线性时序模型——门限自回归模型引入日流量随机模拟。根据我国金沙江流域屏山站观测资料建立了日流量随机模拟的门限自回归模型。实用性检验结果表明,该模型用于模拟日流量过程是可行的,成果实用。这种尝试为日流量随机模拟提供了一种考虑日流量非线性变化特性的新模型。 关键词:门限自回归模型;日流量随机模拟;实用性检验 中图分类号:P33;P333.6文献标识码: B文章编号:1001-2184(2001)增-0047-04 1 引 言 日流量随机模拟利用日流量涨落的统计特性,具体说是利用日流量在时序上的统计关系。这种统计关系非常复杂,为简化处理常常以线性来表征前后日流量的关系。在一般情况下,这种简化尚能反映日流量时序变化的主要特性。所以在日流量随机模拟时,当前广泛使用线性时序模型。但是日流量在时序上的前后流量关系是非线性的。例如,对大流域一次洪水的日流量过程涨水段的下部、中部和上部有着明显不同的涨率,前后流量关系显然不是线性的;同样在落水段的下部、中部和上部有着明显不同的退水率,前后流量关系也不是线性的。因此,为更全面地反映日流量时序变化的特性,最好考虑日流量在时序变化上的非线性特性。 近来,非线性时序的分析获得了迅速的发展,并且相继出现了一系列非线性时序模型,比如门限自回归模型,双线性模型,指数自回归模型,状态依赖模型等。对双线性模型曾初步研究了在洪水模拟中应用的可能性[1]。门限自回归模型最近尝试应用于水文预报并获得较好的效果[2]。鉴于门限自回归模型在表征非线性特性上具有其独到之处,笔者将之引入日流量随机模拟并以某站日流量资料为基础,全面探讨了这种模型在日流量模拟中的可行性,模拟效果和优缺点等。 2 门限自回归模型的形式和基本特性 2.1 模型形式 门限自回归模型由汤家豪1978年提出[3],用来解决一类非线性问题。其思路是:对研究对象按照不同区间建立若干个线性时序模型;然后将这些线性时序模型组合起来描述该对象非线性时序变化特性。 对于时间序列{Z t},门限自回归模型的一般形 收稿日期:2000-08-14 * 基金项目:国家自然科学基金(49871018);高速水力学国家重点实验室开放基金资助项目(编号2008)式为: Z t U(1)0+∑ p 1 i=1 U(1)i Z t-i+E(1)t Z t-d F r1 U(2)0+∑ p 2 i=1 U(2)i Z t-i+E(2)t r1

实验八:主成分回归 实验题目:对例5.5的Hald水泥问题用主成分方法建立模型,并与其他方法的结果进行比较。 例5.5如下:本例为回归经典的Hald水泥问题。某种水泥在凝固时放出的热量y(卡/克,cal/g)与水泥中的四种化学成分的含量(%)有关,这四种化学成分分别是x1铝酸三钙(3CaO.Al2O3),x2硅酸三钙(3CaO.SiO2),x3铁铝酸四钙(4CaO.Al2O3.Fe2O3),x4硅酸三钙(2CaO.SiO2)。现观测到13组数据,如表5-3所示。 表5-3 实验目的: SPSS输出结果及答案: 一、主成分法: 多重共线性诊断:

已提取了 4 个成份。 由解释的总方差表中累计贡献性知,f1和f2的累计贡献性就在85%~95%之间。所以主成分取f1,f2。

得到因子得分的数值,并对其进行处理:sqrt(2.236)*FAD1_1,sqrt(1.576)*FAD2_1可以得出 主成分表(f1 f2)。 对f1 f2进行普通最小二乘线性回归 f1=-0.643+0.081x1+0.036x2-0.062x3-0.033x4 对f2和x1x2x3x4进行回归 模型非标准化系数标准系数 t Sig. B 标准误差试用版 1 (常量) -.938 .000 -1119037.661 .000 x1 -.087 .000 -.405 -9710099.545 .000 x2 .027 .000 .330 3071727.057 .000 x3 .094 .000 .482 10459854.955 .000 x4 -.027 .000 -.359 -3177724.589 .000 a.因变量: f2 f2=-0.938-0.087x1+0.027x2+0.094x3-0.027x4

偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。 偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。 (2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。 (3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。 一、偏最小二乘回归的建模策略\原理\方法

《多元统计分析分析》实验报告 2012 年月日学院经贸学院姓名学号 实验 实验成绩名称 一、实验目的 (一)利用SPSS对主成分回归进行计算机实现. (二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释. 二、实验内容 以教材例题为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用 三、实验步骤(以文字列出软件操作过程并附上操作截图) 1、数据文件的输入或建立:(文件名以学号或姓名命名) 将表数据输入spss:点击“文件”下“新建”——“数据”见图1: 图1 点击左下角“变量视图”首先定义变量名称及类型:见图2: 图2: 然后点击“数据视图”进行数据输入(图3): 图3

完成数据输入 2、具体操作分析过程: (1)首先做因变量Y与自变量X1-X3的普通线性回归: 在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4): 图4 将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5): 然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9) 其他选项按软件默认。最后点击“确定”,运行线性回归,输出相关结果(见表1-3)

(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析

偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。 (2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。 (3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对

多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。 一、 偏最小二乘回归的建模策略\原理\方法 1.1建模原理 设有 q 个因变量{q y y ,...,1}和p 自变量{p x x ,...,1}。为了研究因变量和自变量的统计关系,我们观测了n 个样本点,由此构成了自变量与因变量的数据表X={p x x ,...,1}和.Y={q y y ,...,1}。偏最小二乘回归分别在X 与Y 中提取出成分1t 和1u (也就是说, 1t 是p x x ,...,1 的线形组合, 1u 是q y y ,...,1 的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求: (1) 1t 和1u 应尽可能大地携带他们各自数据表中的变异信息; (2) 1t 与1u 的相关程度能够达到最大。 这两个要求表明,1t 和1u 应尽可能好的代表数据表X 和Y,同时自变量的成分 1t 对因变量的成分1u 又有最强的解释能力。 在第一个成分1t 和 1u 被提取后,偏最小二乘回归分别实施X 对 1t 的回归以及 Y 对1u 的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X 被1t 解释后的残余信息以及Y 被1t 解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X 共提取了 m 个成分1 t ,…, m t , 偏最小二乘回归将通过实施 k y 对1 t ,…, m t , 的回归,然 后再表达成k y 关于原变量 x 1 ,…, x m , 的回归方程,k=1,2,…,q 。

如何利用SPSS进行主成分回归实例分析 主成分回归分析数据编辑、定义格式 第一步,进行一般的线性回归分析: 首先给出各个变量的平均值,标准差,膨胀系数VIF,以便进行多重共线性诊断。 变量平均值标准差膨胀系数VIF x1 148.27588 161.03858 9597.57076 x2 18163.23529 21278.11055 7.94059 x3 4480.61824 4906.64206 8933.08650 x4 106.31765 107.95415 23.29386 x5 5.89353 1.58407 4.27984

以及一般线性回归模型分析结果: 方差分析表 方差来源平方和df 均方F值显著水平 回归490177488.12165 5 98035497.62433 237.79008 0.00000 剩余4535052.36735 11 412277.48794 494712540.48900 16 30919533.78056 变量x 回归系数标准系数偏相关标准误t值显著水平b0 1962.94803 1071.36166 1.83220 0.09184 b1 -15.85167 -0.45908 -0.04888 97.65299 -0.16233 0.87375 b2 0.05593 0.21403 0.62148 0.02126 2.63099 0.02194 b3 1.58962 1.40269 0.15318 3.09208 0.51409 0.61652 b4 -4.21867 -0.08190 -0.17452 7.17656 -0.58784 0.56754 b5 -394.31413 -0.11233 -0.49331 209.63954 -1.88091 0.08446 剩余标准差sse=642.08838,Durbin-Watson d=2.73322。 第二步,对自变量进行主成分分析,给出主成分分析结果: No 特征值百分率% 累计百分率% 1 4.1971 2 83.94234 83.94234 2 0.66748 13.34968 97.29202 3 0.09463 1.89266 99.18469 4 0.04071 0.81423 99.99892 5 0.00005 0.00108 100.00000 并显示如下选择主成分个数的用户操作界面: 特征向量(转置)

SAS软件的在煤矿事故分析上的应用 ――运用偏相关分析和主成分回归分析法摘要:为了研究我国煤矿各类事故之间的相互关系,收集引起煤矿各类事故的原因,运用sas软件的部分功能对我国煤矿事故数据进行了统计分析,其中运用偏相关分析和主成分回归分析法,分析分类事故死亡人数对总死亡人数的影响。根据主成分分析法推导出了一个回归方程,用偏相关分析和主成分回归分析的方法可以估算下一年份总死亡人数的参考值,从而重点做好各方面工作以最大减少事故发生。 关键词: 煤矿;事故类型;偏相关系数;主成分分析;回归分析 Abstract: In order to study the relationship between the various types of coal mine accidents in China, collecting caused by coal mine accidents of various kinds, some functions using sas software to China's coal mine accident data for statistical analysis, including the use of partial correlation analysis and principal component regression analysismethod, analysis classified the death toll of the total number of deaths. Derive a regression equation based on principal component analysis, the reference value of the partial correlation analysis and principal component regression analysis to estimate the total death toll of the next year, to focus on doing all aspects of work to the maximum to reduce the accident occurred. Keywords: coal mine; types of accidents; partial correlation coefficient; principal component analysis; regression analysis 1 引言 煤炭工业作为我国的基础产业,在现在及未来的国民经济发展中都起着举足轻重的作用。从目前我国能源现状、经济发展水平和世界能源格局来看,相当长的时期内以煤为主的能源消费结构难以改变。但是近年来煤矿事故频发,煤矿事故已成为我国工矿企业中死亡人数最多的一类事故,给国家和人民群众的生命财产造成了巨大损失。因此,对煤矿事故进行统计分析,找出最主要的事故类型,研究各类事故之间的相互关系,由此提出有效的预防措施是非常必要的。为此,笔者运用主成分分析法和因子分析对搜集到的我国煤矿事故数据进行统计分析,主要分析了煤矿事故的主要类型以及各事故类型对事故发生的贡献率,以为制定相应的预防措施提供依据。

1.(10分)数据中心化和标准化在回归分析中的意义是什么? 在多元线性回归分析中,因为涉及多个自变量,自变量的单位往往不同,会给分析带来一定的困难,又由于涉及的数据量很大,就可能会以舍入误差而使得计算结果不理想. 1.中心化处理后可以减少一个未知参数,减少了计算的工作量,对手工计算尤为重要. 2.标准化处理后有利于消除量纲不同和数量级的差异所带来的影响,避免不必要的误差. 2.(10分)在实际问题中运用多元线性回归应注意哪些问题? 在实际问题中,人们用复相关系数R来表示回归方程对原有数据拟合程度的好坏,但是拟合优度并不是检验模型优劣的唯一标准,有时为了使模型从结构上有较合理的经济解释,R2等于0.7左右也给回归模型以肯定的态度. 在多元线性回归分析中,我们并不看重简单相关系数,而认为偏相关系数才是真正反映因变量y与自变量x i以及自变量x i与x j的相关性的数量. 用相关系数R2大小来衡量模型的拟合优度,不能仅由R2值很大来推断模型优劣. 在实际应用回归方程进行控制和预测时,给定的x0值不能偏离样本均值太大,如果太大,用回归方程无论是作因素分析还是经济预测,效果都不会理想. 得到实际问题的经验回归方程后,还不能马上用它去作分析和预测,还需运用统计方法对回归方程进行检验. 3.(15分)主成分分析与因子分析的主要方法和思想是什么?两者有何联系与区别? 求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知),采用的方法只有主成分法。 一、主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产

相关文档
相关文档 最新文档