文档库 最新最全的文档下载
当前位置:文档库 › 第七章 回归分析

第七章 回归分析

第七章  回归分析
第七章  回归分析

第七章回归分析

前几章所讨论的内容,其目的在于寻求被测量的最佳值及其精度。在生产和科学实验中,还有另一类问题,即测量与数据处理的目的并不在于获得被测量的估计值,而是为了寻求两个变量或多个变量之间的内在关系,这就是本章所要解决的主要问题。

表达变量之间关系的方法有散点图、表格、曲线、数学表达式等,其中数学表达式能较客观地反映事物的内在规律性,形式紧凑,且便于从理论上作进一步分析研究,对认识自然界量与量之间关系有着重要意义。而数学表达式的获得是通过回归分析方法完成的。

第一节回归分析的基本概念

一、函数与相关

在生产和科学实验中,人们常遇到各种变量。从贬值辩证唯物主义观点来看,这些变量之间是相互联系、互相依存的,它们之间存在着一定的关系。人们通过实践,发现变量之间的关系可分为两种类型:

1.函数关系(即确定性关系)

数学分析和物理学中的大多数公式属于这种类型。如以速度v作匀速运动的物体,走过的距离s与时间t之间,有如下确定的函数关系:

s=vt

若上式中的变量有两个已知,则另一个就可由函数关系精确地求出。

2.相关关系

在实际问题中,绝大多数情况下变量之间的关系不那么简单。例如,在车床上加工零件,零件的加工误差与零件的直径之间有一定的关系,知道了零件直径可大致估计其加工误差,但又不能精确地预知加工误差。这是由于零件在加工过程中影响加工误差的因素很多,如毛坯的裕量、材料性能、背吃刀量、进给量、切削速度、零件长度等等,相互构成一个很复杂的关系,加工误差并不由零件直径这一因素所确定。像这种关系,在实践中是大量存在的,如材料的抗拉强度与其硬度之间;螺纹零件中螺纹的作用中径与螺纹中径之间;齿轮各种综合误差与有关单项误差之间;某些光学仪器、电子仪器等开机后仪器的读数变化与时间之间;材料的性能与其化学成分之间等等。这些变量之间既存在着密切的关系,又不能由一个(或几个)变量(自变量)的数值精确地求出另一个变量(因变量)的数值,而是要通过试验和调查研究,才能确定它们之间的关系,我们称这类变量之间的关系为相关关系。一般讲,多考虑一些变量会减少所考察的因变量的不确定性,但不是绝对的。

应该指出,函数和相关关系虽然是两种不同类型的变量关系,但是它们之间并无严格的界限。一方面由于测量误差等原因,确定性的关系在实际中往往通过相关关系表现出来。例如尽管从理论上物体运动的速度、时间和运动距离之间存在着函数关系,但如果我们做多次反复地实测,每次测得的数值并不一定满足s=vt的关系。在实践中,为确定某种函数关系中的常数,往往也是通过试验。另一方面,当对事物内部的规律性了解得更加深刻的时候,相关关系又能转化为确定性关系。事实上,实验科学(包括物理学)中的许多确定性的定理正是通过对大量实验数据的分析和处理,经过总结和提高,从感性到理性,最后才能得到更能深刻地反映变量之间关系的客观规律。

二、回归分析的主要内容

回归分析(Regression Analysis)是英国生物学家兼统计学家高尔顿(Galton)在1889年出版的《自然遗传》一书中首先提出的,是处理变量之间相关关系的一种数理统计方法。上面已经提到,由于相关变量之间不存在确定性关系,因此,在生产实践和科学实验所记录的这些变量的数据中,存在着不同程度的差异。回归分析就是应用数学的方法,对大量的观测数据进行处理,从而得出比较符合事物内部规律的数学表达式。概括地说,本章主要解决以下几方面的问题:

1)从一组数据出发,确定这些变量之间的数学表达式——回归方程或经验公式。 2)对回归方程的可信程度进行统计检验。

3)进行因素分析,例如从对共同影响一个变量的许多变量(因素)中,找出哪些是重要因素,哪些是次要因素。

回归分析是数理统计中的一个重要分支,在工农业生产和科学研究中有着广泛的应用。当今在实验数据处理、经验公式的求得、因素分析、仪器的精度分析、产品质量的控制、某些新标准的制定、气象及地震预报、自动控制中的数学模型的制定及其他许多场合中,回归分析往往是一种很有用的工具。 三、回归分析与最小二乘的关系

回归分析是基于最小二乘原理,回归方程系数的求解,特别是一元线性回归方程的求解与最小二乘法有一定的相似性,两者主要不同的是,最小二乘法对研究事物内部规律的数学表达式——经验公式,得到该公式待求参数估计量后,只对其精度进行评价,而不研究所拟合的经验公式整体质量。回归分析求解回归方程系数后,还需进一步对所得的回归方程——经验公式的整体精度进行分析和检验,以确定回归方程的质量水平,并定量地评价回归方程与实际研究的事物规律的符合程度,即进行回归方程的方差分析与显著性检验等。由此表明,最小二乘原理是回归分析的主要理论基础,而回归分析则是最小二乘原理的实际应用与扩展。它不仅研究一元回归分析,还有多元回归分析等内容。

第二节一元线性回归

一元回归是处理两个变量之间的关系,即两个变量x 和y 之间若存在一定的关系,则可通过试验,分析所得数据,找出两者之间关系的经验公式。假如两个变量之间的关系是线性的就称为一元线性回归,这就是工程上和科研中常遇到的直线拟合问题。 (1)回归分析研究的内容及应完成的任务

回归分析是处理变量间相关关系的一种数理统计方法,相关时变量之间不存在确定性的关系。回归分析是以数理统计方法为工具对大量测量数据进行数据处理以求得一个比较符合变量客观实际规律的表达公式。

换句话说,就是从已获得的数据里,寻求或设想出一个函数?(x)来逼近未知的函数y(x),且其效果呈现为最佳。 (2)回归直线

变量中的因变量与自变量是回归直线制定者对变量深入了解后自行拟定的,一般说来,自变量x 是易于测定且可精确测定(x 误差一般可忽略)的量,x 称受控情况。纵坐标y 表示具有某种性质的量,称因变量。将测量后的N 对点(x i ,y i ),i =1,2,…,N ,直接作图后,观其大致走向,测量者考虑成熟后,划出一条直线(实验点一般都不在该直线上)。这条直线在统计学上称作回归直线。 (3)最佳回归直线

最佳回归直线,画出什么样的直线才是最佳的直线呢?仅凭直官感觉很难作出判断,因为画出的直线具有很大的主观性,较好的处理方法是用最小二乘法来判别,即用二乘原理对数据进行回归分析后所确定的回归方程,该方程对所有实验点剩余误差平方和呈现最小,是最佳的回归直线,其意义是在二乘意义上的最佳。 (4)一元线性回归的数学模型 y 与x 的函数真关系为x y ββ+=

0,x 属受控情况。测量N 次后,y 理应得到

i i x y ββ+=0,但经实际测量后,y i 与x i 的关系却以相关关系体现出来,即

式中ε1,ε2,…,εN 表示由于随机因素对y i 值测量结果的总效应(误差)。现在的问题是:恰当地选取β0,β1值,使各直接测量值与回归直线值的差方和为最小。显然,根据最小二乘原理建立起来的回归方程应是最佳的选择,应是能够反映各实验点客观情况的。

回归分析在实验后的数据处理,实验方程的确定,因素分析,标准的制订,仪器的定标及产品质量控制等方面,有着广泛的应用。其他如气象、地震的预报、自动控制中数模的建立等,回归分析也是一种常用的方法。 (一)一元线性回归 1、定义

一元回归是处理两个变量之间的关系,自变量只有一个,故称一元回归。若两变量间呈线性关系时,则称一元线性回归。 2、回归系数b 0,b 的计算

若y=β0+βx ,经N 次测量后存在如下结构,即

y i =β0+βx i +εi , i=1,2,…,N

假设b 0,b 分别是β0与β用最小二乘原理求得之最佳值,则一元线性回归方程是

b 0,b 称回归方程的回归系数,每一x i 都可由上式求得其回归值i y ?,直接测量的y i 值与i y ?存在着一定的误差——剩余误差,即

()i i i i bx b y y y +-=-0?

上式描述了全部测量值y i 与回归值i y ?之间的偏离程度,令全部y i 与i y ?偏离程度的平方和称作差方和或剩余误差差方和,用Q (b 0,b )表示,即

回归系数b 0,b 应这样选择:使Q (b 0,b )为最小时所求得之值,即

00

=??b Q

中可以得到

0=??b

Q

中可以得到

将b 0代入上式后,则可得到

由上述讨论可以得出结论:回归系数b 0,b 的计算,可由样本统计量x ,y 及测量值x i ,y i 求得,其计算过程很有规律并可使之规格化。 3、回归系数规格化计算表

回归系数的计算是二乘运算规律的计算,为使其有序进行且易于检查,可制作规格化表,该表也不过是二乘运算的另外一种计算方式。

于是,回归系数又可写成

bx

b y l l b x b y b xx

xy

+==

-=00?回归方程则为

,

可以看出,y x b b y x x i =+==

0?时,则当,说明y

?一定通过),(y x 点,记住它很有必要,因为再取任一对点(x 0,y 0)或(x N ,y N ),回归直线的配制便完成了。

最小二乘的运算也就是最小差方和的运算,计算方法在前面已研究过了,不过本章中的书写格式、运算程序方面与系数列表法不同,但计算结果是完全相同的,回归分析时若采用本章中的规格化计算方法,对回归系数的计算、精度分析、显著性检验等方面,都具有灵活、方便的优点。

4、回归分析研究的内容

(1)根据测量数据,配制回归方程。

(2)配制出的回归方程有无指导性实践意义,可信赖程度如何,须进行统计检验。 (3)在众多的影响因素里,判断出哪个因素的影响是显著的,使对y 有影响的变量不遗漏,而对y 影响不显著的因素或变量不参与到回归方程中去,这就涉及到最优回归选择的问题了。

(4)研究回归方程,可对产品质量进行预报和控制。 (5)寻求试验点少且具有较好统计性质的回归设计方法。 本章主要研究前4项内容。

二、回归方裎的精度分析〔方差分析〕 (一)回归方程的特点 (1)

点。),(一定通过

y ?所以回归直线,?时?当,?回归直线00y x y x b b y x x bx b y =+==+=

(2)按最小二乘原理配制出的回归直线,实际上并不通过各试验'点,各试验'点∥玄或戈对夕!值的剩余差方和仍属最小。因此,夕是一条最佳、最可信赖的一条直线,夕最能反映所有试验点的客观实际情况。 (二)回归直线的因素分析 1、为什么要进行因素分析

回归方程中变量y 与x 的关系是相关关系,知道x 值后并不能准确地计算出y 值。那么回归方程建立后,根据自变童x 值如何预报y 值呢,预报的效果如何?也就是说,该回归直线预报的把握性、精度究竟如何呢?这需要对x ,y 进一步分析,看看y 与x 是否确实存在线性关系还是其他关系。换句话说,应对该回归直线进行统计性检验。 2、导致y 产生差异的因素

(1)试验点x 取值不同时y 值亦不同,这是y 与x 内部规律性引起的现象。 (2)其他因素的影响,包括测量时随机误差的影响,x 对y 的非线性影响。

欲检验出哪一因素是主要的,就必须把它们引起的差异(变差)从y 的总差异(总变差)中分解出来。

3、差方和的分解——S 总,u 回及Q 剩 (1)总差方和S 总

①定义N 个测量值y i 之间的差异,可用测量值y i 与其算术平均值y 偏差的平方和来表示,称作总的偏差平方和,简称总差方和,记作S 总。 ②计算公式S 总的计算公式

将s 总的计算公式展开后,可得

回归直线的正规方程应满足

故知上式x 与y 的交叉项中为

这样,就将S 总中分解成了两部分,即

(2)回归差方和u 回

①定义 N 个回归值i y ?之间的差异,可用i y ?与平均值y 的偏差平方和来表示,称作回归偏差平方和,简称回归差分和,记作u 回。

②含义当x i 取值不同时,y 与x 内部确实存在着线性关系,故而引起y 的变化。因此,u 回就是考虑了y 与x 之间线性相关部分在总差方和中所占的比重。这样,u 回便从数量与Q 剩

区分开来了。 ③计算公式

由于b=lxy/lxx ,故

所以u 回值又可写成

(3)剩余差方和Q 剩

①定义 Q 剩是所有测试点y i 与回归值i y ?的偏差平方和,简称剩余差方和,记作Q 剩。

②含义 Q 剩是排除了x 对y 线性因素影响之外,其他一切因素的影响,它包括实验时的随机误差及其他尚未控制的因素等引起对y 的变差,它的大小反映了实验误差及其他尚未能控制因素(线性因素除外)对实验测量结果的影响,其数值的大小,决定了回归效果的优与劣。

(4)计算公式小结

上述三种差方和,可由规格化形式lyy ,lxx ,lxy 来表示,运算过程中完全可用回归系数计算时的某些计算结果,十分方便。 三、自由度分解定理

每一差方和(S 总,u 回,Q 剩)都是χ2变量,都有一个与自身的“自由度”相联系。如果某差方和是由几部分的差方和组成的,则总的自由度就等于各部分的自由度之和。现今,总的差方和在数值上已分解成回归差方和与剩余差方和,则总的差方和的自由度f s 就应等于回归差方和的自由度f u 与剩余差方和的自由度f Q 之和。即

f 3=f u +f Q

在一元线性回归分析中:S 总是由N 个实验点y i (或M i )与平均值y 比较后的平方和来评定的,故其自由度为N-1;S 回仅受线性因素的影响,其自由度为1;由自由度分解定理可知,Q 剩的自由度为N -2。 4、剩佘方差

定义:某差方和除以自身自由度就是某方差。据此可知,Q 剩除以(N -2)后的商,就是剩余差方和的方差,记作()Q 2

σ,由此可知

剩余方差()Q 2

σ的大小可以看成是在排除了x 对y 的线性因素后,衡量y 值随机波动特性大

小的一个估计值。换言之,)(Q σ的大小是评定所有随机因素(线性因素除外)对y i 任一次测量结果离散程度大小的一个量度,其数值为

回归效果的优劣取决于u 回在S 总中所占的比重,u 回与S 总值愈接近愈好,这时的Q 剩值就会很小,)(Q σ小时回归效果优良。

例10—1依据播种后小麦发芽后的基本苗数进行产量预报的数学模型的建立问题:在探索小麦增产过程中,总结出一种根据小麦基本苗数估计小麦成熟期有效穗数的方法,进而可预报产量,某年某生产队在五块实验田里进行对比试验,在同样施肥及管理水平条件下,取得如下数据,试确定其回归方程。

解将基本苗数x i 作横坐标,有效穗数y i 作纵坐标,直接作图后可以发现:各数据点大致落在一条直线附近,变量y 与x 之间的关系大致可看作是线性关系;各数据点又不都在一直线上,这表明x 与y 的关系并没有确切到给定x 就可唯一地确定y 的程度。事实上,还有其他因素对y 值产生影响。诸如气候的影响,月平均温度、湿度、降雨量等等,它们都是影响y 取什么值的随机因素,诸因素中,基本苗数x i 是影响有效穗数y i 的主要因素,可以假设有如下的结构形式

N i x y i

i i ,2,10=++=εββ

上式称作一元线性回归的数学模型,β0与β是待定常数。ε1,ε2,…,εN 分别表示其他

因素对有效穗数y i 影响的总和,一般假设它们是一组相互独立且服从同一正态分布n (0,σ2)的随机变量,即满足 E(ε)=0 D(ε)=σ2

变量x 可以是随机变量也可以是一般变量,本节只讨论它是一般变量情况,即x 是可以精确测量、严格可控的变量(其误差可忽略不计)。

解法1 利用已学过的知识——系数列表法,对回归方程中的b 0,b 值求解,见表10.1。

列出求解两待求量的正规方程为

解法2

利用规格化计算公式,有

应该指出,配制出的回归方程x y

2924.024.34?+=是在五块试验田、播种量为(25~45)斤/亩范围内得出的结果,播种量为100斤/亩甚至1000斤/亩并未提及,若将该

回归方程推广到试验田之外,将会冒很大风险,甚至会得出谬误的结论。 b=0.2924表明每增加一亩地,增加的基本苗数为0.2924万株。

四、回归方程的显著性检验

回归方程bx b y +=

0?建立后:如果x 与y 不存在线性关系,那么在数学模型

i i i x y εββ++=0中的一次项系数β应等于零,即β=0;如果y 与x 存在线性关系,那

么,β≠0。所以,检验x 与y 是否存在着线性关系,归根到底是检验β是否为零的问题。而这一点可通过比较u 回与Q 剩来实现。

现已知:s 总~/χ2(N -1),u 回~/χ2(1),Q 剩~χ2

(N -2),且其自曲度的关系为f s =f u +f Q ,故知u 回与Q 剩之间必相互独立。于是在β=0条件下,就定义了一个新的统计量,即

Q

u

f Q f u F //剩回=

对于一元线性回归,则有

()2,1~2

-/N /1剩回-=

N F Q u F

其中,F (1,N -2)表示第一自由度为1,第二自由度为(N -2)的F 分布。 2、一元线性回归方程的F 检验

在假设β=0条件下建立的F 变量,在给定的显著水平α下,统计量F 应有

(){}αα-=-≤1)2,1N F F P

这表明事件“F 大于F (1,N -2)”是个小概率事件,它在一次试验中不应发生。若由测量披据里计算后获得的F 值确实大于F α(1,N -2)值,则说明原“假设β=0”不能成立,这意味着线性回归模型中x 的一次项β是必要的,是不可缺少的,这时,称该回归方程在α水平上是显著的。反之,如果计算后的F 小于F α(1,N-2)时,原假设β=0成立,说明x 与y 线性关系不显著,计算结果可归纳如下:

(1)若F ≥F 0.01(1,N-2)时,认为是高显著度的,或称在1%显著水平上显著.

(2)若F 0.05(1,N-2)≤F <F 0..01(1,N-2)时,则称是中等显著度的,或称在5%显著水平上显著,

(3)若F 0.10(1,N-2)≤F <F 0.05(1,N-2)时,称是低显著的,或称在10%显著水平上显著。 (4)若F <F 0.10(1,N-2)时,则认为x 与y 没有明显的线性关系,所配制的回归方程不显著,说明x 与y 的线性关系不密切。

由此可知,所配制回归方程为

x bx b y 0878.00914.0?0+=+=

列出其回归方程的方差分析表,见下表。

由于()2.214,1100.201.02=?=F F

,所以吸光度与硼的浓度之间的相关关系是高

显著的。

例10-6某地区为了探求山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(x )与当年灌概面积(y )之间的关系,得到连续10年的数据,见下表。试建立其回归方程。

解(1)直接作图后,观其大致走向

为了研究数据间蕴含的规律性,把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点画在直角坐标纸上,如图所示,该图又称作散点图。观之,近于一条直线,故可用i i i x y εββ++=

0作其数学模型。

(2)计算回归系数b 0,b 值

所配制出的回归方程为

图画出了该回归方程的直线,可以看到y?与10个测量数据点都很接近。对回归方程显著性的F检验

五、重复试验情况——回归方程拟合优劣的评定

一、重复试验的必要性

应该指出,用剩余差方和检验回归差方和所作出的“回归方程显著性”这一判断,只是说明相对于其他因素及试验误差来说,因素x 取值不同时一次项系数β对指标y 的影响是主要的,说明S 总中u 回占的比重是主要的,但它并没有说明影响y 除x 因素外是否还有一个或几个不可忽略的其他因素也影响y 。换言之,在F >F α(1,N-2)下的显著性并不表明这个回归方程拟合得是很好。原因在于,在Q 剩中除实验误差外,还包含x 与y 线性关系以外的其他尚未控制因素的影响。

为了检验一个回归方程拟和得是好还是差,还需作一些童复性的试验,用误差平方和对“失拟差方和”进行F 检验,就可以确定该回归方程拟合程度上的好与差。 二、重复试验的最简单情况

重复试验可以对部分试验点进行,也可以对全部试验点进行,对部分试验点进行重复试验时,又可以对一个或几个试验点进行重复试验。由最简单情况人手,假设仅对N 号试验点进行了m 次重复试验,得到(N+m-1)个数据,即

其中前(N-1)个试验点没有重复,后m 个试验是在第N 号试验上重复的。 记y 为这(N+m-1)个数据的算术平均值。

1、各种差方和及其自由度

对这(N+m-1)个数据,可以分别求出各种差方和及自由度,即

此外,在N 点重复的m 个数据,可算出其误差平方和,即

的算术平均值。

,,,,是121-+++m N N N N N y y y y y 如前所叙,剩余差方和反映了试验误差与其他尚未能控制的因素的影响。可以设想,

Q L 就只反映了其他未能控制的因素的影响,Q L 称作失拟差方和,用Q L 评定回归方程拟合得

好与差的程度,这时总的差方和为

E L 回总Q Q u ++=S

2、用统计量F 1和F 2进行显著性检验

类同F 检验时所做的那样,可以证明在“假设β=0”成立的条件下ˉ

)1(~)/(),2(~)/(),1(~)/(222222回--m Q N Q u E L χσχσχσ

并且它们之间相互独立,于是可以用统计量

来检验回归方程拟合得是好还是差。

(1)在给定显著水平α下,如果计算值F1≤Fα(f L,f E),说明F检验结果不显著,表明失拟差方和基本上是由试验误差等随机因素引起的,这时可把Q L与Q E合并用来检验u回,即

如果第二次F检验的结果显著,那么就称该回归方程拟合得好,如果F2检验结果不显著,那么这时有如下两种可能:

①有什么因素对y有系统的影响;

②试验误差过大。

当然,这时所求得的回归方程是不够理想的。

(2)在给定显著水平α下,如果计算值F1>Fα(f L,f E),即第一次F检验结果显著,则说明在失拟差方和中除含有试验误差影响外,还有其他一些因素的影响,这时有如下几种

可能:

②响y的变化除x因素外,至少还有一个不可忽略的因素;

②y与x是曲线关系,不是直线关系;

③y与x线性无关。

这时,即使用Q E对u回进行第二次F检验的结果显著,表明所得的一元线性回归方程仍有一定作用,但也不能说该方程拟合得是好的,仍需要查明原因,或改变数学模型,作更进一步地研究。

三、对全部试验点进行重复试验情况

下面研究对全部试验点进行重复试验时的参数估计及统计检验问题。

1、回归方程的建立

如果对全部N个试验点各进行m次重复试验,共获得Nm个数据,这Nm个数据的结构形式是

其中εαi是相互独立且服从同一正态分布n(0,σ2)的一组随机变量。

在重复试验情况下,同样可用最小二乘法求得参数β0,β的最小数点二乘估计值,只不过公式的表现形式略有不同罢了。

可以看出,只要把y i用yα代替,就可得到上式,这就是说,用每个试验上的算术平均值所配制出的回归方程与用原来的Nm个测量值配制出的回归方程是完全一致的。

例10-7合成纤维抽丝工段第一导丝盘的速度,对纤维质量是个重要参数。今发现它和电流

频率(周波)有密切关系,由生产记录得

试问,x与y能否建立回归方程?

解将数据点标在直角坐标纸上,如图所示。从图上可以看出,近于一条直线,其数学模型结构形式为

回归方程可由规格化计算表建立,见下表。

2、总差方和的分解及其自由度

为了对该回归方程进行统计检验,就应把总差方和,即

进行如下分解

上式等号能够成立,皆因所有交叉项乘积之和均为零的缘故。其中回归差方和为

U 回是由于x 的变化而引起y 的变化,故称作回归差方和。 误差差方和为

Q E 反映了重复试验所引起的y 的变化,故称作误差差方和。当m=2时,Q E 可用下式计算

(()212

1

αααy y y +=

) 失拟差方和为

Q L 是由于其他各种未能控制原因引起的y 的变化,称作失拟差方和。 综上所叙,总差方和分解公式为

3、用统计F 1及F 2进行显著性检验

在所有试验点都进行m 次重复试验下,回归方程的统计检验可按如下步骤进行。 (1)第一步:首先作统计量

{})

1(,2//1--=

m N N F f Q f Q F E

E L L α 用误差差方和对失拟平方和进行

F 检验。

在给定显著水平α下,如果有(){}1,21--m N N F F α

,说明失拟不显著,失拟平

方和Q L 基本上是由试验误差因素引起的,这时可把Q L 和Q E 合并,并用来检验u 回。 (2)第二步:作统计量

()()

(){}2,1//回2-++=

Nm f f f Q Q f u F E L E L u

α

将失拟差方和与误差差方和合并在一起后检验回归差方和。

(3)F 检验后几种可能出现的情况 ①在给定α条件下有(){}1,21--m N N F F α

,说明失拟不显著,失拟差方和Q L 所占的

比重不大,基本上是由随机试验误差引起的,此时可将Q L 与Q E 合并起来检验u 回,就是用剩余误差检验回归方差。若()Q u f f F F ,2α 时,说明y ?是显著的,该回归方程y

?拟合得令人满意。 ②当

()()Q u E L f f F F f f F F ,,,21αα 情况时,表明配制的y ?不够理想,尽管

()E L f f F ,1 ,失拟情况并不显著,但由于()Q u f f F F ,2α ,说明中y ?引人x 的一次项

系数没有多大作用,故回归效果不显著,拟合得自然不会理想; ③()()Q u E L f f F F f f F F ,,,21αα

时,表明在给定α条件下,第一次F 检验结果失拟显

著,说明在Q L 中除试验误差外,还存在着其他因素的影响,需查明原因,作进一步研究。这时,即便是()Q u f f F F ,2α

)检验后的效果显著,所配制出的回归方程还是有一定指导

意义的,但不能说该回归方程拟合的效果是好的。 ④()()Q u E L f f F F f f F F ,,,21αα

时,

表明失拟差方和所占的比重很大,同时又说明y ?中引人x 的一次项系数没有多大作用,也可能是变量中不存在对y 有显著影响的因素,所配

制出的回归方程没有实践意义。

精密测量中,通常以失拟平方和与仪器的原理误差相对应,因此可用上述检验方法对仪精密度进行分析,了解误差来源及采用何种措施以提高精度,无疑是会有很大帮助的。

事情总是一分为二的,重复试验也会受时间、设备、经费等条件的制约,有时重复试验甚至是不可能的,这时就只能用Q 剩对u 回进行检验了。应当注意,回归方程拟合后的优与劣的真正含义应是F1,F2检验的全部内容,而不仅是Q 剩对u 回作F 检验这一单一结果。

例10-8!试对例10-8所建立的回归方程x y 344.01827.0?+-=作F 检验。 解:将测量数据列成回归直线计算表格,见下表。

为了对回归方程进行统计检验,须先计算出各类差方和,即

用误差平方和对失拟平方和进行F 检验,即

检验结果说明:失拟差方和基本上是试验误差等随机因素引起的。于是,可把失拟差方和与误差差方和合并对回归差方和再进行F 检验,即

()()()()

()96

.410,1262.7864/0251.00054.01

/2387.0//05.0回2==++=++=

F f f Q Q f u F E L E L u 由于()()10,1,6,405.0205.01F F F F

,检验结果表明:一元线性回归数学模型与测量的

数据拟合得是很好的。

第七章相关与回归分析

第七章 相关与回归分析 一、本章学习要点 (一)相关分析就是研究两个或两个以上变量之间相关程度大小以及用一定函数来表达现象相互关系的方法。现象之间的相互关系可以分为两种,一种是函数关系,一种是相关关系。函数关系是一种完全确定性的依存关系,相关关系是一种不完全确定的依存关系。相关关系是相关分析的研究对象,而函数关系则是相关分析的工具。 相关按其程度不同,可分为完全相关、不完全相关和不相关。其中不完全相关关系是相关分析的主要对象;相关按方向不同,可分为正相关和负相关;相关按其形式不同,可分为线性相关和非线性相关;相关按影响因素多少不同,可分为单相关和复相关。 (二)判断现象之间是否存在相关关系及其程度,可以根据对客观现象的定性认识作出,也可以通过编制相关表、绘制相关图的方式来作出,而最精确的方式是计算相关系数。 相关系数是测定变量之间相关密切程度和相关方向的代表性指标。相关系数用符号“γ”表示,其特点表现在:参与相关分析的两个变量是对等的,不分自变量和因变量,因此相关系数只有一个;相关系数有正负号反映相关系数的方向,正号反映正相关,负号反映负相关;计算相关系数的两个变量都是随机变量。 相关系数的取值区间是[-1,+1],不同取值有不同的含义。当1||=γ时,x 与y 的变量为完全相关,即函数关系;当1||0<<γ时,表示x 与y 存在一定的线性相关,||γ的数值越大,越接近于1,表示相关程度越高;反之,越接近于0,相关程度越低,通常判别标准是:3.0||<γ称为微弱相关,5.0||3.0<<γ称为低度相关,8.0||5.0<<γ称为显著相关,1||8.0<<γ称为高度相关;当0||=γ时,表示y 的变化与x 无关,即不相关;当0>γ时,表示x 与y 为线性正相关,当0<γ时,表示x 与y 为线性负相关。 皮尔逊积距相关系数计算的基本公式是: ∑∑∑∑∑∑∑---= =] )(][)([22222y y n x x n y x xy n y x xy σσσγ 斯皮尔曼等级相关系数和肯特尔等级相关系数是测量两个等级变量(定序测度)之间相 关密切程度的常用指标。 (三)回归分析是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,以便从一个已知量来推测另一个未知量,为估计预测提供一个重要的方法。回归分析按自变量的个数分,有一元回归和多元回归,按回归线的形状分,有线性回归和非线性回归。与相关分析相比,回归分析的特点是:两个变量是不对等的,必须区分自变量和因变量;因变量是随机的,自变量是可以控制的量;对于一个没有因果关系的两变量,可以求得两个回归方程,一个是y 倚x 的回归方程,一个是x 倚y 的回归方程。 简单线性回归方程式为:bx a y c +=,式中c y 是y 的估计值,a 代表直线在y 轴上的截距,b 表示直线的斜率,又称为回归系数。回归系数的涵义是,当自变量x 每增加一个单位时,因变量y 的平均增加值。当b 的符号为正时,表示两个变量是正相关,当b 的符号为负时,表示两个变量是负相关。a 、b 都是待定参数,可以用最小平方法求得。求解a 、b 的公式为: ∑∑∑∑∑--= 2 2)(x x n y x xy n b ; n x b n y a ∑∑-= 回归估计标准误差是衡量因变量的估计值与观测值之间的平均误差大小的指标。利用此 指标可以说明回归方程的代表性。其计算公式为: 2 ) (2 --= ∑n y y S c yx 或2 2 ---= ∑∑∑n xy b y a y S yx 回归估计标准误和相关系数之间具有以下关系:

第7章 相关与回归分析。

第七章相关与回归分析 学习内容 一、变量间的相关关系 二、一元线性回归 三、线性回归方程拟合优度的测定 学习目标 1. 掌握相关系数的含义、计算方法和应用 2. 掌握一元线性回归的基本原理和参数的最小二 3. 掌握回归方程的显著性检验 4. 利用回归方程进行预测 5. 了解可化为线性回归的曲线回归 6. 用Excel 进行回归分析 一、变量间的相关关系 1. 变量间的关系(函数关系) 1)是一一对应的确定关系。 2)设有两个变量x和y,变量y 随变量x一起变化, 并完全依赖于x,当变量x 取某个数值时,y依确定的关系取相应的值, 则称y 是x的函数,记为y = f (x),其中x 称为自变量,y 称为因变量。 3)各观测点落在一条线上。 4)函数关系的例子 –某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价)。 –圆的面积(S)与半径之间的关系可表示为S = π R2。 –企业的原材料消耗额(y)与产量x1、单位产量消耗x2、原材料价格x3间的关系可表 示为y =x1 x2 x3。 单选题 下面的函数关系是() A、销售人员测验成绩与销售额大小的关系 B、圆周的长度决定于它的半径 C、家庭的收入和消费的关系 D、数学成绩与统计学成绩的关系

2. 变量间的关系(相关关系) 1)变量间关系不能用函数关系精确表达。 2)一个变量的取值不能由另一个变量唯一确定。 3)当变量 x 取某个值时,变量 y 的取值可能有几个。 4)各观测点分布在直线周围。 5)相关关系的例子 –商品的消费量(y)与居民收入(x)之间的关系。 –商品销售额(y)与广告费支出(x)之间的关系。 –粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度 (x3)之间的关系。 –收入水平(y)与受教育程度(x)之间的关系。 –父亲身高(y)与子女身高(x)之间的关系。 3. 相关图表 1)相关表:将具有相关关系的原始数据,按某一顺序平行排列在一张表上,以观察它 们之间的相互关系。 2)相关图:也称为分布图或散点图,它是在平面直角坐标中把相关关系的原始数据用 点描绘出来,通常以直角坐标轴的横轴代表自变量x,纵轴代表因变量y。 4. 相关关系的类型

统计学题目第七章相关与回归分析

(一) 填空题 1、 现象之间的相关关系按相关的程度分有________相关、________相关和_______ 相关;按相关的方向分有________相关和________相关;按相关的形式分有-________相关和________相关;按影响因素的多少分有________相关和-________相关。 2、 对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为 _______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。 3、 完全相关即是________关系,其相关系数为________。 4、 在相关分析中,要求两个变量都是_______;在回归分析中,要求自变量是 _______,因变量是_______。 5、 person 相关系数是在________相关条件下用来说明两个变量相关________的统 计分析指标。 6、 相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______, 两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。当_______时表示两变量正相关;_______时表示两变量负相关。 7、 当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x 值减少, 变量y 值也减少,这是________相关关系。 8、 在判断现象之间的相关关系紧密程度时,主要用_______进行一般性判断,用_______进行数量上的说明。 9、 在回归分析中,两变量不是对等的关系,其中因变量是_______变量,自变量是 _______量。 10、 已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2=-∑-y y ,那么,x 和y 的相关系数r 是_______。 11、 用来说明回归方程代表性大小的统计分析指标是________指标。 12、 已知1502=xy σ,18=x σ,11=y σ,那么变量x 和y 的相关系数r 是_______。 13、 回归方程bx a y c +=中的参数b 是________,估计特定参数常用的方法是 _________。 14、 若商品销售额和零售价格的相关系数为-0.95,商品销售额和居民人均收入的相关系数为0.85,据此可以认为,销售额对零售价格具有_______相关关系,销售额与人均收入具有_______相关关系,且前者的相关程度_______后者的相关程度。 15、 当变量x 按一定数额变动时,变量y 也按一定数额变动,这时变量x 与y 之间存在着_________关系。 16、 在直线回归分析中,因变量y 的总变差可以分解为_______和_______,用公式表示,即_____________________。 17、 一个回归方程只能作一种推算,即给出_________的数值,估计_________的可能值。 18、 如估计标准误差愈小,则根据回归直线方程计算的估计值就_______ 19、 已知直线回归方程bx a y c +=中,5.17=b ;又知30=n ,∑=13500y ,

应用回归分析课后习题第7章第6题

7.6一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7-5是该银行所属25家分行2002年的有关业务数据。 (1)计算y 与其余4个变量的简单相关系数。 由系数表可知,y 与其余4个变量的简单相关系数分别为0.844,0.732,0.700,0.519. (2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理? 由上表可知,回归方程为为: 022.1029.0015.0148.04.0?4321--++=x x x x y 从上表可看出,方程的自变量2x 、3x 、4x 未通过t 检验,说明回归方程不显著,而且由实际意义出发,4x 的系数不能是负的,所以所得的回归系数不合理。 (3)分析回归模型的共线性。

由上表可知,所有自变量对应的VIF 全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表: 由这个表可以看出来,第5行中1x 、3x 的系数分别为0.87和0.63,可以说明这两个变量之间有共线性。 (4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? 采用后退法(见上表),所得回归方程为972.0029.0149.0041.0y ?421--+=x x x 采用逐步回归法(见上表),所得回归方程为443.0032.005.0?41--=x x y 所得4x 的系数不合理(为负),说明存在共线性. (5)建立不良贷款y 对4个变量的岭回归。

应用回归分析,第7章课后习题参考答案

第7章岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大,估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵 D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k有哪几种方法? 答:最优 是依赖于未知参数 和 的,几种常见的选择方法是: 岭迹法:选择 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多;

方差扩大因子法: ,其对角线元 是岭估计的方差扩大因子。要让 ; 残差平方和:满足 成立的最大的 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除; 3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

应用回归分析第七章答案

第七章岭回归 1.岭回归估计是在什么情况下提出的? 答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。 2.岭回归估计的定义及其统计思想是什么? 答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计 阵仍然用X表示,定义为 ()()1 ?'' X X I X y βκκ- =+ ,称为 β的岭回归估计,其中k 称为岭参数。 3.选择岭参数k有哪几种主要方法? 答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。 4.用岭回归方法选择自变量应遵从哪些基本原则? 答:用岭回归方法来选择变量应遵从的原则有: (1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。 (3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。 答:依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /start=0.0/stop=1/inc=0.01.

第七章 相关分析与回归分析(补充例题)

第七章 相关分析与回归分析 例1、有10个同类企业的固定资产和总产值资料如下: 根据以上资料计算(1)协方差和相关系数;(2)建立以总产值为因变量的一元线性回归方程;(3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? 解:计算表如下: (1)协方差——用以说明两指标之间的相关方向。 2 2) )((n y x xy n n y y x x xy ∑∑∑∑- = - -= σ

35.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑ ∑∑∑∑--- = ] )(][) ([2 2 2 2 y y n x x n y x xy n r 95 .0) 980110866577 10()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为0.95,表示两指标为高度正相关。 (3) 2 2 26525 56685391098016525765915610) (-??-?= --= ∑∑∑∑∑x x n y x xy n b 90 .014109765 126400354257562556685390 6395152576591560== --= 85 .39210 65259.010 9801=? -= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,180 2009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85 .156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为1562.85万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。

应用回归分析,第7章课后习题参考答案

第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其 统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k 有哪几种方法? 答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○ 1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; ○ 2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤; ○ 3残差平方和:满足()SSE k cSSE <成立的最大的k 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这 样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量; 2. 当k 值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随

应用回归分析-第7章课后习题参考答案

应用回归分析-第7章课后习题参考答案

第7章 岭回归 思考与练习参考答案 7.1 岭回归估计是在什么情况下提出的? 答:当自变量间存在复共线性时,|X’X |≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。 7.2岭回归的定义及统计思想是什么? 答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X ’X )-1为奇异时,给X’X 加上一个正常数矩阵D, 那么X ’X+D 接近奇异的程度就会比X ′X 接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue 。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。 7.3 选择岭参数k 有哪几种方法? 答:最优k 是依赖于未知参数β和2σ的,几种常见的选择方法是: ○ 1岭迹法:选择0k 的点能使各岭估计基本稳定,岭估计符号合理,回归系数没有不合乎经济意义的绝对值,且残差平方和增大不太 多; ○ 2方差扩大因子法:11()()()c k X X kI X X X X kI --'''=++,其对角线元()jj c k 是岭估计的方差扩大因子。要让()10jj c k ≤; ○ 3残差平方和:满足()SSE k cSSE <成立的最大的k 值。 7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是: 1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这 样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

第七章 相关与回归分析s

第七章 相关回归分析 皮尔逊线性相关系数计算的基本公式: (简捷法) ])(][)([(积差法)22222∑∑∑∑∑∑∑--- ==y y n x x n y x xy n s s s y x xy γ 简单线性回归方程式为:bx a y c +=, 式中c y 是y 的估计值,a 代表直线在y 轴上的截距,b 表示直线的斜率,又称为回归系数。回归系数的涵义是,当自变量x 每增加一个单位时,因变量y 的平均增加值。 当b 的符号为正时,表示两个变量是正相关,当b 的符号为负时,表示两个变量是负相关。a 、b 都是待定参数,可以用最小平方法求得。 求解a 、b 的公式为: ∑∑∑∑∑--=22) (x x n y x xy n b ; n x b n y a ∑∑-= 相关系数与回归系数之间具有以下的关系: x y s s r b = (一) 填空题 1.在相关关系中,把具有因果关系相互联系的两个变量中起影响作用的变量称为_______,把另一个说明观察结果的变量称为________。 2.现象之间的相关关系按相关的程度分有________相关、________相关、________相关和_______相关;按相关的方向分有________相关和______ _相关;按影响因素的多少分有________相关和________相关。 3.对现象之间变量关系的研究中,对于变量之间相互关系密切程度的研究,称为_______;研究变量之间关系的方程式,根据给定的变量数值以推断另一变量的可能值,则称为_______。 4.完全相关即是________关系,其相关系数为________。 5.相关系数的变动范围介于_______与_______之间,其绝对值愈接近于_______,两个变量之间线性相关程度愈高;愈接近于_______,两个变量之间线性相关程度愈低。当_______时表示两变量正相关;_______时表示两变量负相关。 6.当变量x 值增加,变量y 值也增加,这是________相关关系;当变量x 值减少,变量y 值也减少,这是________相关关系。 7.已知13600))((=----∑y y x x ,14400)(2=--∑x x ,14900)(2 =-∑-y y ,那么,x 和y 的相关系数r 是_______。 8.已知1502=xy s ,18=x s ,11=y s ,那么变量x 和y 的相关系数r 是_______。 9.已知直线回归方程bx a y c +=中,5.17=b ;又知30=n , ∑=13500y ,12=- x , 则可知_______=a 。

《统计学》 第七章 相关分析与回归分析(补充例题)

第七章 相关分析与回归分析 (3)当固定资产改变200万元时,总产值平均改变多少?(4)当固定资产为1300万元时,总产值为多少? (1)协方差——用以说明两指标之间的相关方向。 2 2))((n y x xy n n y y x x xy ∑∑∑∑-= --=σ 035.126400100 9801 6525765915610>=?-?= 计算得到的协方差为正数,说明固定资产和总产值之间存在正相关关系。 (2)相关系数用以说明两指标之间的相关方向和相关的密切程度。 ∑∑∑∑∑∑∑---= ] )(][)([2222y y n x x n y x xy n r

95.0) 98011086657710()6525566853910(9801 65257659156102 2 =-??-??-?= 计算得到的相关系数为0.95,表示两指标为高度正相关。 (3) 2 226525 5668539109801 6525765915610)(-??-?=--= ∑∑∑∑∑x x n y x xy n b 90.014109765 12640035 42575625566853906395152576591560==--= 85.39210 6525 9.0109801=?-= -=x b y a 回归直线方程为: x y 9.085.392?+= (4)当固定资产改变200万元时,总产值平均改变多少? x y ?=?9.0,1802009.0|200=?=?=?x y 万元 当固定资产改变200万元时,总产值平均增加180万元。 (5)当固定资产为1300万元时,总产值为多少? 85.156213009.085.392|1300=?+==x y 万元 当固定资产为1300万元时,总产值为1562.85万元。 例2、试根据下列资产总值和平均每昼夜原料加工量资料计算相关系数。 解:【分析】本题中“企业数”应看成资产总值和平均每昼夜原料加工量两变量的次数,在计算相关系数的过程,要进行“加权”。

第七章统计相关分析习题

第七章相关分析习题 一、单项选择题 1、在相关分析中,要求相关的两个变量()。 A、都是随机变量 B、因变量是随机变量 C、都不是随机变量 D、自变量是随机变量 2、两个变量间的相关关系称为()。 A、单相关 B、复相关 C、无相关 D、负相关 3、相关系数的取值范围是()。 A、r=0 B、-1

D、当Y增加一个单位时,X的平均增加量 12、估计标准误差是反映()。 A、平均数代表性的指标 B、相关关系的指标 C、回归直线的代表性指标 D、序时平均数代表性指标 13、在回归分析中,要求对应的两个变量()。 A、都是随机变量 B、是对等关系 C、不是对等关系 D、都不是随机变量 14、当产量为100件时,其生产成本为300元,其中固定生产成本为600元,则成本总额对产量的回归直线方程是()。 A、y=6000+24x B、y=600+24x C、y=24+6000x D、y=2400+6x 二、多项选择题 1、直线相关分析的特点是()。 A相关系数有正负号B、两个变量是对等关系C、只有一个相关系数 D两个变量均是随机变量E、因变量是随机变量 2、当两变量完全相关时,则相关系数为()。 A、0 B、1 C、-1 D、0.5 E、0.8 3、相关系数的种类()。 A、从相关的方向分为正相关和负相关 B、从相关的表现形式分为直线相关和曲线相关 C、从相关程度分为完全相关、不完全相关、无相关 D、从影响因素多少分为单相关、复相关 E、从数值形式分为相关系数和相关指数 4、简单直线回归分析的特点是()。 A、存在两个回归方程 B、两个变量不是对等关系 C、回归系数有正负号 D、因变量是随机的,自变量是给定的 E、利用一个回归方程,两个变量可相互推算 5、估计标准误差是反映()。 A、因变量的估计值 B、自变量的估计值 C、回归方程代表性的指标 D、因变量估计值可靠程度的指标 E、自变量数列离散程度的指标 6、直线回归方程中的两个变量()。 A、两个都是随机变量 B、两个都是给定的变量 C、一个是自变量。另一个是因变量 D、一个是给定的变量,另一个是随机变量 E、必须确定哪个是自变量,哪个是因变量 7、直线回归方程中的回归系数()。

统计学习题 第七章相关与回归分析答案

第七章相关与回归分析习题 一、填空题 1、客观现象之间的数量联系有两种不同的类型:一种函数关系;另一种是相关关系。 2、现象之间是否存在相关关系是进行相关与回归分析的基础,其主要测定方法是计算相关系数。 3、若估计标准误差愈小,则根据直线回归方程计算的估计值就越能代表实际值。 4、对某实验结果做线性回归分析,得到形如y=a+bx的方程,现对回归系数b做显著性检验,该假设检验中原假设为 H0:b=0 ,备择假设为 H1:b≠0 ,若拒绝原假设,则认为 x 对y有显著的影响。 二、选择题 单选题: 1、相关分析对资料的要求是((1)) (1)两变量均为随机的(2)两变量都不是随机的 (3)自变量是随机的,因变量不是随机的 (4)因变量是随机的,自变量不是随机的 2、回归方程Y=a+bx中的回归系数b说明自变量变动一个单位时,因变量((4)) (1)变动a+b个单位(2)变动1/b个单位 (3)变动b个单位(4)平均变动b个单位 3、相关系数r的取值范围((2)) (1)-∞

应用回归分析第七章答案讲课教案

应用回归分析第七章 答案

第七章岭回归 1.岭回归估计是在什么情况下提出的? 答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。 2.岭回归估计的定义及其统计思想是什么? 答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X∣≈0时,我们设想给X'X加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方 便,标准化后的设计阵仍然用X表示,定义为 ()()1 ?'' X X I X y βκκ- =+ ,称为 β的岭回归估计,其中k称为岭参数。 3.选择岭参数k有哪几种主要方法? 答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k值。 4.用岭回归方法选择自变量应遵从哪些基本原则? 答:用岭回归方法来选择变量应遵从的原则有: (1)在岭回归的计算中,我们假定设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)当k值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我们也可以予以删除。 (3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。 5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。

Removed_应用回归分析 第七章答案

第七章 岭回归 1.岭回归估计是在什么情况下提出的? 答:当解释变量间出现严重的多重共线性时,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘法的效果变得很不理想,为了解决这一问题,统计学家从模型和数据的角度考虑,采用回归诊断和自变量选择来克服多重共线性的影响,这时,岭回归作为一种新的回归方法被提出来了。 2.岭回归估计的定义及其统计思想是什么? 答:一种改进最小二乘估计的方法叫做岭估计。当自变量间存在多重共线性,∣X'X ∣≈0时,我们设想给X'X 加上一个正常数矩阵kI(k>0),那么X'X+kI 接近奇异的程度小得多,考虑到变量的量纲问题,先对数据作标准化,为了计算方便,标准化后的设计阵仍然用X 表示,定义为()()1 ?''X X I X y β κκ-=+ ,称为β的岭回归估计,其中k 称为岭参数。 3.选择岭参数k 有哪几种主要方法? 答:选择岭参数的几种常用方法有1.岭迹法,2.方差扩大因子法,3.由残差平方和来确定k 值。 4.用岭回归方法选择自变量应遵从哪些基本原则?答:用岭回归方法来选择变量应遵从的原则有: (1)在岭回归的计算中,我们假定设计矩阵X 已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小,我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。 (2)当k 值较小时标准化岭回归系数的绝对值并不是很小,但是不稳定,随着k 的增加迅速趋于零。像这样的岭回归系数不稳定,震动趋于零的自变量,我

们也可以予以删除。 (3)去掉标准化岭回归系数很不稳定的自变量,如果有若干个岭回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某 个变量后重新进行岭回归分析的效果来确定。 5.对第5章习题9的数据,逐步回归的结果只保留了3个自变量x1,x2,x5,用y对这3个自变量做岭回归分析。 答:依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为: include'C:\Program Files\SPSSEVAL\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /start=0.0/stop=1/inc=0.01.

统计学课后习题答案第七章 相关分析与回归分析报告

第七章相关分析与回归分析 一、单项选择题 1.相关分析是研究变量之间的 A.数量关系 B.变动关系 C.因果关系 D.相互关系的密切程度 2.在相关分析中要求相关的两个变量 A.都是随机变量 B.自变量是随机变量 C.都不是随机变量 D.因变量是随机变量 3.下列现象之间的关系哪一个属于相关关系? A.播种量与粮食收获量之间关系 B.圆半径与圆周长之间关系 C.圆半径与圆面积之间关系 D.单位产品成本与总成本之间关系 4.正相关的特点是 A.两个变量之间的变化方向相反 B.两个变量一增一减 C.两个变量之间的变化方向一致 D.两个变量一减一增 5.相关关系的主要特点是两个变量之间 A.存在着确定的依存关系 B.存在着不完全确定的关系 C.存在着严重的依存关系 D.存在着严格的对应关系 6.当自变量变化时, 因变量也相应地随之等量变化,则两个变量 之间存在着 A.直线相关关系 B.负相关关系 C.曲线相关关系 D.正相关关系

7.当变量X值增加时,变量Y值都随之下降,则变量X和Y之间存在着 A.正相关关系 B.直线相关关系 C.负相关关系 D.曲线相关关系 8.当变量X值增加时,变量Y值都随之增加,则变量X和Y之间存在着 A.直线相关关系 B.负相关关系 C.曲线相关关系 D.正相关关系 9.判定现象之间相关关系密切程度的最主要方法是 A.对现象进行定性分析 B.计算相关系数 C.编制相关表 D.绘制相关图 10.相关分析对资料的要求是 A.自变量不是随机的,因变量是随机的 B.两个变量均不是随机的 C.自变量是随机的,因变量不是随机的 D.两个变量均为随机的 11.相关系数 A.既适用于直线相关,又适用于曲线相关 B.只适用于直线相关 C.既不适用于直线相关,又不适用于曲线相关 D.只适用于曲线相关 12.两个变量之间的相关关系称为

【免费下载】第七章 相关分析与回归分析

第七章 相关分析与回归分析 (一)单项选择题 1、相关分析研究的是( A ) A.变量之间关系的密切程度 B.变量之间的因果关系 C.变量之间严格的相互依存关系 D.变量之间的线性关系 2、相关关系是( B ) A 、现象间客观存在的依存关系 B 、现象间的一种非确定性的数量关系 C 、现象间的一种确定性的数量关系 D 、现象间存在的函数关系 3、下列情形中称为正相关的是( A ) A.随着一个变量的增加,另一个变量也增加 B.随着一个变量的减少,另一个变量增加 C. 随着一个变量的增加,另一个变量减少 D.两个变量无关 4、当自变量x 的值增加,因变量y 的值也随之增加,两变量之间存在着( B ) A 、曲线相关 B 、正相关 C 、负相关 D 、无相关 5、相关系数r 的取值范围是( C ) A. B. C. D.11<<-r 10≤≤r 11≤≤-r 1>r 6、当自变量x 的值增加,因变量y 的值也随之减少,两变量之间存在着( C ) A 、曲线相关 B 、正相关 C 、负相关 D 、无相关7、相关系数等于零表明两变量( C ) A.是严格的函数关系 B.不存在相关关系 C. 不存在线性相关关系 D. 存在曲线相关关系8、相关系数r 的取值范围是( C ) A 、从0到1 B 、从-1到0 C 、从-1到1 D 、无范围限制9、相关分析对资料的要求是( C ) A.两变量均为随机的 B.两变量均不是随机的 C.自变量是随机的,因变量不是随机的 D.自变量不是随机的,因变量是随机的 10、相关分析与回归分析相比,对变量的性质要求是不同的,回归分析中要求( A ) A 、自变量是给定的,因变量是随机的 B 、两个变量都是随机的 C 、两个变量都是非随机的 D 、因变量是给定的,自变量是随机的 11、回归方程 中的回归系数b 说明自变量变动一个单位时,因变量( bx a y +=?B ) A.变动b 个单位 B. 平均变动b 个单位 C. 变动a+b 个单位 D. 变动a 个单位

第七章回归与相关分析练习及答案

第七章回归与相关分析练习及答案

第七章回归与相关分析 一、填空题 1.现象之间的相关关系按相关的程度分 为、和;按相关的形式分 为和;按影响因素的多少分 为和。 2.两个相关现象之间,当一个现象的数量由小变大,另一个现象的数量,这种相关称为正相关;当一个现象的数量由小变大,另一个现象的数量,这种相关称为负相关。 3.相关系数的取值范围是。 4.完全相关即是关系,其相关系数 为。 5.相关系数,用于反映条件下,两变量相关关系的密切程度和方向的统计指标。 6.直线相关系数等于零,说明两变量之间;直线相关系数等1,说明两变量之间;直线相关系数等于—1,说明两变量之间。 7.对现象之间变量的研究,统计是从两个方面进行的,一方面是研究变量之间关系的,这种研究称为相关关系;另一方面是研究关于自变量和因变量之间的变动关系,用数学方程式表达,称 为。 8.回归方程y=a+bx中的参数a是,b 是。在统计中估计待定参数的常用方法 是。 9. 分析要确定哪个是自变量哪个是因变量,在这点上它与不同。 10.求两个变量之间非线性关系的回归线比较复杂,在许多情况下,非线性回归问题可以通过化成来解决。 11.用来说明回归方程代表性大小的统计分析指标是。 12.判断一条回归直线与样本观测值拟合程度好坏的指标 是。 二、单项选择题 1.下面的函数关系是( ) A销售人员测验成绩与销售额大小的关系 B圆周的长度决定于它的半径 C家庭的收入和消费的关系 D数学成绩与统计学成绩的关系 2.相关系数r的取值范围( ) A -∞

第七章 相关分析与回归分析

第七章相关分析与回归分析 1.从某一行业中随机抽取12个企业,各企业产量与生产费用的数据如下表: 试根据上表材料: (1)绘制散点图。 (2)计算相关系数。 (3)配合一条直线回归方程。 解:(1) (2)

9072 .084 .7883871520 1938316190129488836812193894815906212)()())((2 22 222== -?-??-?= ---=∑∑∑∑∑∑∑y y n x x n y x xy n r (3)设回归方程为?y a bx =+ 4423.0161712 71520 9488836812193894815906212)())((2 22==-??-?=--= ∑∑∑∑∑x x n y x xy n b 1938948 0.4423126.5583 1212 a y bx =-=-?= 所以回归方程为?126.55830.4423y x =+ 2.某县城研究居民月家庭人均生活费支出和月家庭收入的相互关系,随机抽样10户进行调查,其结果如下: 利用上表材料: (1)绘制散点图并观察两变量之间是否存在线性关系。 (2)计算相关系数,建立回归方程。 (3)计算估计标准误差。 (4)测算人均收入为200时,其人均生活费应为多少元。 解:(1)

(2) 9761 .054 .3867337750 1021 106057101450218500101021 145015182010)()())((2 22 222== -?-??-?= ---=∑∑∑∑∑∑∑y y n x x n y x xy n r 设回归方程为?y a bx =+ 4576.082500 37750 1450218500101021 145015182010)()())((2 2 222== -??-?= ---=∑∑∑∑∑∑∑y y n x x n y x xy n b 10211450 0.457635.7481010 a y bx =-= -?= 所以回归方程为?35.7480.4576y x =+

相关文档
相关文档 最新文档