文档库 最新最全的文档下载
当前位置:文档库 › 091 第九章线性相关与回归

091 第九章线性相关与回归

091 第九章线性相关与回归
091 第九章线性相关与回归

解:某工业企业的某种产品产量与单位成本资料如下:

年份 产品产量(万件)Xi 单位成本(元/件)Yi

XiYi 2Xi

2Yi

1998 2 73 146 4 5329 1999 3 72 216 9 5184 2000 4 71 284 16 5041 2001 3 73 219 9 5329 2002 4 69 276 16 4761 2003 5 68 340 25 4624 2004 6 66 396 36 4356 2005 7 65 455 49 4225 合计

34

557

2332

164

38849

(1)设产品产量为X ,单位成本为Y ,建立直角坐标,绘制相关图。由散点图形看出两者为

线性关系,可以配合简单直线回归方程。

某工业企业的某种产品产量与单位成本关系图64

6668707274

2

4

68

产品产量(万件)

单位成本(元/件)

年份1998-2005年

(2)建立简单直线回归方程:bXi a Yi +=^

8077.1-156282-34

16485573423328)(21

1

2

2

11

1==???=--=

∑∑∑∑∑=====--n

i n

i n i n i n

i Xi Xi n Yi Xi XiYi n b 3077.778

34)8077.1(8557n

a 1

1

=?-=

=

∑∑==--n

Xi

b

Yi

n

i n

i

Xi Yi 8077.13077.77^

-=

(3)每当产品产量增加1万件时,单位成本减少1.8077元/件。

(4)

9689

.0557388498341648557

3423328)i (2

21

2

1

2

1

2

1

2

1

1

1

-=????=

=

∑∑∑∑∑∑∑=======----()--n

i n i n i n i n

i n

i n

i Yi Yi n X Xi n Yi

Xi XiYi n R

当显著性水平α=0.05时,自由度=n-m=8-2=6时,查相关系数临界值表得:707.0)6(05.0=R

∵)(>,6707.09689.005

0R R ==,故在α=0.05显著水平上,检验通过,说明两变量之间相关关系显著。

(5)6946

.02

82332

)8077.1(5573077.7738849m

1

1

1

2

=-?--?-==

∑∑∑===---n XiYi

b Yi a Yi S n i n i n

i y (6)当

80=X 万件时,代入简单直线回归方程得:

件)元/(8461.6288077.13077.77^

=?-=Yi

当概率为95.45%时,该方程的置信区间为:

6946.028461.622i ^

?±=±y S Y

即当产量为8万件时,在95.45%的概率保证程度下,单位成本的置信区间为61.4569—64.2353元/件。

简单直线回归方程计算表 单位:(万元) 序号

固定资产原值(万元)

y i

原材料加工

量(万吨)

y x i

i

x

2i

y

2i

x i

1 2 3 4 5 6 7 8 9 10 11 300 400 400 500 500 500 600 600 600 700 700 1.0 3.0 2.1 1.0 3.5 6.3 1.4 1.8 3.3 0.9 7.7 300 1200 840 500 1750 3150 840 1080 1980 630 5390 1.0 9.0 4.41 1.0 12.25 39.69 1.96 3.24 10.89 0.81 59.29 90000 160000 160000 250000 250000 250000 360000 360000 360000 490000 490000 合计 5800

32

17660

117.94

3220000

建立简单直线回归方程i x b +=a y ^

i

估计参数。列表计算有关数据(见表18-1),计算结果得:

b=

68.634

.12978660

34.12975800321942601

2

1

1

1

≈=?-=

-∑∑∑∑==-=n

i i n

i i

n i i n i i i x n y x y x n

a=

84.50711

3268.61158001

1

≈?-=

-∑∑==n

x

b

n

y

n

i i

n

i i

所求简单直线回归方程为:

x i i y 68.684.507^

+=

上式表明原材料加工量每增加1万吨,固定资产将增加6.68万元,二者为正相关关系。

(2)计算相关系数:

R=39

.01780000

34.2738660

33640000

35420000102434.12978660

5800

322000011)

32(94.117115800

321766011)()(n 2

2

2

1

2

1

2

2

1

1

2

1

n 1≈=--=

-?-??-?=

----∑∑∑∑∑∑======n

i i

n

i i

n

i i n

i i n

i i

i i

i i y y x x y

x y x n n

当显著性水平05.0=a 、自由度=n-m=11-2=9时,查相关系数临界值表得:602.0905.0=)(R 判别。因R =0.39<0.602=)

(905.0R ,故在05.0a =显著性水平上,检验不通过。

(1)估计参数:

b=

0344.01764006069

1890

53550073.31189093187)

(n 2

1

1

2

2

11

1

==-??-?=

--∑∑∑∑∑=====n i n

i i i n

i i

n i i n i i i x x n y x y x a=

8166.47

1890

0344.073.311

1

-=?-=

-∑∑==n

x

b

n

y

n

i i

n

i i

所以y 与x 的简单直线回归方程为:

i i x y

0344.08166.4?+-= (2)计算相关系数:

R=

∑∑∑∑∑∑∑=======---n i n

i i i n i n i i i n

i n

i i

i i y y n x x n y x y 1

1

2

2

1

1

22

n

1

i 1

1

i )()(x n

=

2

23.3115.1747189053550073

.31189093187-?-??-?=

02

.165316069

=0.9340

在显著性水平1.00=?,自由度=527n =-=-m 时,查相关系数临界值表得:

874.0)5(01.0=R 。

因)5(874.09340.0R 01.0R =>=,故在01.0=?显著性水平上,检验通过,说明两变量之间相关关系显著。 (3)计算估计标准误差:

y S =

m

n y x b y a y

n

i n i n

i i

i i i

---∑∑∑===1

1

1

2

=

2793180344.03.31)8166.4(15.174-?-?--=5

37038

.4=0.9350

(4)置信区间。当概率为95.45%时,该方程的置信区间为:

9350.020344.08166.42y

??±+-=±i y x S

即在95.45%的概率保证程度下,该方程的置信区间为[i

x 344.00866.66+-,

i x 344.00466.92+-]

设:某产品的产量为x ,生产费用为y ,依题意得: (1)试确定该简单直线回归方程

i bx a y +≡∧

b=2

6216?+=a a=4

i x y 24+=∧

(2)试求该产品产量与生产费用之间的相关系数 92x =σ 3x =σ

492y =σ 7y =σ

2

x

2x y b σσ=

9

22

xy σ=

182xy =σ

7

673182=?==Y X XY R σσσ

所以该产品产量与生产量之间的相关系数为6/7

题21:某企业某产品1996—2005年利润与单位成本统计数据如下: 年份 利润率(%)Y 单位成本(元/件)X 'X =X

1

'X Y

2Y

2'X

1996 9 100 0.01 0.09 81 1×4

_10

1997 10 95 0.0105 0.105 100 1.1025×4

_10 1998

11

88

0.0114

0.1254

121

1.2996×4

_10

1999 13 84 0.0119 0.1547 169 1.4161×4

_10 2000 15 80 0.0125 0.1875 225 1.5625×4

_10 2001 16 79 0.0127 0.2032 256 1.6129×4

_10 2002 17 75 0.0133 0.2261 289 1.7689×4

_10 2003 20 70 0.0143 0.286 400 2.0449×4

_10 2004 22 68 0.0147 0.3234 484 2.1609×4

_10 2005 25 66 0.0152 0.38 625 2.3104×4

_10

合计

158

805

0.1265

2.0813

2750

1.62787×3

_10

要求:(1)根据上述数据绘制相关图,判别该数列相关与回归的种类。 解:

某企业某产品1996--2005年利润与单位成本统计数据如下:0510152025

300

20

406080100

120

单位成本(元/件)

利润率(%)

系列1

从图判别该数列属于负相关,回归的种类是:双曲线回归。

(2)配合适当的回归方程。 解:建立双曲线回归方程:

y

?=a+b X

1,令'X =

X

1

,得:y

?= a+b 'X b =

∑∑∑∑∑=====--n

i n

i n

i n

i n i X X n Y

X

YX n 1

1

2

2'2'1

1'

1

'

)(=

2

3-1265

.0-1062787.110158

1265.0-0813.210????=2987.88

a=n

X

b

n

Y

n

i n

i ∑∑==-1

'

1

=10

1265.088.298710

158?-=-21.996682≈-21.997

得:双曲线回归方程:

Y

?=-21.997+2987.88X

1 (3)在显著性水平01.0=?时,对回归方程进行显著性检验。

解:1.计算相关指数:

R=

2

1

1

221

'1

2'1

1

'

1'

)()(∑∑∑∑∑∑∑==+====---n

i n

i n i n i n

i n

i n i y y n x x n y

x

y x n

=2

2

3

158

2750101265.01062787.110158

1265.00813.210-?-???-?-=0.988

2.显著性检验:

取显著水平01.0=?时,自由度n-m=10-2=8 查相关系数临界值表得:765.0)8(01.0=R

由于随单位成本的减少,利润率增加,所以两者之间为负相关关系。

相关指数取负值为-0.988。因为|R|>765.0)8(01.0=R ,故在01.0=?显著性水平上,检验通过,说明两变量之间相关关系显著。

(4)若该企业2006年产品单位成本降至60元/件,产量为8万件时,预期可获得多少利润?

解:因为Y

?=-21.997+2987.88X

1

代入60元/件,得:Y

?=-21.997+2987.8860

1

=27.801% 故当产量为8万件时,得:80000?27.801%=22240.8(元)

答:预期可获得22240.8元的利润。

由散点图可看出,可拟合简单回归方程

9974.130425

94469

256.125151278255955131.1231189364290363468)94469(366223253×251512789446958325779425)(1

1

25

21

1

2

1

1251

252=?-=

-

=

≈=-?-?=--=

∑∑∑∑∑∑∑==+====+=+n

y b n

y

a y y n y y y y n

b n

t t

n

t t n

t n

t t t n

t t

n t t n t t t

所求简单直线回归方程为:

99744

.1304256.1?25+=+x y t

自身相关系数

9983

.0998315775.04

.29085330290363468

)

151278(93003793225)

94469(36622325325151278

9446958325779425)()

(2

2

2

1

1

25251

1

2

1

1

251

2522≈≈=

-?-??-?=---+=

∑∑∑∑∑∑∑==++====+=+n t n

t t t n t n

t t t y

t t

n t t n t t t y y n y y n y y y y n R

取显著性水平05.0=?自由度23225=-=-m n

402.0)23(05.0=R

402

.0)23(9983.005.0=>=R R

故在05.0=?显著性水平上,检验通过,说明两变量之间相关关系显著。 预测:将1983的人口数代入方程,得2008人口数为

38144.766599744.130********.1?=+?=y (万人)

23.某市1994-2005年主要百货商店营业额,在业人员总收入和当年竣工住宅面积的统计数据如下表:

年份

营业额(千万元) y i 在业人员总收入(千

当年

竣工住宅面积

x i1x i2

x 2i1 x 2i2

x i1y i x i2y i

y i 2

万元) x i1

(万平方米)x i2 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 8.2 8.3 8.6 9.0 9.4 9.4 12.2 13.7 15.5 18.3 23.3 27.3 76 78 80 83 85 88 116 129 148 183 210 249 9.0 7.8 5.5 5.0 10.8 3.5 6.2 10.8 18.4 15.7 32.5 45.5 684 608.4 440 415 918 308 719.2 1393.2 2723.2 2873.1 6825 11329.5

5776 6084 6400 6889 7225 7744 13456 16641 21904 33489 44100 62001

81 60.84 30.25 25 116.64 12.25 38.44 116.64 338.56 246.49 1056.25 2070.25

623.2 647.4 688 747 799 827.2 1415.2 1767.3 2294 3348.9 4893 6797.7

73.8 64.74 47.3 45 101.52 32.9 75.64 147.96 285.2 287.31 757.25 1242.15

67.24 68.89 73.96 81 88.36 88.36 148.84 187.69 240.25 334.89 542.89 754.29

合计

163.2

1525

170.7

29236.6 231709 4192.61 24847.9 3160.77 2667.66

试对该市统计数据进行复相关与回归分析;若该市在业人员总收入和当年竣工住宅面积在

2005的基础上分别增长15%和17%,在95.45%的概率保证程度下,对该市2006年主要百货商店营业额作区间估计。

解:(1)设在业人员总收入(千万元)x i1 ,当年竣工住宅面积(万平方米)x i2 ,营业额(千

万元)

y i ,并假设y i 与x i1 、x i2之间存在线性关系。

(2)建立二元线性回归方程: 22110?i i i x b x b b y

++=

(3)估计参数。将表中的数据代入其标准方程得:

2

202102

1061.41926.292367.17077.31606.2923623170915259.248477.1701525122.163b b b b b b b b b ++=++=++= 化简得:

2

1214025.1764475.754325.839475.75439167.379069.4107b b b b +=+=

用消元法解上述联立方程,得三个参数分别为:

0827

.00919.07446.0210===b b b 将参数代入二元线性方程,得:

210827.00919.07446.0?i i i x x y

++=

(4)计算复相关系数:

9986.0)

12

2.163(1266.266777

.31600827.09.248470919.02.1637446.066.26671)(12

1221

1

1

1

221102=?-?-?-?--

=-----

=∑∑∑∑∑=====n

i i n

i n i n i n

i i

i i i i i

y n y y x b y x b y b y

R

(5)显著性检查。取显著水平α=0.05,自由度=n-m=12-3=9,查“相关系数临界表”

得697.0)9(05.0=R ,因为)9(05.0R R >,故在α=0.05显著水平上,检验通过,说

明营业额、在业人员总收入和当年竣工住宅面积之间相关关系非常显著。

(6)计算估计标准误差:

3687.09

223591

.131277

.31600827.09.248470919.02.1637446.066.26671

1

1

1

221102==

-?-?-?-=

----=

∑∑∑∑====m

n y x b y x b y b y

S n

i n i n i n

i i

i i i i i

y

(7)预测。当该市在业人员总收入和当年竣工住宅面积在2005得基础上分别增长

15%和17%时,即x i1=249×115%=286.35(千万元), x i2=45.5×117%=53.235(万平方米),得:

千万元)(4627.31?235.530827.035.2860919.07446.0?=?+?+=i i y

y

在95.45%的概率保证程度下,该市得在业人员总收入置信区间为:

千万元,0.36872 31.4627?±即在3.07253亿元至3.22001亿元之间。

04非线性回归模型的线性化 (3)

非线性回归模型的线性化 以上介绍了线性回归模型。但有时候变量之间的关系是非线性的。例如 y t = α 0 + α11βt x + u t y t = α 0 t x e 1α+ u t 上述非线性回归模型是无法用最小二乘法估计参数的。可采用非线性方法进行估计。估计过程非常复杂和困难,在20世纪40年代之前几乎不可能实现。计算机的出现大大方便了非线性回归模型的估计。专用软件使这种计算变得非常容易。但本章不是介绍这类模型的估计。 另外还有一类非线性回归模型。其形式是非线性的,但可以通过适当的变换,转化为线性模型,然后利用线性回归模型的估计与检验方法进行处理。称此类模型为可线性化的非线性模型。下面介绍几种典型的可以做线性化处理的非线性模型。 ⑴ 指数函数模型 y t = t t u bx ae + (4.1) b >0 和b <0两种情形的图形分别见图4.1和4.2。显然x t 和y t 的关系是非线性的。对上式等号两侧同取自然对数,得 Lny t = Lna + b x t + u t (4.2) 令Lny t = y t *, Lna = a *, 则 y t * = a * + bx t + u t (4.3) 变量y t * 和x t 已变换成为线性关系。其中u t 表示随机误差项。 图4.1 y t =t t u bx ae +, (b > 0) 图4.2 y t =t t u bx ae +, (b < 0) ⑵ 对数函数模型 y t = a + b Ln x t + u t (4.4) b >0和b <0两种情形的图形分别见图4.3和4.4。x t 和y t 的关系是非线性的。令x t * = Lnx t , 则 y t = a + b x t * + u t (4.5) 变量y t 和x t * 已变换成为线性关系。

第10章-简单线性回归分析思考与练习参考答案

第10章 简单线性回归分析 思考与练习参考答案 一、最佳选择题 1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。 A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错 2.如果相关系数r =1,则一定有( C )。 A .总SS =残差SS B .残差SS =回归 SS C .总SS =回归SS D .总SS >回归SS E. 回归MS =残差MS 3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。 A .ρ=0时,r =0 B .|r |>0时,b >0 C .r >0时,b <0 D .r <0时,b <0 E. |r |=1时,b =1 4.如果相关系数r =0,则一定有( D )。 A .简单线性回归的截距等于0 B .简单线性回归的截距等于Y 或X C .简单线性回归的残差SS 等于0 D .简单线性回归的残差SS 等于SS 总 E .简单线性回归的总SS 等于0 5.用最小二乘法确定直线回归方程的含义是( B )。 A .各观测点距直线的纵向距离相等 B .各观测点距直线的纵向距离平方和最小 C .各观测点距直线的垂直距离相等 D .各观测点距直线的垂直距离平方和最小

E .各观测点距直线的纵向距离等于零 二、思考题 1.简述简单线性回归分析的基本步骤。 答:① 绘制散点图,考察是否有线性趋势及可疑的异常点;② 估计回归系数;③ 对总体回归系数或回归方程进行假设检验;④ 列出回归方程,绘制回归直线;⑤ 统计应用。 2.简述线性回归分析与线性相关的区别与联系。 答:区别: (1)资料要求上,进行直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。直线相关分析只适用于双变量正态分布资料。 (2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。 (3)两个系数的意义不同。r 说明具有直线关系的两变量间相互关系的方向与密切程度,b 表示X 每变化一个单位所导致Y 的平均变化量。 (4)两个系数的取值范围不同:-1≤r ≤1,∞<<∞-b 。 (5)两个系数的单位不同:r 没有单位,b 有单位。 联系: (1)对同一双变量资料,回归系数b 与相关系数r 的正负号一致。b >0时,r >0,均表示两变量X 、Y 同向变化;b <0时,r <0,均表示两变量X 、Y 反向变化。 (2)回归系数b 与相关系数r 的假设检验等价,即对同一双变量资料,r b t t =。由于相关系数r 的假设检验较回归系数b 的假设检验简单,故在实际应用中常以r 的假设检验代替b 的假设检验。 (3)用回归解释相关:由于决定系数2 R =SS 回 /SS 总 ,当总平方和固定时,回归平方 和的大小决定了相关的密切程度。回归平方和越接近总平方和,则2 R 越接近1,说明引入相关的效果越好。例如当r =0.20,n =100时,可按检验水准0.05拒绝H 0,接受H 1,认为两变量有相关关系。但2 R =(0.20)2=0.04,表示回归平方和在总平方和中仅占4%,说明

非线性回归分析

SPSS—非线性回归(模型表达式)案例解析 2011-11-16 10:56 由简单到复杂,人生有下坡就必有上坡,有低潮就必有高潮的迭起,随着SPSS 的深入学习,已经逐渐开始走向复杂,今天跟大家交流一下,SPSS非线性回归,希望大家能够指点一二! 非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型 还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢? 答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究: 第一步:非线性模型那么多,我们应该选择“哪一个模型呢?” 1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型 点击“图形”—图表构建程序—进入如下所示界面:

点击确定按钮,得到如下结果:

放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高! 点击“分析—回归—曲线估计——进入如下界面

在“模型”选项中,勾选”二次项“和”S" 两个模型,点击确定,得到如下结果: 通过“二次”和“S “ 两个模型的对比,可以看出S 模型的拟合度明显高于

第九章 相关与简单线性回归分析

第九章相关与简单线性回归分析 第一节相关与回归的基本概念 一、变量间的相互关系 现象之间存在的依存关系包括两种:确定性的函数关系和不确定性的统计关系,即相关关系。 二、相关关系的类型 1、从相关关系涉及的变量数量来看:简单相关关系;多重相关或复相关。 2、从变量相关关系变化的方向看:正相关;负相关。 3、从变量相关的程度看:完全相关;不相关;不完全相关。 二、相关分析与回归分析概述 相关分析就是用一个指标(相关系数)来表明现象间相互依存关系的性质和密切程度;回归分析是在相关关系的基础上进一步说明变量间相关关系的具体形式,可以从一个变量的变化去推测另一个变量的变化。 相关分析与回归分析的区别: 目的不同:相关分析是用一定的数量指标度量变量间相互联系的方向和程度;回归分析是要寻求变量间联系的具体数学形式,要根据自变量的固定值去估计和预测因变量的值。 对变量的处理不同:相关分析不区分自变量和因变量,变量均视为随机变量;回归区分自变量和因变量,只有因变量是随机变量。 注意:相关和回归分析都是就现象的宏观规律/平均水平而言的。 第二节简单线性回归 一、基本概念 如果要研究两个数值型/定距变量之间的关系,以收入x与存款额y为例,对n个人进行独立观测得到散点图,如果可以拟合一条穿过这一散点图的直线来描述收入如何影响存款,即简单线形回归。 二、回归方程 在散点图中,对于每一个确定的x值,y的值不是唯一的,而是符合一定概率分布的随机变量。如何判断两个变量之间存在相关关系?要看对应不同的x,y的概率分布是否相同/y的总体均值是否相等。 在x=xi的条件下,yi的均值记作E(yi),如果它是x的函数,E(yi) =f(xi),即回归方程,就表示y和x之间存在相关关系,回归方程就是研究自变量不同取值时,因变量y的平均值的变化。当y的平均值和x呈现线性关系时,称作线性回归方程,只有一个自变量就是一元线性回归方程。 一元线性回归方程表达式:E(y i )= α+βx i ,其中α称为常数,β称为回

第十九章直线相关与回归试题

第十九章 直线相关与回归 A 型选择题 1、若计算得一相关系数r=0.94,则( ) A 、x 与y 之间一定存在因果关系 B 、同一资料作回归分析时,求得回归系数一定为正值 C 、同一资料作回归分析时,求得回归系数一定为负值 D 、求得回归截距a>0 E 、求得回归截距a ≠0 2、对样本相关系数作统计检验(H 0:ρ=0),结果0.05()v r r >,统计结论是( )。 A. 肯定两变量为直线关系 B 、认为两变量有线性相关 C 、两变量不相关 B. 两变量无线性相关 E 、两变量有曲线相关 3、若1210.05()20.01(),v v r r r r >>,则可认为( )。 A. 第一组资料两变量关系密切 B. 第二组资料两变量关系密切 C 、难说哪一组资料中两变量关系更密切 D 、两组资料中两变量关系密切程度不一样 E 、以上答案均不对 4、相关分析可以用于( )有无关系的研究 A 、性别与体重 B 、肺活量与胸围 C 、职业与血型 D 、国籍与智商 E 、儿童的性别与体重 5、相关系数的假设检验结果P<α,则在α水平上可认为相应的两个变量间( ) A 、有直线相关关系 B 、有曲线相关关系 C 、有确定的直线函数关系 D 、有确定的曲线函数关系 E 、不存在相关关系 6、根据样本算得一相关系数r ,经t 检验,P <0.01说明( )

A 、两变量有高度相关 B 、r 来自高度相关的相关总体 C 、r 来自总体相关系数ρ的总体 D 、r 来自ρ≠0的总体 E 、r 来自ρ>0的总体 7、相关系数显著检验的无效假设为( ) A 、r 有高度的相关性 B 、r 来自ρ≠0的总体 C 、r 来自ρ=0的总体 D 、r 与总体相关系数ρ差数为0 E 、r 来自ρ>0的总体 8、计算线性相关系数要求( ) A .反应变量Y 呈正态分布,而自变量X 可以不满足正态分布的要求 B .自变量X 呈正态分布,而反应变量Y 可以不满足正态分布的要求 C .自变量X 和反应变量Y 都应满足正态分布的要求 D .两变量可以是任何类型的变量 E .反应变量Y 要求是定量变量,X 可以是任何类型的变量 9、对简单相关系数r 进行检验,当检验统计量t r >t 0.05(ν)时,可以认为两变量x 与Y 间( ) A .有一定关系 B .有正相关关系 C .无相关关系 D .有直线关系 E .有负相关关系 10、相关系数反映了两变量间的( ) A 、依存关系 B 、函数关系 C 、比例关系 D 、相关关系 E 、因果关系 11、)2(,2/05.0-

非线性回归分析

非线性回归问题, 知识目标:通过典型案例的探究,进一步学习非线性回归模型的回归分析。 能力目标:会将非线性回归模型通过降次和换元的方法转化成线性化回归模型。 情感目标:体会数学知识变化无穷的魅力。 教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的 过程中寻找更好的模型的方法. 教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学方式:合作探究 教学过程: 一、复习准备: 对于非线性回归问题,并且没有给出经验公式,这时我们可以画出已知数据的散点图,把它与必修模块《数学1》中学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决. 二、讲授新课: 1. 探究非线性回归方程的确定: 1. 给出例1:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间 2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. ① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模. ② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量. ③ 在上式两边取对数,得21ln ln y c x c =+ ,再令ln z y =,则21ln z c x c =+, 可以用线性回归方程来拟合. ④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-$,因此红铃虫的产卵数对温度的非线性回归方程为$0.272 3.843x y e -=. ⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 三、合作探究 例 2.:炼钢厂出钢时所用的盛钢水的钢包,在使用过程中,由于钢液及炉渣对包衬耐火材料的侵蚀,使其容积不断增大,请根据表格中的数据找出使用次数x 与增大的容积y 之间的关系.

简单线性相关(一元线性回归分析)..

第十三讲 简单线性相关(一元线性回归分析) 对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。 一、一元线性回归模型及其对变量的要求 (一)一元线性回归模型 1、一元线性回归模型示例 两个变量之间的真实关系一般可以用以下方程来表示: Y=A + BX + ε 方程中的A 、B 是待定的常数,称为模型系数,ε是残差,是以X 预测Y 产生的误差。 两个变量之间拟合的直线是: y a bx ∧ =+ y ∧ 是 y 的拟合值或预测值,它是在X 条件下Y 条件均值的估计 a 、 b 是回归直线的系数,是总体真实直线A 、B 的估计值,a 即 constant 是截距,当自变量的值为0时,因变量的值。 b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。 可以对回归方程进行标准化,得到标准回归方程: y x ∧ =β β 为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(Z X X S j j j = -),因变量Y 的标准差的平均变化。

由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。 (二)对变量的要求:回归分析的假定条件 回归分析对变量的要求是: 自变量可以是随机变量,也可以是非随机变量。自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。 回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。 (三)数据要求 模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。 因变量:要求间距测度,即定距变量。 自变量:间距测度(或虚拟变量)。 二、在对话框中做一元线性回归模型 例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。 本例使用的数据为st2004.sav,操作步骤及其解释如下: (一)对两个变量进行描述性分析 在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。 打开st2004.sav数据→单击Graphs → S catter →打开Scatterplot 对话框→单击Simple →单击 Define →打开 Simple Scatterplot对话框→点选 agdp到 Y Axis框→点选 edudazh到 X Aaxis框内→单击 OK 按钮→在SPSS的Output窗口输出所需图形。 图12-1 大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图

浅谈非线性回归模型的线性化

浅谈非线性回归模型的线性化 广东省惠州市惠阳区崇雅中学高中部 卢瑞勤(516213) 回归分析在各个领域中都有十分重要的作用,比如:在财务中可以用回归分析进行财务预测;在医疗检验中可以用回归分析进行病理预报等等。高中新课标教材就在《必修3》和《选修2-3》中分别增加了《线性回归》和《回归分析》的内容,介绍了求线性回归方程的方法。但在实际问题中,变量间的关系并非总是线性关系,本文结合本人的教学实践,对教材中的这两部分内容进行适当延伸,谈谈对一些可线性化的非线性回归模型的线性化问题,供各位同行在教学时参考。 一、什么是可线性化的非线性回归模型 线性回归模型的基本特征是预报变量可以表示成解释变量和一个系数相乘的和,即预报变量y 可以表示成解释变量i x (i =1,2,3,……)的如下形式:0112233y a a x a x a x =++++ ,其中变量i x 是以其原型(而不是以n i x 或其它)的形式出现,变量y 是各变量i x 的线性函数。而有些回归模型不具备这个特点,但是可以通过适当的代数变换转化成这种形式,我们称这类回归模型为可线性化的回归模型。 在本文中,我们只讨论只有一个解释变量可线性化的非线性回归模型的线性化。 二、非线性回归模型的线性化的基本思路 非线性回归模线性化的基本思路是:由已知数据,确定解释变量和预报变量,作出散点图,根据经验,确定回归曲线的类型,然后作适当的代数变换,若变换后散点图体现较好的线性关系,即可将其化成线性形式求解,最后还原到原来的回归曲线。如果回归曲线可用多种形式表示,可以各自将其线性化后求解,再用相关系数2 R 进行拟合效果分析,2 R 越大,拟合效果越好,所求的回归方程也就越精确。 三、非线性回归模型的线性化的常用方法 可线性化的非线性回归模型有以下几种常见类型: (1)双曲线型,其形式为 1a b y x =+,其变换为1y y '=, 1 x x '=,变换后的形式为y b ax ''=+ (2)幂函数型,其形式为b y ax = ,可以变形为ln ln ln y a b x =+,作变换ln y y '= ,ln x x '= ,变换后的形式为y a bx ''=+ (3)指数函数型,其形式为bx y ae = ,以变形为ln ln y a bx =+,作变换ln y y '=,ln a a '= ,变换后的形式为y a bx ''=+ (4)对数函数型,其形式为ln y a b x =+,作变换ln x x '=,变换后的形式为y a bx '=+ 下面以高中新课标数学教材《选修2-3》一道习题为例加以说明 【例】在某地区的一段时间内观察到的不小于某震级x 的地震个数y 数据如下表,试建立回归方程表述二者之间的关系。

非线性回归分析(教案)

1.3非线性回归问题, 知识目标:通过典型案例的探究,进一步学习非线性回归模型的回归分析。 能力目标:会将非线性回归模型通过降次和换元的方法转化成线性化回归模型。 情感目标:体会数学知识变化无穷的魅力。 教学要求:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 教学重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的 过程中寻找更好的模型的方法. 教学难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学方式:合作探究 教学过程: 一、复习准备: 对于非线性回归问题,并且没有给出经验公式,这时我们可以画出已知数据的散点图,把它与必修模块《数学1》中学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量代换,把问题转化为线性回归问题,使其得到解决. 二、讲授新课: 1. 探究非线性回归方程的确定: 1. 给出例1:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的/y 个 2. 讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. ① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模. ② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y =2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量. ③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,可以用线性回归方程来拟合. ④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为 0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=. ⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行. 其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 三、合作探究 例 2.:炼钢厂出钢时所用的盛钢水的钢包,在使用过程中,由于钢液及炉渣对包衬耐火材料的侵蚀,使其容积不断增大,请根据表格中的数据找出使用次数 x 与增大的容积y 之间的关系.

第8章 相关分析与回归分析及答案

第八章相关与回归分析 一、本章重点 1.相关系数的概念及相关系数的种类。事物之间的依存关系,可以分为函数关系和相关关系。相关关系又有单向因果关系和互为因果关系;单相关和复相关;线性相关和非线性相关;不相关、不完全相关和完全相关;正相关和负相关等类型。 2.相关分析,着重掌握如何画相关表、相关图,如何测定相关系数、测定系数以及进行相关系数的推断。相关表和相关图是变量间相关关系的生动表示,对于未分组资料和分组资料计算相关系数的方法是不同的,一元线性回归中相关系数和测定系数有着密切的关系,得到样本相关系数后还要对总体相关系数进行科学推断。 3.回归分析,着重掌握一元回归的基本原理方法,一元回归是线性回归的基础,多元线性回归和非线性回归都是以此为基础的。用最小平方法估计回归参数,回归参数的性质和显著性检验,随机项方差的估计,回归方程的显著性检验,利用回归方程进行预测是回归分析的主要内容。 4.应用相关与回归分析应注意的问题。相关与回归分析都有它们的应用范围,必须知道在什么情况下能用,什么情况下不能用。相关分析和回归分析必须以定性分析为前提,否则可能会闹出笑话,在进行预测时选取的样本要尽量分散,以减少预测误差,在进行预测时只有在现有条件不变的情况下才能进行,如果条件发生了变化,原来的方程也就失去了效用。 二、难点释疑 本章难点在于计算公式多,不容易记忆,所以更要注重计算的练习。为了掌握基本计算的内容,起码应认真理解书上的例题,做完本指导书上的全部计算题。初学者可能会感到本章公式多且复杂,难于记忆,其实只要抓住Lxx、Lxy、Lyy 这三个记号,记住它们的展开式,几个主要的公式就不难记忆了。如果能自己把这些公式推证一下,搞清其关系,那就更容易记住了。 三、练习题 (一)填空题 1事物之间的依存关系,根据其相互依存和制约的程度不同,可以分为(函数关系)和(相关关系)两种。 2.相关关系按相关关系的情况可分为()和();按自变量的多少分(单相关)和(复相关);按相关的表现形式分(线性相关)和(非线性相关);按相关关系的密切程度分(完全相关)、(不完全相关)和(不相关);按相关关系的方向分(正相关)和(负相关)。 3.回归方程只能用于由(自变量)推算(因变量)。 4.一个自变量与一个因变量的线性回归,称为(一元线性回归) 5.估计变量间的关系的紧密程度用(相关系数) 6.在相关分析中,要求两个变量都是随机的,而在回归分析中要求自变量是(不是随机的),因变量是(随机的)。 7.已知剩余变差为250,具有12对变量值资料,那么这时的估计标准误差是()。 8.将现象之间的相关关系,用表格来反映,这种表称为(相关表),将现象之间的相关关系用图表示称(相关图)。

非线性回归分析

非线性回归分析(转载) (2009-10-23 08:40:20) 转载 分类:Web分析 标签: 杂谈 在回归分析中,当自变量和因变量间的关系不能简单地表示为线性方程,或者不能表示为可化为线性方程的时侯,可采用非线性估计来建立回归模型。 SPSS提供了非线性回归“Nonlinear”过程,下面就以实例来介绍非线性拟合“Nonlinear”过程的基本步骤和使用方法。 应用实例 研究了南美斑潜蝇幼虫在不同温度条件下的发育速率,得到试验数据如下: 表5-1 南美斑潜蝇幼虫在不同温度条件下的发育速率 温度℃17.5 20 22.5 25 27.5 30 35 发育速率0.0638 0.0826 0.1100 0.1327 0.1667 0.1859 0.1572 根据以上数据拟合逻辑斯蒂模型: 本例子数据保存在DATA6-4.SAV。 1)准备分析数据 在SPSS数据编辑窗口建立变量“t”和“v”两个变量,把表6-14中的数据分别输入“温度”和“发育速率”对应的变量中。 或者打开已经存在的数据文件(DATA6-4.SAV)。 2)启动线性回归过程 单击SPSS主菜单的“Analyze”下的“Regression”中“Nonlinear”项,将打开如图5-1

所示的线回归对话窗口。 图5-1 Nonlinear非线性回归对话窗口 3) 设置分析变量 设置因变量:从左侧的变量列表框中选择一个因变量进入“Dependent(s)”框。本例子选“发育速率[v]”变量为因变量。 4) 设置参数变量和初始值 单击“Parameters”按钮,将打开如图6-14所示的对话框。该对话框用于设置参数的初始值。 图5-2 设置参数初始值

第2章(8)非线性回归模型的线性化

第4章非线性回归模型的线性化(1)多项式函数模型 (2)双曲线函数模型 (3)对数函数模型 (4)生长曲线(logistic) 模型 (比教材中的模型复杂些) (5)指数函数模型 (6)幂函数模型 (7)不可线性化的非线性回归模型估计方法(不要求掌握)

第4章非线性回归模型的线性化 有时候变量之间的关系是非线性的。虽然其形式是非线性的,但可以通过适当的变换,转化为线性模型,然后利用线性回归模型的估计与检验方法进行处理。称此类模型为可线性化的非线性模型。 以下非线性回归模型是无法用最小二乘法估计参数的。可采用非线性方法进行估计。估计过程非常复杂和困难,计算机的出现大大方便了非线性回归模型的估计。专用软件使这种计算变得非常容易。但本章不是介绍这类模型的估计。 y t = α0 + α11β x+ u t t y t = α0t x e1α+ u t 下面介绍几种典型的可以做线性化处理的非线性模型。

(1)多项式函数模型(1) (第2版教材第111页)(第3版教材第90页) 一种多项式方程的表达形式是 y t = b 0+b 1 x t + b 2 x t 2+ b 3 x t 3+ u t 令x t 1 = x t ,x t 2 = x t 2,x t 3 = x t 3,上式变为 y t = b 0+b 1 x t 1+ b 2 x t 2+ b 3 x t 3+ u t 这是一个三元线性回归模型。如经济学中的 总成本与产品产量曲线与左图相似。 (b 1>0, b 2>0, b 3>0) (b 1<0, b 2>0, b 3<0)

(1)多项式函数模型(1) 例4.1:总成本与产品产量的关系(课本91页) y t= b0+b1 x t+ b2 x t2+ b3 x t3+ u t (第2版教材第112页) (第3版教材第91页)

非线性回归预测法——高斯牛顿法(詹学朋)知识分享

非线性回归预测法——高斯牛顿法(詹学朋)

非线性回归预测法 前面所研究的回归模型,我们假定自变量与因变量之间的关系是线性的,但社会经济现象是极其复杂的,有时各因素之间的关系不一定是线性的,而可能存在某种非线性关系,这时,就必须建立非线性回归模型。 一、非线性回归模型的概念及其分类 非线性回归模型,是指用于经济预测的模型是曲线型的。常见的非线性回归模型有下列几种: (1)双曲线模型: i i i x y εββ++=1 2 1 (3-59) (2)二次曲线模型: i i i i x x y εβββ+++=2321 (3-60) (3)对数模型: i i i x y εββ++=ln 21 (3-61) (4)三角函数模型: i i i x y εββ++=sin 21 (3-62) (5)指数模型: i x i i ab y ε+= (3-63) i i i x x i e y εβββ+++=221110 (3-64) (6)幂函数模型: i b i i ax y ε+= (3-65) (7)罗吉斯曲线: i x x i i i e e y εββββ++=++1101101 (3-66) (8)修正指数增长曲线: i x i i br a y ε++= (3-67) 根据非线性回归模型线性化的不同性质,上述模型一般可细分成三种类型。 第一类:直接换元型。 这类非线性回归模型通过简单的变量换元可直接化为线性回归模型,如:(3-59)、(3-60)、(3-61)、(3-62)式。由于这类模型的因变量没有变形,所以可以直接采用最小平方法估计回归系数并进行检验和预测。 第二类:间接代换型。 这类非线性回归模型经常通过对数变形的代换间接地化为线性回归模型,如:(3-63)、(3-64)、(3-65)式。由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小平方估计失去了原模型的残差平方和为最小的意义,从而估计不到原模型的最佳回归系数,造成回归模型与原数列之间的较大偏差。 第三类:非线性型。

计量经济学 第四章 非线性回归模型的线性化范文

第四章 非线性回归模型的线性化 以上介绍了线性回归模型。但有时候变量之间的关系是非线性的。例如 y t = α 0 + α11βt x + u t y t = α 0 t x e 1α+ u t 上述非线性回归模型是无法用最小二乘法估计参数的。可采用非线性方法进行估计。估计过程非常复杂和困难,在20世纪40年代之前几乎不可能实现。计算机的出现大大方便了非线性回归模型的估计。专用软件使这种计算变得非常容易。但本章不是介绍这类模型的估计。 另外还有一类非线性回归模型。其形式是非线性的,但可以通过适当的变换,转化为线性模型,然后利用线性回归模型的估计与检验方法进行处理。称此类模型为可线性化的非线性模型。下面介绍几种典型的可以线性化的非线性模型。 4.1 可线性化的模型 ⑴ 指数函数模型 y t = t t u bx ae + (4.1) b >0 和b <0两种情形的图形分别见图4.1和4.2。显然x t 和y t 的关系是非线性的。对上式等号两侧同取自然对数,得 Lny t = Lna + b x t + u t (4.2) 令Lny t = y t *, Lna = a *, 则 y t * = a * + bx t + u t (4.3) 变量y t * 和x t 已变换成为线性关系。其中u t 表示随机误差项。 010 20 30 40 50 1 2 3 4 X Y 1 图4.1 y t =t t u bx ae +, (b > 0) 图4.2 y t =t t u bx ae +, (b < 0)

⑵对数函数模型 y t = a + b Ln x t+ u t(4.4) b>0和b<0两种情形的图形分别见图4.3和4.4。x t和y t的关系是非线性的。令x t* = Lnx t, 则 y t = a + b x t* + u t(4.5) 变量y t和x t* 已变换成为线性关系。 图4.3 y t = a + b Lnx t + u t , (b > 0) 图4.4 y t = a + b Lnx t + u t , (b < 0) ⑶幂函数模型 y t= a x t b t u e(4.6) b取不同值的图形分别见图4.5和4.6。x t和y t的关系是非线性的。对上式等号两侧同取对数,得 Lny t = Lna + b Lnx t + u t(4.7) 令y t* = Lny t, a* = Lna, x t* = Lnx t, 则上式表示为 y t* = a* + b x t* + u t(4.8) 变量y t* 和x t* 之间已成线性关系。其中u t表示随机误差项。(4.7) 式也称作全对数模型。 图4.5 y t = a x t b t u e图4.6 y t = a x t b t u e

第十章直线相关与回归

第十章 直线相关与回归 一、教学大纲要求 (一) 掌握内容 ⒈ 直线相关与回归的基本概念。 ⒉ 相关系数与回归系数的意义及计算。 ⒊ 相关系数与回归系数相互的区别与联系。 (二)熟悉内容 ⒈ 相关系数与回归系数的假设检验。 ⒉ 直线回归方程的应用。 ⒊ 秩相关与秩回归的意义。 (三)了解内容 曲线直线化。 二、 学内容精要 (一) 直线回归 1. 基本概念 直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression )。 直线回归方程bX a Y +=?中,a 、b 是决定直线的两个系数,见表10-1。 表10-1 直线回归方程a 、b 两系数对比 a b 含义 回归直线在Y 轴上的截距(intercept )。 表示X 为零时,Y 的平均水平的估计值。 回归系数(regression coefficient ),即直线的斜率。表示X 每变化一个单位时,Y 的平均变化量的估计值。 系数>0 a >0表示直线与纵轴的交点在原点的上方 b >0,表示直线从左下方走向右上方,即Y 随X 增大而增大 系数<0 a <0表示直线与纵轴的交点在原点的下方 b <0,表示直线从左上方走向右下方,即Y 随X 增大而减小 系数=0 a =0表示回归直线通过原点 b =0,表示直线与X 轴平行,即Y 不随X 的变化而变化 计算公式 X b Y a -= XX XY l l X X Y Y X X b =---= ∑∑2 )())(( 2. 样本回归系数b 的假设检验 (1)方差分析; (2)t 检验。

高考数学复习点拨 非线性回归问题

非线性回归问题 两个变量不呈线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型。分析非线性回归问题的具体做法是: (1)若问题中已给出经验公式,这时可以将变量x 进行置换(换元),将变量的非线性关系转化为线性关系,将问题化为线性回归分析问题来解决. (2)若问题中没有给出经验公式,需要我们画出已知数据的散点图,通过与各种已知函数(如指数函数、对数函数、幂函数等)的图象作比较,选择一种与这些散点拟合得最好的函数,然后采用适当的变量置换,将问题化为线性回归分析问题来解决. 下面举例说明非线性回归分析问题的解法. 例1 在彩色显影中,由经验可知:形成染料光学密度y 与析出银的光学密度x 由公式 e b x y A =(b <0)表示,现测得实验数据如下: 试求对的回归方程. 分析:该例是一个非线性回归分析问题,由于题目中已给定了要求的曲线为e b x y A =(b <0)类型,我们只要通过所给的11对样本数据求出A 和b ,即可确定x 与y 的相关关系的曲线方程. 解:由题意可知,对于给定的公式e b x y A =(b <0)两边取自然对数,得ln ln b y A x =+. 与线性回归方程对照可以看出,只要取1 u x = ,ln v y =,ln a A =,就有v a bu =+,这是v 对u 的线性回归直线方程,对此我们再套用相关性检验,求回归系数b 和a . 题目中所给数据由变量置换1 u = ,ln v y =变为如表所示的数据: 由于|r |=0.998>0.602,可知u 与v 具有很强的线性相关关系. 再求得0.146b =-,0.548a =, ∴v =0.5480.146u -,把u 和v 置换回来可得0.146 ln 0.548y x =- , ∴0.1460.1460.1460.5480.548 e 1.73x x x y e e e - - - ===, ∴回归曲线方程为0.1461.73e x y - =. 点评:解决本题的思路是通过适当的变量置换把非线性回归方程转化为线性回归方程,然后再套用线性回归分析的解题步骤. 例2 为了研究某种细菌随时间x 变化的繁殖个数,收集数据如下:

第三节:多元线性相关与回归分析

第三节 多元线性相关与回归分析 一、标准的多元线性回归模型 上一节介绍的一元线性回归分析所反映的是1个因变量与1个自变量之间的关系。但是,在现实中,某一现象的变动常受多种现象变动的影响。例如,消费除了受本期收入水平的影响外,还会受以往消费和收入水平的影响;一个工业企业利润额的大小除了与总产值多少有关外,还与成本、价格等有关。这就是说,影响因变量的自变量通常不是一个,而是多个。在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定与分析多因素之间相关关系的问题。 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型相类似,只是在计算上比较麻烦一些而已。限于本书的篇幅和程度,本节对于多元回归分析中与一元回归分析相类似的内容,仅给出必要的结论,不作进一步的论证。只对某些多元回归分析所特有的问题作比较详细的说明。 多元线性回归模型总体回归函数的一般形式如下: t kt k t t u X X Y ++?++=βββ221 (7.51) 上式假定因变量Y 与(k-1)个自变量之间的回归关系可以用线性函数来近似反映.式中,Y t 是变量Y 的第t个观测值;X jt 是第j 个自变量X j 的第t个观测值(j=1,2,……,k);u t 是随机误差项;β1,β2,… ,βk 是总体回归系数。βj 表示在其他自变量保持不变的情况下,自变量X j 变动一个单位所引起的因变量Y 平均变动的数额,因而又叫做偏回归系数。该式中,总体回归系数是未知的,必须利用有关的样本观测值来进行估计。 假设已给出了n个观测值,同时1?β,2?β…,k β?为总体回归系数的估计,则多元线性回 归模型的样本回归函数如下: t kt k t t e X X Y ++?++=βββ???221 (7.52) (t =1,2,…,n) 式中,e t 是Y t 与其估计t Y ?之间的离差,即残差。与一元线性回归分析相类似,为了进 行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n >k 。我们称这条假定为标准假定6。 二、多元线性回归模型的估计 (一)回归系数的估计 多元线性回归模型中回归系数的估计同样采用最小二乘法。设 ∑-=∑=22)?(t t t Y Y e Q 2221)???(kt k t t X X Y βββ-?--∑= (7.53) 根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小,Q对1?β、2?β…,k β?的偏导数必须等于零。将Q对1?β、2?β…,k β?求偏导数,并令其等于零,加以整理后可得到以下k个方程式: ∑=∑+?+∑+t kt k t Y X X n βββ???221 ∑=∑+?+∑+∑t t kt t k t t Y X X X X X 2222221???βββ (7.54)

第十一章线性相关分析报告与线性回归分析报告

第十一章线性相关分析与线性回归分析 11.1 两个变量之间的线性相关分析 相关分析是在分析两个变量之间关系的密切程度时常用的统计分析方法。最简单的相关分析是线性相关分析,即两个变量之间是一种直线相关的关系。相关分析的方法有很多,根据变量的测量层次不同,可以选择不同的相关分析方法。总的来说,变量之间的线性相关关系分为三种。一是正相关,即两个变量的变化方向一致。二是负相关,即两个变量的变化方向相反。三是无相关,即两个变量的变化趋势没有明显的依存关系。两个变量之间的相关程度一般用相关系数r 来表示。r 的取值范围是:-1≤r≤1。∣r∣越接近1,说明两个变量之间的相关性越强。∣r∣越接近0,说明两个变量之间的相关性越弱。相关分析可以通过下述过程来实现: 11.1.1 两个变量之间的线性相关分析过程 1.打开双变量相关分析对话框 执行下述操作: Analyze→Correlate(相关)→Bivariate(双变量)打开双变量相关分析对话框,如图11-1 所示。 图11-1 双变量相关分析对话框 2.选择进行相关分析的变量 从左侧的源变量窗口中选择两个要进行相关分析的变量进入Variable 窗口。 3.选择相关系数。 Correlation Coefficient 是相关系数的选项栏。栏中提供了三个相关系数的选项:(1)Pearson:皮尔逊相关,即积差相关系数。适用于两个变量都为定距以上变量,且两个

变量都服从正态分布的情况。这是系统默认的选项。 (2)Kendall:肯德尔相关系数。它表示的是等级相关,适用于两个变量都为定序变量的情况。 (3)Spearman:斯皮尔曼等级相关。它表示的也是等级相关,也适用于两个变量都为定序变量的情况。 4.确定显著性检验的类型。 Test of Significance 是显著性检验类型的选项栏,栏中包括两个选项: (1)Two-tailed:双尾检验。这是系统默认的选项。 (2)One-tailed:单尾检验。 5.确定是否输出相关系数的显著性水平 Flag significant Correlations:是标出相关系数的显著性选项。如果选中此项,系统在输出结果时,在相关系数的右上方使用“*”表示显著性水平为0.05;用“**”表示显著性水平为0.01。 6. 选择输出的统计量 单击Options 打开对话框,如图11-2 所示。 图11-2 相关分析选项对话框 (1)Statistics 是输出统计量的选项栏。 1)Means and standard deviations 是均值与标准差选项。选择此项,系统将在输出文件中输出均值与标准差。 2)Cross- product deviations and covariances 是叉积离差与协方差选项。选择此项,系统将在输出文件中输出每个变量的离差平方和与两个变量的协方差。 上述两项选择只有在主对话框中选择了Pearson:皮尔逊相关后,计算结果才有价值。 (2)缺失值的处理办法 Missing Valuess 是处理缺失值的选项栏。 1)Exclude cases pairwise 是成对剔除参与相关系数计算的两个变量中有缺失值的个案。2)Exclude cases listwise 是剔除带有缺失值的所有个案。 上述选项做完以后,单击Continue 按钮,返回双变量相关分析对话框。 8.单击OK 按钮,提交运行。系统在输出文件窗口中输出相关分析的结果。 11.1.2 两个变量之间的线性相关分析实例分析

相关文档
相关文档 最新文档