文档库 最新最全的文档下载
当前位置:文档库 › 变量间的相关关系与线性回归方程

变量间的相关关系与线性回归方程

变量间的相关关系与线性回归方程
变量间的相关关系与线性回归方程

11.3 变量间的相关关系与线性回归方程

1.变量间的相关关系

常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是________;与函数关系不同,相关关系是一种________关系,带有随机性. 2.两个变量的线性相关

(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有____________,这条直线叫________.

(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为________;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为________. (3)相关系数r =

∑∑∑===---

-n

j j

n i i

n

i i

i

y y

x x y y x x 1

2

1

2

1

)(

)()

)((,当r >0时,表示两个变量正相关;当r <0时,表示两个变量负相关.r

的绝对值越接近________,表示两个变量的线性相关性越强;r 的绝对值越接近________,表示两个变量的线性相关性越弱.通常当r 的绝对值大于0.75时,认为两个变量具有很强的线性相关关系. 3.回归直线方程 (1)通过求Q (α,β)=

∑=--n

i i

x y 1

2

i

)

(αβ的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的

距离的平方和最小的方法叫做 .该式取最小值时的α,β的值即分别为a

?,b ?. (2)两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为a x b y

???+=,则 ??

?

????

??

-=--=---=∑

∑∑∑====.

x b y a

x n x y

x n y x x x y y x x b n

i i n

i i i n i i n i i i ??,

)())((?1

2

21121

自查自纠

1.相关关系 非确定性

2.(1)线性相关关系 回归直线 (2)正相关 负相关 (3)1 0 3.最小二乘法

某公司2012~2017年的年利润x(单位:百万元)与年广告支出y(单位:百万元)的统计资料如下表所示:

年份 2012 2013 2014 2015 2016 2017 利润x 12.2 14.6 16 18 20.4 22.3 支出y

0.62

0.74

0.81

0.89

1

1.11

根据统计资料,则( )

A .利润中位数是16,x 与y 有正线性相关关系

B .利润中位数是17,x 与y 有正线性相关关系

C .利润中位数是17,x 与y 有负线性相关关系

D .利润中位数是18,x 与y 有负线性相关关系

解:利润中位数是16+18

2

=17,随着x 增大y 增大, x 与y 正线性相关,故选B .

(2016·江西八所重点中学联考)为了解某商品的销售量y (件)与销售价格x (元/件)的关系,统计了(x ,y )的10组值,并画成如图所示的散点图,则其回归方程可能是( )

A.y ^=-10x -198

B.y ^

=-10x +198 C.y ^=10x +198 D.y ^

=10x -198

解:由图象可知回归直线方程的斜率小于零,截距大于零.故选B .

已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=bx +a ,则“(x 0,y 0)满足线性回归方程y ^

=bx

+a ”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 10

10”的( )

A .充分不必要条件

B .必要不充分条件

C .充要条件

D .既不充分也不必要条件

解:x 0,y 0为这10组数据的平均值,又因为线性回归方程y ^

=bx +a 必过样本中心(x —,y —),因此(x —,y —

)一定满足线

性回归方程,但满足线性回归方程的除了(x —,y —

)外,可能还有其他样本点.故选B .

下列命题:

①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;

③通过回归直线y ^=b ^x +a ^

,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是________. 解:易知①②③均正确,故填①②③.

(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +.已知

10

1

i i x =∑=225,10

1

i

i y

=∑=1600,b ^

=4.该班某学生的脚长为24,据此估计其身高为________厘米.

解:由已知得x —=22.5,y —

=160,则=160-4×22.5=70,当x =24时,y ^

=4×24+70=166,故填166.

类型一 相关关系的判断

(2015·石家庄调研)下列结论正确的是( ) ①函数关系是一种确定性关系;

②相关关系是一种非确定性关系;

③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①② B .①②③ C .①②④ D .①②③④

解:由回归分析的方法及概念判断①②④正确.故选C .

【点拨】要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的、不确定的.回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.

有五组变量:

①汽车的重量和汽车每消耗1升汽油所行驶的平均路程; ②平均日学习时间和平均学习成绩; ③某人每日吸烟量和身体健康情况; ④圆的半径与面积;

⑤电瓶车的重量和行驶每千米的耗电量. 其中两个变量成正相关的是( ) A .①③ B .②④ C .②⑤ D .④⑤

解:①③为负相关,④为确定的函数关系,并非相关关系.故选C .

类型二 线性回归方程的有关概念

为了考查两个变量x 和y 之间的线性关系,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1,l 2,已知两人得到的试验数据中,变量x 的平均值都等于s ,变量y 的平均值都等于t ,那么下列说法正确的是( ) A .直线l 1和l 2一定有公共点(s ,t ) B .直线l 1和l 2相交,但交点不一定是(s ,t ) C .必有直线l 1∥l 2

D .直线l 1和l 2必定重合

解:线性回归直线方程为y ^=a ^+b ^x ,而a ^=y —-b ^ x —,即a ^=t -b ^s .t =a ^+b ^

s .所以(s ,t )在回归直线上,即直线l 1和l 2必有公共点(s ,t ).故选A .

【点拨】回归方程一定通过样本点的中心(x —

,y —

);中心相同的样本点的回归方程不一定相同.

由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到回归直线方程y ^=b ^x +a ^

,那么下面说法错误..

的是( ) A .直线y ^=b ^x +a ^

必经过点(x —,y —)

B .直线y ^=b ^x +a ^

至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点

C .直线y ^=b ^x +a ^的斜率b ^

122

1

n

i i

i n

i

i x y

nx y

x

nx ==--∑∑

D .直线y ^=b ^x +a ^

和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差

2

1

[]n

i

i

i y bx a =-

∑(+) 是该坐标平面上所有直线与这些点的偏差中最小的

解:回归直线方程y ^=b ^x +a ^

经过样本点的中心(x —,y —

),可能不经过(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的任何一点,这些点都分布在这条直线附近.故选B .

类型三 散点图

(1)观察下列四个散点图,两变量具有线性相关关系的是( )

A B

C D

解:A 合要求,故选A .

【点拨】点分布在从左下角到右上角的区域时,两个变量的相关关系为正相关;点分布在从左上角到右下角的区域时,两个变量的相关关系为负相关.

(2)下面是一块田的水稻产量与施化肥量的一组观测数据(单位:kg): 施化肥量

15 20 25 30 35 40 45 水稻产量

320 330 360 410 460 470 480 (Ⅰ)将上述数据制成散点图;

(Ⅱ)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗? 解:(Ⅰ)散点图如下:

(Ⅱ)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大.图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着施化肥量的增加而增长,不会一直随施化肥量的增加而增长.

【点拨】任何一组数据(二元数据)都可以作出散点图,散点图可以直观地观察两个变量间的关系.

(1)从左至右,观察下列三个散点图,变量x 与y 的关系依次为________(正相关记作①;负相关记作②;

不相关记作③).

解:散点图在左上角至右下角区域则负相关,反之,则正相关,散乱则不相关.故填①③②.

(2)一段时间内,某地区手足口病流行,当地相关部门果断采取措施防、治结合,很快使病情得到控制.下表是某

152

168

175

则下列说法:

①根据此散点图,可以判断日期与治愈人数具有线性相关关系; ②根据此散点图,可以判断日期与治愈人数具有一次函数关系; ③根据此散点图,可以判断日期与治愈人数呈正相关. 其中正确的有( )

A .0个

B .1个

C .2个

D .3个 解:①③正确,②错误,故选C .

类型四 求回归方程及用回归方程进行估计

(湖南省2017届高三考前演练卷)某大学生利用寒假参加社会实践,对机械销售公司7月份至12月份销售

(1)根据7至11月份的数据,求出y 关于x 的回归直线方程;

(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过0.5元,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?

(3)预计在今后的销售中,销售量与销售单价仍然服从(1)中的关系,若该种机器配件的成本是2.5元/件,那么该

=502.5.

解:(1)因为x —=15(9+9.5+10+10.5+11)=10,y —=1

5

(11+10+8+6+5)=8,

所以b ^=392-5×10×8502.5-5×102

=-3.2,

则a ^

=8-(-3.2)×10=40,

于是y 关于x 的回归直线方程为y ^

=-3.2x +40.

(2)当x =8时, y ^=-3.2×8+40=14.4,则|y ^

-y|=14.4-14=0.4<0.5,

所以可以认为所得到的回归直线方程是理想的. (3)令销售利润为W ,

则W =(x -2.5)(-3.2x +40)=-3.2x 2+48x -100(2.5

所以当x =48

3.2×2=7.5时,W 取最大值80.

所以该产品的销售单价定为7.5元/件时,获得的利润最大.

【点拨】牢记求线性回归方程的步骤:(1)列表;(2)计算x —

,y —

,1

n i i i x y =∑,21

n

i i x =∑;(3)代入公式求b

^,再

利用a ^=y —-b ^

x —

求a ^;(4)写出回归方程.

(2017重庆高三学业质量调研)某科技兴趣小组对昼夜温差的大小与小麦新品种发芽多少之间的关系进

行了研究,记录了2017年12月1日至12月5日五天的昼夜温差与相应每天100颗种子的发芽数得到了如下数

现从这5组数据中任选两组,用余下的三组数据求回归直线方程,再对被选取的两组数据进行检验. (1)求选取的两组数据恰好是不相邻的两天的概率;

(2)若选取的是12月1日和12月5日的两组数据,请根据余下的三组数据,求出y 与x 的回归直线方程y ^=b ^x +a ^; (3)若由回归直线方程得到的估计值与所选出的两组实际数据的误差均不超过两颗,则认为得到的回归直线方程是可靠的,试判断(2)中得到的回归直线方程是否可靠. 附:在回归方程y ^=b ^x +中,b ^=

122

1

n

i i

i n

i

i x y

nx y

x

nx ==--∑∑.

解:(1)设五组数据依次是A 1,A 2,A 3,A 4,A 5,则取出的两组数据构成:Ω={A 1A 2,A 1A 3,A 1A 4,A 1A 5,A 2A 3,A 2A 4,A 2A 5,A 3A 4,A 3A 5,A 4A 5},共有10个元素. 则选取的两组数据恰好不相邻这一事件为:

A ={A 1A 3,A 1A 4,A 1A 5,A 2A 4,A 2A 5,A 3A 5},有6个元素.

所以所求概率P =610=3

5

.

(2)因为x —=11+10+123=11,y —=34+26+36

3

=32,

所以b ^=11×34+10×26+12×36-3×11×32112+102+122-3×112

=5,

又因为b ^x +a ^=y ,5×11+a ^=32,即a ^=-23,所以线性回归方程为y ^

=5x -23,

(3)所以当x =9时,y ^=5×9-23=22,这与实际值y =21比较,误差没有超过两颗,又当x =13时,y ^

=5×13-23=42,而实际值y =40,误差也没有超过两颗,

所以(2)中得到的线性回归方程y ^

=5x -23是可靠的.

1.在研究两个变量之间是否存在某种关系时,必须从散点图入手.对于散点图,可以做出如下判断: (1)如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系. (2)如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系. (3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系. 2.判断两个变量是否具有相关关系的常用方法: (1)利用散点图进行判断; (2)利用相关系数r 进行判断. 3.应注意的问题

(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则无意义.

(2)根据回归方程进行的估计仅是一个预测值,而不是真实发生的值.

(3)用最小二乘法求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^

的计算量较大,计算应仔细小心.

1.(2015·武昌元月调考)

得到的回归方程为y ^

=bx +a ,若a =7.9,则x 每增加一个单位,y 就( ) A .增加1.4个单位 B .减少1.4个单位 C .增加1.2个单位 D .减少1.2个单位

解:根据样本数据可得,x —

=5,y —

=0.9,由于样本点的中心(x —

,y —

)满足y —

=bx —

+a , 所以0.9=b ×5+7.9,可得b =-1.4.故选B .

2.(2017

根据上述数据得到的回归方程为y ^=b x +,则大致可以判断( )

A .a ^>0,b ^>0

B .a ^>0,b ^<0

C .a ^<0,b ^>0

D .a ^<0,b ^<0

解:根据随机变量x ,y 之间关系在表格中的数据可以看出, y 随x 的增大而增大,因此b ^

>0,由于x —=0.2,y —

-1.7,a ^=y —-b ^x —=-1.7-0.2b ^

<0.故选C .

3.(2017·南昌一模)设某高中女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,

y i )(i =1,2,3,…,n ),用最小二乘法近似得到回归直线方程为y ^

=0.85x -85.71,则下列结论中不正确的是( ) A .y 与x 具有正线性相关关系 B .回归直线过样本点的中心(x ,y )

C .若该高中某女生身高增加1 cm ,则其体重约增加0.85 kg

D .若该中学某高中女生身高为160 cm ,则可断定其体重必为50.29 kg.

解:因为斜率大于零,所以y 与x 具有正线性相关关系;回归直线过样本点的中心(x —

,y —

);身高每增加1 cm ,则其体重约增加0.85 kg ;身高为160 cm ,则可估计其体重约为0.85×160-85.71=50.29 kg ,但不可断定.故选D .

4.在对具有线性相关的两个变量x 和

由表中数据求得y 关于x 的回归方程为y =0.65x -1.8,则(4,1),(m ,2),(8,3)这三个样本点中落在回归直线下

方的个数为( )

A .1

B .2

C .3

D .0

解:因为x —=15(4+m +8+10+12)=15(34+m ),y —=15(1+2+3+5+6)=175,所以将其代入y ^

=0.65x -1.8可得m =6,

故当x =4时,y =2.6-1.8=0.8<1,在直线上方;当x =8时,y =5.2-1.8=3.4>3,在直线下方;当m =6时,y =3.9-1.8=2.1>2,在直线下方,故选B .

5.(2016·甘肃兰州诊断)小乐与小波在学了变量的相关性之后,两人约定回家去利用各自记录的6~10岁的身高作为实验数据,进行回归分析,探讨年龄x (岁)与身高y (cm)之间的线性相关性.经计算小乐与小波求得的线性回归直线分别为l 1,l 2.在认真比较后,两人发现他们这五年身高的平均值都为110cm ,而且小乐的五组实验数据均满足所求的直线方程,小波则只有两组实验数据满足所求的直线方程.下列说法错误的是( ) A .直线l 1,l 2一定有公共点(8,110)

B .在两人的回归分析中,小乐求得的线性相关系数r =1,小波求得的线性相关系数r ∈(0,1)

C .在小乐的回归分析中,他认为x 与y 之间完全线性相关,所以自己的身高y (cm)与年龄x (岁)成一次函数关系,利用l 1可以准确预测自己20岁的身高

D .在小波的回归分析中,他认为x 与y 之间不完全线性相关,所以自己的身高y (cm)与年龄x (岁)成相关关系,利用l 2只可以估计预测自己20岁的身高

解:相关关系是一种非确定性关系,而函数关系是一种确定性关系,故利用l 1能预测20岁的身高,并不能得到准确值.故选项C 错误,其它选项均正确.故选C .

6.(2017届广西质量诊断联考)记者调查了大量某电视剧的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄(单位:岁)在[10,14],[15,19],[20,24],[25,29],[30,34]的爱看比例依次为10%,18%,20%,30%,t %,现用这5个年龄段的中间值x 代表年龄段,如12代表[10,14],17代表[15,19],根据前四个数据求

得x 关于爱看比例y 的线性回归方程为y ^

=(kx -4.68)%,由此可推测t 的值为( ) A .33 B .35 C .37 D .39

解:前4个数据对应的x —=19.5, y —

=0.195(把百分数转化为小数),而y ^=(kx -4.68)%=b ^x -0.0468,所以0.195=b

^

×19.5-0.0468,所以b ^=0.0124,所以y ^

=(1.24x -4.68)%,当x =30+342

=32,t =1.24×32-4.68=35.故选B .

7.已知x ,y 的取值如下表:

x

0 1 2 3 4 y

1

1.3

3.2

5.6

8.9

若依据表中数据所画的散点图中,所有样本点(x i ,y i )(i =1,2,3,4,5)都在曲线y =1

2

x 2+a 附近波动,则a =________.

解:设t =x 2,则t —=15(0+1+4+9+16)=6,y —=15(1+1.3+3.2+5.6+8.9)=4,所以点(6,4)在直线y =1

2t +a 上,

求出a =1,故填1.

8.(2015·北京)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.

从这次考试成绩看,

①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是____________; ②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是____________.

解:①由图分析,乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中,语文成绩名次比其总成绩名次靠前的是乙.

②根据丙在这两个图中对应的点的横坐标相同,找出丙在第一个图中对应的点.观察易得,丙同学成绩名次更靠前的科目是数学.故填乙;数学.

9.(2017届四川资阳期末考试)观察研究某种植物的生长速度与温度的关系,经过统计,得到生长速度(单位:毫温度t (℃) -5 0 6 8 12 15 20 生长速度y

2

4

5

6

7

8

10

(1)求生长速度y 关于温度t 的线性回归方程;(斜率和截距均保留为三位有效数字)

(2)利用(1)中的线性回归方程,分析气温从-5℃至20℃时生长速度的变化情况,并预测平均气温是2℃时的生长速度.

b

^=

1

12

2

2

1

1

()() ()

n n

i

i

i i

i i n

n

i

i

i i x x y y x y nx y

x x x

nx ====---=

--∑∑∑∑,a ^=y —-b ^x

.

解:(1)由题可知 t —=-5+0+6+8+12+15+207

=8,

y —=2+4+5+6+7+8+107

=6,

7

1

i i

i t y

=∑=-10+0+30+48+84+120+200=472,

7

21

i

i t

=∑=25+0+36+64+144+225+400=894,

则b ^=

7

172

21

77i i

i i i t y

t y

t t

==--∑∑=472-7×48894-7×64

≈0.305, a ^=y -b ^ t —

≈6-0.305×8=3.560,

于是生长速度y 关于温度t 的线性回归方程为 y ^

=3.560+0.305t.

(2)利用(1)的线性回归方程可以发现,月平均气温从-5℃升至20℃时该植物生长速度逐渐增加.如果某月的平均气温是2℃时,预测这月的生长速度为3.56+0.305×2=4.17.

10.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.

注:年份代码1~7分别对应年份2008~2014.

(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:

7

1i

i y

=∑=9.32,

7

1

i i

i t y

=∑=40.17,

0.55,7≈2.646.

参考公式:

相关系数r

()()

n

i

i

t t y y --∑

回归方程y ^=a ^+b ^

t 中斜率和截距的最小二乘估计公式分别为:

1

2

1()()

???.()

n

i

i

i n

i i t t y y b

a

y bt t t ==--==--∑∑, 解:(1)由折线图中数据和附注中参考数据得

t =4,7

1

i i t t =∑2

(-)=28

777

1

1

1

i

i

i i

i

i i i t t y y t y t y

===---∑∑∑()()==40.17-4×9.32=2.89,

r ≈

2.89

0.55×2×2.646

≈0.99.

因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.

(2)由y =9.327

≈1.331及(1)得

b ^=

1

2

1

()()

()

n

i

i

i n

i i t t y y t t ==---∑∑=2.8928

≈0.103, a ^=y -b ^

t ≈1.331-0.103×4≈0.92. 所以y 关于t 的回归方程为y ^

=0.92+0.10t.

将2016年对应的t =9代入回归方程得y ^

=0.92+0.10×9=1.82, 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.

11.(2017·武汉模拟)某市地产数据研究所的数据显示,2016年该市新建住宅销售均价走势如下图所示,3月至7月房价上涨过快,政府从8月开始采取宏观调控措施,10月份开始房价得到很好的抑制.

(1)地产数据研究所发现,3月至7月的各月均价y(万元/平方米)与月份x 之间具有较强的线性相关关系,试建立y 关于x 的回归方程;政府若不调控,依此相关关系预测12月份该市新建住宅销售均价;

(2)地产数据研究所在2016年12个月份中,随机抽取三个月的数据作样本分析,若关注所抽三个月份的所属季度,记所属季度的个数为X ,求X 的分布列和数学期望. 参考数据:

5

1

i

i x =∑=25,5

1

i

i y =∑=5.36,5

1

i

i

i x x y y =∑

(-()-)=0.64; 回归方程y ^=b ^

x +中斜率和截距的最小二乘估计公式公别为: b ^=

1

2

1()()

??.()n

i

i

i n

i i x x y y a

y bt x x ==--=--∑∑,

计算可得x —

=5,y —

=1.072,5

1

i i x x =∑

2

(-)=10,

所以b ^=0.6410

=0.064,a ^=y —-b ^x —=1.072-0.064×5=0.752.

所以从3月份至7月份y 关于x 的回归方程为y ^

=0.064x +0.752.

将2016年的12月份x =12代入回归方程,得y ^

=0.064×12+0.752=1.52, 所以政府若不调控,预测12月份该市新建住宅的销售均价约为1.52万元/平方米. (2)根据题意,X 的所有可能取值为1,2,3.

P(X =1)=4C 312=155,P(X =3)=C 34×3

3

C 312=2755

P(X =2)=1-P(X =1)-P(X =3)=27

55,

所以X 的分布列为

因此X 的数学期望E(X)=1×155+2×2755+3×2755=136

55

.

(浏阳2017届适应性考试)某搜索引擎广告按照付费价格对搜索结果进行排名,点击一次付费价格排名越靠前,被点击的次数也可能会提高,已知某关键词被甲、乙等多个公司竞争,其中甲、乙付费情况与每小时点击量结果绘制成如下的折线图.

(1)试根据所给数据计算甲、乙两公司每小时点击次数的均值与方差,并分析两组数据哪个更稳定;

(2)若记乙公司设置的每次点击价格为x ,每小时点击次数为y ,则点(x ,y)近似在一条直线附近.试根据前5次

价格与每小时点击次数的关系,求y 关于x 的回归直线y ^=b ^x +a ^

. 附:回归方程系数公式:b ^

122

1

n

i i

i n

i

i x y

nx y x

nx ==--∑∑,a ^=y —-b ^x —.

解:(1)由题图可知,

甲公司每小时点击次数为9,5,7,8,7,6,8,6,7,7, 乙公司每小时点击次数为2,4,6,8,7,7,8,9,9,10. 甲公司每小时点击次数的平均数为: x —甲=9+5+7+8+7+6+8+6+7+710=7,

乙公司每小时点击次数的平均数为: x —乙=2+4+6+8+7+7+8+9+9+1010=7,

甲公司每小时点击次数的方差为:

s 2甲=

110

[22

+(-2)2+2×12+2×(-1)2+4×02]=1.2; 乙公司每小时点击次数的方差为:

s 2乙=110

[(-5)2+(-3)2+(-1)2+2×12+2×22+32+2×02]=5.4. 由计算知,甲、乙公司每小时点击次数的均值相同,但是甲的方差较小,所以,甲公司每小时点击次数更加稳定. (2)根据折线图可得数据如下:

则x =3,y =5.4,则b ^=

5

15

22

1

5 5i i

i i

i x y

x y x

x ==--∑∑=1.4,a ^=1.2,所以所求回归直线方程为:y ^

=1.4x +1.2.

线性回归方程的求法(需要给每个人发)

耿老师总结的高考统计部分的两个重要公式的具体如何应用 第一公式:线性回归方程为???y bx a =+的求法: (1) 先求变量x 的平均值,既1231()n x x x x x n = +++???+ (2) 求变量y 的平均值,既1231()n y y y y y n =+++???+ (3) 求变量x 的系数?b ,有两个方法 法112 1()()?()n i i i n i i x x y y b x x ==--=-∑∑(题目给出不用记忆)[]112222212()()()()...()()()()...()n n n x x y y x x y y x x y y x x x x x x --+--++--=??-+-++-?? (需理解并会代入数据) 法21 2 1()()?()n i i i n i i x x y y b x x ==--=-∑∑(题目给出不用记忆) []1122222212...,...n n n x y x y x y nx y x x x nx ++-?=??+++-??(这个公式需要自己记忆,稍微简单些) (4) 求常数?a ,既??a y bx =- 最后写出写出回归方程???y bx a =+。可以改写为:??y bx a =-(?y y 与不做区分) 例.已知,x y 之间的一组数据: 求y 与x 的回归方程: 解:(1)先求变量x 的平均值,既1(0123) 1.54x = +++= (2)求变量y 的平均值,既1(1357)44 y =+++= (3)求变量x 的系数?b ,有两个方法

法1?b = []11223344222212342222()()()()()()()()()()()()(0 1.5)(14)(1 1.5)(34)(2 1.5)(54)(3 1.5)(74)57(0 1.5)(1 1.5)(2 1.5)(3 1.5)x x y y x x y y x x y y x x y y x x x x x x x x --+--+--+--=??-+-+-+-??--+--+--+--==??-+-+-+-?? 法2?b =[][]11222222222212...011325374 1.5457 ...0123n n n x y x y x y nx y x x x nx ++-??+?+?+?-??==????+++-+++???? (4)求常数?a ,既525??4 1.577a y bx =-=-?= 最后写出写出回归方程525???77 y bx a x =+=+ 第二公式:独立性检验 两个分类变量的独立性检验: 注意:数据a 具有两个属性1x ,1y 。数 据b 具有两个属性1x ,2y 。数据c 具有两个属性2x ,2y 数据d 具有两个属性2x ,2y 而且列出表格是最重要。解题步骤如下 第一步:提出假设检验问题 (一般假设两个变量不相关) 第二步:列出上述表格 第三步:计算检验的指标 2 2 ()()()()()n ad bc K a b c d a c b d -=++++ 第四步:查表得出结论 例如你计算出2K =9大于表格中7.879,则查表可得结论:两个变量之间不相关概率为0.005,或者可以肯定的说两个变量相关的概率为0.995.或095.50 例如你计算出2K =6大于表格中5.024,则查表可得结论:两个变量之间不相关概率为0.025,或者可以肯定的说两个变量相关的概率为0.995.或097.50 上述结论都是概率性总结。切记事实结论。只是大概行描述。具体发生情况要和实际联系!! !!

线性回归方程

变量间的相关关系与线性回归方程训练一、选择题 1.以下关于相关关系的说法正确的个数是( ) ①相关关系是函数关系;②函数关系是相关关系;③线性相关关系是一次函数关系; ④相关关系有两种,分别是线性相关关系和非线性相关关系. A.0 B.1 C.2 D.3 2.下列关系属于线性负相关的是( ) A.父母的身高与子女身高的关系B.农作物产量与施肥量的关系 C.吸烟与健康的关系D.数学成绩与物理成绩的关系 3.对于给定的两个变量的统计数据,下列说法正确的是( ) A.都可以分析出两个变量的关系B.都可以用一条直线近似地表示两者的关系C.都可以作出散点图D.都可以用确定的表达式表示两者的关系 4.列两个变量之间的关系具有相关关系的是( ) A.家庭的支出与收入B.某家庭用电量与水价间的关系 C.单位圆中角的度数与其所对孤长D.正方形的周长与其边长 5.下列关系中,是相关关系的有( ) ①学生的学习态度与学习成绩之间的关系;②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系;④家庭经济条件与学生学习成绩之间的关系. A.①②B.①③C.②③D.②④ 6.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图 中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=1 2 x+1上,则这组样本数据的样本相 关系数为( ) A.-1 B.0 C.1 2 D.1 7.右图是变量x,y的散点图,那么如图所示的两个变量具有相关关系的是( )

A.(2) (3) B.(1) (2) C.(2) (4) D.(3) (4) 8.在对两个变量x,y进行线性回归分析时一般有下列步骤:①对所求的回归方程作出解释; ②收集数据(x i,y i)(i=1,2,…,n);③求线性回归方程;④求相关系数;⑤根据所搜集的数据绘制散点图,如果根据可靠性要求能够判定变量x,y具有线性相关性,则下列操作顺序正确的是( ) A.①②⑤③④B.③②④⑤①C.②④③①⑤D.②⑤④③① 9.对变量有观测数据理力争得散点图1;对变量有观测数据,得散点图由这两个散点图可以判断() A. 变量与正相关,与正相关方 B. 变量与正相关,与负相关 C. 变量与负相关,与正相关 D. 变量与负相关,与负相关 10.设有一个直线回归方程为,则变量增加一个单位时( ) A.平均增加个单位B.平均增加2 个单位 C.平均减少个单位D.平均减少2 个单位 11.甲、乙、丙、丁四位同学各自对、两变量的线性相关性作试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表。则哪位同学的试验结果体现、两变量更强的线性相关性() 甲103 乙106 丙124 丁115 A.甲B.乙C.丙D.丁

线性回归方程公式证明

112233^ ^^^2 211(,),(,),(,)(,)1,2,3),()()n n i i i i i i n i i i i i i n x y x y x y x y y bx a x i n y bx a y y y a b Q y y bx a y ===+==+-=-=+-∑L L 设有对观察值,两变量符合线生回归设其回归方程为:,把自变量的某一观测值代(入入回归方程得:,此值与实际观测值存在一个差值,此差值称为剩余或误差。现要决定取何值时,才能够使剩余的平方和有最小值,即求11 2 21122 221 1111 22111:,()[()()()]()()()2()()2()()2()() ()2n n n i i i i n n i i i i i i n n n i i i i i i n n i i i i i n i i x x y y n n Q bx a y a bx y y y b x x n a bx y y y b x x a bx y y y a bx y x x b x x y y b x x =============+-=+---+-=+-+-+--+---+-----=--∑∑∑∑∑∑∑∑∑∑∑的最小值知又22 111 122211()()()()()()()()n n i i i i i n n i i i i i i n n i i i i b x x y y n a bx y y y b x x y y x y nx y b x x x n x a y bx ======--++-+----==--=-∑∑∑∑∑∑此式为关于的一元二次方程,当

线性回归方程高考题

线性回归方程高考题 1、下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对照数据: 3 4 5 6 2.5 3 4 4.5 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:)

2、假设关于某设备的使用年限x和所支出的维修费用y(万元)统计数据如下: 使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.0 若有数据知y对x呈线性相关关系.求: (1) 填出下图表并求出线性回归方程=bx+a的回归系数,; 序号x y xy x2 1 2 2.2 2 3 3.8 3 4 5.5 4 5 6.5 5 6 7.0 ∑ (2) 估计使用10年时,维修费用是多少.

3、某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四实试验,得到的数据如下: 零件的个数x(个) 2 3 4 5 加工的时间y(小时) 2.5 3 4 4.5 (1)在给定的坐标系中画出表中数据的散点图; (2)求出y关于x的线性回归方程,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间? (注:

4、某服装店经营的某种服装,在某周内获纯利(元)与该周每天销售这种服装件数之间的一组数据关系如下表: 3 4 5 6 7 8 9 66 69 73 81 89 90 91 已知:. (Ⅰ)画出散点图; (1I)求纯利与每天销售件数之间的回归直线方程. 5、某种产品的广告费用支出与销售额之间有如下的对应数据: 2 4 5 6 8 30 40 60 50 70 (1)画出散点图: (2)求回归直线方程; (3)据此估计广告费用为10时,销售收入的值.

简单线性相关(一元线性回归分析)..

第十三讲 简单线性相关(一元线性回归分析) 对于两个或更多变量之间的关系,相关分析考虑的只是变量之间是否相关、相关的程度,而回归分析关心的问题是:变量之间的因果关系如何。回归分析是处理一个或多个自变量与因变量间线性因果关系的统计方法。如婚姻状况与子女生育数量,相关分析可以求出两者的相关强度以及是否具有统计学意义,但不对谁决定谁作出预设,即可以相互解释,回归分析则必须预先假定谁是因谁是果,谁明确谁为因与谁为果的前提下展开进一步的分析。 一、一元线性回归模型及其对变量的要求 (一)一元线性回归模型 1、一元线性回归模型示例 两个变量之间的真实关系一般可以用以下方程来表示: Y=A + BX + ε 方程中的A 、B 是待定的常数,称为模型系数,ε是残差,是以X 预测Y 产生的误差。 两个变量之间拟合的直线是: y a bx ∧ =+ y ∧ 是 y 的拟合值或预测值,它是在X 条件下Y 条件均值的估计 a 、 b 是回归直线的系数,是总体真实直线A 、B 的估计值,a 即 constant 是截距,当自变量的值为0时,因变量的值。 b 称为回归系数,指在其他所有的因素不变时,每一单位自变量的变化引起的因变量的变化。 可以对回归方程进行标准化,得到标准回归方程: y x ∧ =β β 为标准回归系数,表示其他变量不变时,自变量变化一个标准差单位(Z X X S j j j = -),因变量Y 的标准差的平均变化。

由于标准化消除了原来自变量不同的测量单位,标准回归系数之间是可以比较的,绝对值的大小代表了对因变量作用的大小,反映自变量对Y的重要性。 (二)对变量的要求:回归分析的假定条件 回归分析对变量的要求是: 自变量可以是随机变量,也可以是非随机变量。自变量X值的测量可以认为是没有误差的,或者说误差可以忽略不计。 回归分析对于因变量有较多的要求,这些要求与其它的因素一起,构成了回归分析的基本条件:独立、线性、正态、等方差。 (三)数据要求 模型中要求一个因变量,一个或多个自变量(一元时为1个自变量)。 因变量:要求间距测度,即定距变量。 自变量:间距测度(或虚拟变量)。 二、在对话框中做一元线性回归模型 例1:试用一元线性回归模型,分析大专及以上人口占6岁及以上人口的比例(edudazh)与人均国内生产总值(agdp)之间的关系。 本例使用的数据为st2004.sav,操作步骤及其解释如下: (一)对两个变量进行描述性分析 在进行回归分析以前,一个比较好的习惯是看一下两个变量的均值、标准差、最大值、最小值和正态分布情况,观察数据的质量、缺少值和异常值等,缺少值和异常值经常对线性回归分析产生重要影响。最简单的,我们可以先做出散点图,观察变量之间的趋势及其特征。通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析。如果进行了变量转换,那么应当重新绘制散点图,以确保在变量转换以后,线性趋势依然存在。 打开st2004.sav数据→单击Graphs → S catter →打开Scatterplot 对话框→单击Simple →单击 Define →打开 Simple Scatterplot对话框→点选 agdp到 Y Axis框→点选 edudazh到 X Aaxis框内→单击 OK 按钮→在SPSS的Output窗口输出所需图形。 图12-1 大专及以上人口占6岁及以上人口比例与人均国内生产总值的散点图

线性回归方程题型

线性回归方程 1.【2014高考全国2第19题】某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表: (Ⅰ)求y关于t的线性回归方程; (Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘法估计公式分别为: ()() () 1 2 1 n i i i n i i t t y y b t t ∧ = = -- = - ∑ ∑ ,? ?a y bt =- 2.【2016年全国3】下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码1–7分别对应年份2008–2014. (Ⅰ)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;

(Ⅱ)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据: 7 1 9.32i i y ==∑,7 1 40.17i i i t y ==∑ 0.55=,≈2.646. 参考公式:()() n i i t t y y r --= ∑ 回归方程y a bt =+ 中斜率和截距的最小二乘估计公式分别为: 1 2 1 ()() ()n i i i n i i t t y y b t t ==--= -∑∑ ,=.a y bt - 3.【2015全国1】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的宣传费i x 和年销售量()1,2,,8i y i = 数据作了初步处理,得到下面的散点图及一些统计量的值.

多元线性回归模型公式().docx

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受 k 个自变量 x 1, x 2 ,..., x k 的影响,其 n 组观测值为( y a , x 1 a , x 2 a ,..., x ka ), a 1,2,..., n 。那么,多元线性回归模型的结构形式为: y a 0 1 x 1a 2 x 2 a ... k x ka a () 式中: 0 , 1 ,..., k 为待定参数; a 为随机变量。 如果 b 0 , b 1 ,..., b k 分别为 0 , 1 , 2 ..., k 的拟合值,则回归方程为 ?= b 0 b 1x 1 b 2 x 2 ... b k x k () 式中: b 0 为常数; b 1, b 2 ,..., b k 称为偏回归系数。 偏回归系数 b i ( i 1,2,..., k )的意义是,当其他自变量 x j ( j i )都固定时,自变量 x i 每变 化一个单位而使因变量 y 平均改变的数值。 根据最小二乘法原理, i ( i 0,1,2,..., k )的估计值 b i ( i 0,1,2,..., k )应该使 n 2 n 2 Q y a y a y a b 0 b 1 x 1a b 2 x 2a ... b k x ka min () a 1 a 1 有求极值的必要条件得 Q n 2 y a y a b 0 a 1 () Q n 2 y a y a x ja 0( j 1,2,..., k) b j a 1 将方程组()式展开整理后得:

线性回归方程

线性 回归 方程 统计总课时第18课时分课题线性回归方程分课时第1 课时 教学目标了解变量之间的两种关系,了解最小平方法〔最小二乘法〕的思想,会用公式求解回归系数. 重点难点最小平方法的思想,线性回归方程的求解. 线性回归方程 某小卖部为了了解热茶销量与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对照表: 气温/C ?26 18 13 10 4 -1 杯数20 24 34 38 50 64假设某天的气温是C? -5,那么你能根据这些数据预测这天小卖部卖出热茶的杯数吗? 新课教学 1.变量之间的两类关系: 〔1〕函数关系: 〔2〕相关关系: 2.线性回归方程: 〔1〕散点图: 〔2〕最小平方法〔最小二乘法〕:〔3〕线性相关关系: 〔4〕线性回归方程、回归直线:3.公式: [来源:https://www.wendangku.net/doc/a69897409.html,] 4.求线性回归方程的一般步骤: x y O

例题剖析 例1 下表为某地近几年机动车辆数与交通事故数的统计资料,请判断机动车辆数与交通事故数之间是否具有线性相关关系,如果具有线性相关关系,求出线性回归方程;如果不具有线性相关关系,说明理由.[来源:学&科&网] 机动车辆数x/千辆95 110 112 120 129 135 150 180 交通事故数y/千件 6.2 7.5 7.7 8.5 8.7 9.8 10.2 13 [来源:1ZXXK]

思考:如图是1991年到2000年北京地区年平均气温〔单位:C 〕与年降雨量〔单位:mm 〕的散点图,根据此图能求出它的回归直线方程吗?如果能,此时求得的回归直线方程有意义吗? 巩固练习 1x /百万元 [来 源:Z+xx+https://www.wendangku.net/doc/a69897409.html,] 2 4 5 6 8 y /百万元 30 40 60 50 70 〔1〕画出散点图; 〔2〕求线性回归方程. 课堂小结 了解变量之间的两种关系,了解最小平方法的思想,会用公式求解回归系数. x y 100 200 300 400 500 600 12.40 12.60 12.80 13.00

多元线性回归的计算方法

多元线性回归的计算方法 摘要 在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭 消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。 多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由 于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。 但由于各个自变量的单位可能不一样,比如说一个消费水平的关系式中,工资水平、受教育程度、职业、地区、家庭负担等等因素都会影响到消费水平,而这些影响因素(自变量)的单位显然是不同的,因此自变量前系数的大小并不能说明该因素的重要程度,更简单地来说,同样工资收入,如果用元为单位就比用百元为单位所得的回归系数要小,但是工资水平对消费的影响程度并没有变,所以得想办法将各个自变量化到统一的单位上来。前面学到的标准分就有这个功能,具体到这里来说,就是将所有变量包括因变量都先转化为标准分,再进行线性回归,此时得到的回归系数就能反映对应自变量的重要程度。这时的回归方程称为标准回归方程,回归系数称为标准回归系数,表示如下: Zy=β1Zx1+β2Zx2+…+βkZxk 注意,由于都化成了标准分,所以就不再有常数项a 了,因为各自变量都取平均水平时,因变量也应该取平均水平,而平均水平正好对应标准分0,当等式两端的变量都取0时,常数项也就为0了。 多元线性回归模型的建立 多元线性回归模型的一般形式为 Yi=β0+β1X1i+β2X2i+…+i i i i h x υβ+ =1,2,…,n 其中 k 为解释变量的数目,j β=(j=1,2,…,k)称为回归系数 (regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为 E(Y∣X1i,X2i,…Xki,)=β0+β1X1i+β2X2i+…+βkXki βj 也被称为偏回归系数(partial regression coefficient) 多元线性回归的计算模型

线性回归方程

2.4线性回归方程 重难点:散点图的画法,回归直线方程的求解方法,回归直线方程在现实生活与生产中的应. 考纲要求:①会作两个有关联变量数据的散点图,会利用散点图认识变量间的相关关系. ②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 经典例题:10.有10名同学高一(x)和高二(y)的数学成绩如下: ⑴画出散点图; ⑵求y对x的回归方程。 当堂练习: 1.下表是某小卖部一周卖出热茶的杯数与当天气温的对比表:若热茶杯数y与气温x近似地满足线性关系,则其关系式最接近的是() . .

. . A . B . C . D . 2.线性回归方程表示的直线必经过的一个定点是( ) A . B . C . D . 3.设有一个直线回归方程为 ,则变量x 增加一个单位时 ( ) A . y 平均增加 1.5 个单位 B. y 平均增加 2 个单位 C . y 平均减少 1.5 个单位 D. y 平均减少 2 个单位 4.对于给定的两个变量的统计数据,下列说确的是( ) A .都可以分析出两个变量的关系 B .都可以用一条直线近似地表示两者的关系 C .都可以作出散点图 D. 都可以用确定的表达式表示两者的关系 5.对于两个变量之间的相关系数,下列说法中正确的是( ) A .|r|越大,相关程度越大 B .|r|,|r|越大,相关程度越小,|r|越小,相关程度越大 杯 数 24 34 39 51 63

C.|r|1且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小D.以上说法都不对 6.“吸烟有害健康”,那么吸烟与健康之间存在什么关系() A.正相关B.负相关C.无相关D.不确定 7.下列两个变量之间的关系不是函数关系的是() A.角度与它的余弦值B.正方形的边长与面积 C.正n边形的边数和顶点角度之和D.人的年龄与身高 8.对于回归分析,下列说法错误的是() A.变量间的关系若是非确定性关系,则因变量不能由自变量唯一确定 B.线性相关系数可正可负 C.如果,则说明x与y之间完全线性相关 D.样本相关系数 9.为了考察两个变量x和y之间的线性相关性,甲、乙两个同学各自独立的做10次和15V次试验,并且利用线性回归方法,求得回归直线分布为和,已知 . .

多元线性回归模型公式

二、多元线性回归模型 在多要素的地理环境系统中,多个(多于两个)要素之间也存在着相互影响、相互关联的情况。因此,多元地理回归模型更带有普遍性的意义。 (一)多元线性回归模型的建立 假设某一因变量 y 受k 个自变量x 1,x 2,...,x k 的影响,其n 组观测值为(y a ,x 1a ,x 2a ,...,x ka ), a 1,.2..,n 。那么,多元线性回归模型的结构形式为: y a 1x 1a 2x 2a ... k x ka a (3.2.11) 式中: 0,1 ,..., k 为待定参数; a 为随机变量。 如果b 0,b 1,...,b k 分别为 0,1, 2 ... , k 的拟合值,则回归方程为 ?=b 0 b 1x 1 b 2x 2 ... b k x k (3.2.12) 式中: b 0为常数; b 1,b 2,...,b k 称为偏回归系数。 偏回归系数b i (i1,2,...,k )的意义是,当其他自变量 x j (j i )都固定时,自变量 x i 每 变化一个单位而使因变 量 y 平均改变的数值。 根据最小二乘法原理, i (i 0,1,2,...,k )的估计值b i (i 0,1,2,...,k )应该使 n 2 n 2 Q y a y a y a b 0 b1x1a b2x2a ... bkxk a min (3.2.13) a 1 a1 有求极值的必要条件得 Q n 2 y a y a 0 b 0 a 1 (3.2.14) Q n 2 y a yaxja 0(j 1,2,...,k) b j a1 将方程组(3.2.14)式展开整理后得:

线性相关与线性回归方程

时间:2018年3月20日必修3第二章统计 第9课时线性相关与线性回归方程 学习目标:能在散点图中作出线性回归直线,能用线性回归方程进行预测 了解最小二乘法的含义及思想 理解数形结合、数学模型化的数学思想与方法 学习过程: 一、最小二乘法是什么?怎样得到线性回归直线方程? 1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据。 人体的脂肪百分比和年龄: 年龄23 27 39 41 45 49 50 脂肪9.5 17.8 21.2 25.9 27.5 26.3 28.2 年龄53 54 56 57 58 60 61 脂肪29.6 30.2 31.4 30.8 33.5 35.2 34.6 根据上述数据,人体的脂肪含量y与年龄x之间有怎样的关系? (1)回归直线方程可不可以象前节一样取其中两个点得到? (2)可不可以考虑选择不同的几组点求出相应的直线的斜率与截距,再求这些斜率、截距的平均值得到回归直线方程? (3)你认为回归直线相对于样本数据的各点而言应具备什么特点才可靠? (4)怎样刻画“样本数据的各点到回归直线的距离最小”? (5)将表中的年龄作为x代入所求回归方程,得出的数值与真实值之间有什么关系?你怎样看待这种情况? 2.当两个变量线性相关时,这两个变量的线性回归直线方程(简称回归方程)如何求? 其中系数可直接由公式求之: 回归直线方程表明回归直线过点(称之为样本点的中心)

二、问题分析 1.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为 y=0.85x-85.71, 则下列结论中不正确的是 A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(x,y) C.若该大学某女生身高增加1cm,则其体重约增加0.85kg D.若该大学某女生身高为170cm,则可断定其体重为58.79kg 2.有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表: 摄氏温度/℃-5 0 4 7 12 15 19 23 27 31 36 热饮杯数156 150 132 128 130 116 104 89 93 76 54 (1)画出散点图; (2)从散点图中发现气温与热饮销售杯数之间关系的一般规律; (3)求回归方程; (4)如果某天气温是2℃,预测这天卖出的热饮杯数。 三、总结性思考 1.最小二乘法是什么意思? 2.怎样根据样本数据求线性回归直线方程? 四、课后作业 P94 A3 五、再思考

线性回归方程和卡方的求法

高考统计部分的两个重要公式的具体如何应用 第一公式:线性回归方程为???y bx a =+的求法: (1) 先求变量x 的平均值,既1231()n x x x x x n = +++???+ (2) 求变量y 的平均值,既1231()n y y y y y n =+++???+ (3) 求变量x 的系数?b ,有两个方法 法112 1()()?()n i i i n i i x x y y b x x ==--=-∑∑(题目给出不用记忆)[]112222212()()()()...()()()()...()n n n x x y y x x y y x x y y x x x x x x --+--++--=??-+-++-?? (需理解并会代入数据) 法21 2 1()()?()n i i i n i i x x y y b x x ==--=-∑∑(题目给出不用记忆) []1122222212...,...n n n x y x y x y nx y x x x nx ++-?=??+++-??(这个公式需要自己记忆,稍微简单些) (4) 求常数?a ,既??a y bx =- 最后写出写出回归方程???y bx a =+。可以改写为:??y bx a =-(?y y 与不做区分) 例.已知,x y 之间的一组数据: 求y 与x 的回归方程: 解:(1)先求变量x 的平均值,既1(0123) 1.54x = +++= (2)求变量y 的平均值,既1(1357)44 y =+++= (3)求变量x 的系数?b ,有两个方法

法1?b = []11223344222212342222()()()()()()()()()()()()(0 1.5)(14)(1 1.5)(34)(2 1.5)(54)(3 1.5)(74)57(0 1.5)(1 1.5)(2 1.5)(3 1.5)x x y y x x y y x x y y x x y y x x x x x x x x --+--+--+--=??-+-+-+-??--+--+--+--==??-+-+-+-?? 法2?b =[][]11222222222212...011325374 1.5457 ...0123n n n x y x y x y nx y x x x nx ++-??+?+?+?-??==????+++-+++???? (4)求常数?a ,既525??4 1.577a y bx =-=-?= 最后写出写出回归方程525???77y bx a x =+=+ 第二公式:独立性检验 两个分类变量的独立性检验: 注意:数据a 具有两个属性1x ,1y 。数 据b 具有两个属性1x ,2y 。数据c 具有两个属性2x ,2y 数据d 具有两个属性2x ,2y 而且列出表格是最重要。解题步骤如下 第一步:提出假设检验问题 (一般假设两个变量不相关) 第二步:列出上述表格 第三步:计算检验的指标 22 ()()()()()n ad bc K a b c d a c b d -=++++ 2K =9大于表格中7.879,则查表可得结论:两个变量之间不相关概率为0.005,或者可以肯定的说两个变量相关的概率为0.995.或095.50 例如你计算出2K =6大于表格中5.024,则查表可得结论:两个变量之间不相关概率为0.025,或者可以肯定的说两个变量相关的概率为0.995.或097.50 上述结论都是概率性总结。切记事实结论。只是大概行描述。具体发生情况要和实际联 系!!!!

(整理)两个变量间的线性相关及回归方程的求法专题.

两个变量间的线性相关及回归方程的求法专题 一、如何认识两个变量间的相关关系 相关关系我们可以从以下三个方面加以认识: (1)相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.例如正方形面积S与边长x之间的关系2x S 就是函数关系.即对于边长x的每一个确定的值,都有面积S的惟一确定的值与之对应.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如人的身高与年龄;商品的销售额与广告费等等都是相关关系. (2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.例如有人发现,对于在校儿童,身高与阅读技能有很强的相关关系.然而学会新词并不能使儿童马上长高,而是涉及到第三个因素——年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大身高也会高些. (3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化.例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性.而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计.相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还可使我们对函数关系的认识上升到一个新的高度. 二、如何判断两个变量线性相关关系 1、利用变量相关关系的概念 利用变量相关关系的概念判断时,一般是看当一个变量的值一定时,另一个变量是否带有确定性,两个变量之间的关系具有确定关系--函数关系;两个变量之间的关系具有随机性,不确定性--相关关系。 例1、在下列各个量与量的关系中:①正方体的体积与棱长之间的关系;②一块农田的水稻产量与施肥量之间的关系;③人的身高与年龄之间的关系;④家庭的收入与支出之间的关系;⑤某户家庭用电量与水费之间的关系。其中是相关关系的为 (C④⑤) (D②③④ (A②③) (B③④) ) 解析:①正方体的体积与棱长之间的关系是确定的函数关系;⑤某户家庭用电量与水费之间无任何关系。②③④中,都是非确定的关系,但自变量取值一定时,因变量的取值带有一定的随机性。 点评:解题的关键是首先分析两个量是否有关系,然后判断这种关系是确定性的关系还是随机的不确定性的关系。 变式练习1:下列关系中是带有随机性的相关关系的有_____。 ①光照时间与果树的亩产量的关系;②圆柱的体积与底面直径的关系;③自由下落的物体的质量与落地时间的关系;④学生的数学成绩与物理成绩。 2、利用散点图 通过散点图观察它们的分布是否存在一定的规律,直观地判断。 例2下面的4个散点图中,两个变量具有相关关系的是()

(完整版)线性回归方程-刷题训练

线性回归方程同步练习题(文科) 1.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值, 计算,得∑8 i =1 x i =52,∑8 i =1y i =228,∑8 i =1x 2 i =478,∑8 i =1x i y i =1849,则其线性回归方程为( A ) A.y ^ =11.47+2.62x B.y ^ =-11.47+2.62x C.y ^ =2.62+11.47x D.y ^ =11.47-2.62x 解析 利用回归系数公式计算可得a =11.47,b =2.62,故y ^ =11.47+2.62x . 2.已知x 与y 之间的一组数据: x 0 1 2 3 y 1 3 5 7 则y 对x 的线性回归方程y =bx +A. (2,2) B. (1.5,3.5) C. (1,2) D. (1.5,4) 3. 设回归直线方程为y =2-1.5x ,若变量x 增加1个单位,则( C ). A. y 平均增加1.5个单位 B. y 平均增加2个单位 C. y 平均减少1.5个单位 D. y 平均减少2个单位 4.已知回归方程为y ?=0.50x-0.81,则x=25时,y ?的估计值为 .答案 11.69 5.下表是某厂1~4月份用水量月份x 1 2 3 4 用水量y 4.5 4 3 2.5 由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^ =-0.7x +a ,则a 等于______. 解析 x =2.5,y =3.5,∵回归直线方程过定点(x ,y ),∴3.5=-0.7×2.5+a .∴a =5.25. 6.某服装商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表: 月平均气温x (℃) 17 13 8 2 月销售量y (件) 24 33 40 55 由表中数据算出线性回归方程y ^ =bx +a 中的b ≈-2,气象部门预测下个月的平均气温约为6℃,据此估计, 该商场下个月毛衣的销售量约为________件. 答案 46解析 由所提供数据可计算得出x =10,y =38,又b ≈-2代入公式a =y -b x 可得a =58, 即线性回归方程y ^ =-2x +58,将x =6代入可得. 7.正常情况下,年龄在18岁到38岁的人们,体重y (kg )依身高x (cm )的回归方程为y=0.72x-58.5。 张红红同学不胖不瘦,身高1米78,他的体重应在 69.66 kg 左右。 8.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 . 答案 a,c,b 9.三点(3,10),(7,20),(11,24)的回归方程是 .答案 y ?=1.75x+5.75 10.使用年限x 2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.0

高中数学线性回归方程讲解练习题

教学步骤及教学内容 线性回归方程 (参考公式:b= ∑ i=1 n x i y i-n x y ∑ i=1 n x2i-n x2 ,a=y-b x) 1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的回归直线方程为() A.y ^ =x+1 B.y ^ =x+2 C.y ^ =2x+1 D.y ^ =x-1 2.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R2的值分别约为0.96和0.85,则拟合效果好的模型是() A.甲B.乙C.甲、乙相同D.不确定 3.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x之间的相关关系,现取8对观测值,计算,得∑ 8 i=1 x i=52,∑ 8 i=1 y i=228,∑ 8 i=1 x2i=478,∑ 8 i=1 x i y i=1849,则其线性回归方程为() A.y ^ =11.47+2.62x B.y ^ =-11.47+2.62x C.y ^ =2.62+11.47x D.y ^ =11.47-2.62x 4.下表是某厂1~4月份用水量(单位:百吨)的一组数据: 月份x 123 4 用水量y 4.543 2.5 由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是y ^ =-0.7x+a,则a等于______. 5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:

零件的个数x (个) 2 3 4 5 加工的时间y (小时) 2.5 3 4 4.5 (1)在给定的坐标系中画出表中数据的散点图; (2)求出y 关于x 的线性回归方程y ^ =bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时? 作业 布置 家长 意见 家长签名: 2013 年_月 _日 (第_ 次) 审阅人:

用最小二乘法求线性回归方程

最小二乘法主要用来求解两个具有线性相关关系的变量的回归方程,该方法适用于求解与线性回归方程相关的问题,如求解回归直线方程,并应用其分析预报变量的取值等.破解此类问题的关键点如下: ①析数据,分析相关数据,求得相关系数r,或利用散点图判断两变量之间是否存在线性相关关系,若呈非线性相关关系,则需要通过变量的变换转化构造线性相关关系. ②建模型.根据题意确定两个变量,结合数据分析的结果建立回归模型. ③求参数.利用回归直线y=bx+a的斜率和截距的最小二乘估计公式,求出b,a,的值.从而确定线性回归方程. ④求估值.将已知的解释变量的值代入线性回归方程y=bx+a中,即可求得y的预测值. 注意:回归直线方程的求解与应用中要注意两个方面:一是求解回归直线方程时,利用样本点的中心(x,y)必在回归直线上求解相关参数的值;二是回归直线方程的应用,利用回归直线方程求出的数值应是一个估计值,不是真实值. 经典例题: 下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.

为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为1,2.,……,17)建立模型①:y=+;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:y=99+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠并说明理由. 思路分析:(1)两个回归直线方程中无参数,所以分别求自变量为2018时所对应的函数值,就得结果,(2)根据折线图知2000到2009,与2010到2016是两个有明显区别的直线,且2010到2016的增幅明显高于2000到2009,也高于模型1的增幅,因此所以用模型2更能较好得到2018的预测. 解析:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为 =–+×19=(亿元). 利用模型②,该地区2018年的环境基础设施投资额的预测值为 =99+×9=(亿元). (2)利用模型②得到的预测值更可靠.理由如下: (i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–+上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利

变量间的相关关系与线性回归方程

变量间的相关关系与线性回归方程

变量间的相关关系与线性回归方程 一、知识点 1.正相关:从散点图看,点散布在从左下角到右上角的区域内. 负相关:从散点图看,点散布在从左上角到右下角的区域内. 2.回归直线方程:a x b y ???+=,其中(x 1 ,y 1 ),(x 2 ,y 2 )…, (x n ,y n )为样本点,则 111n i x x n ==∑,11 1n i y y n ==∑; 线性回归方程a x b y ???+=中系数计算公式: 1 2 1 ()() ,()n i i i n i i x x y y b a y bx x x ==--= =--∑∑ 3.统计案例 ⑴相关系数 ?? ? ??-??? ??--= ∑∑∑===n i i n i i n i i i y n y x n x y x n y x r 122 1221 是用于衡量两个变量之间的线性相关程度的.0>r 时表示两个变量正相关;0r 时,可以认为两个变量有很强线性相关性.

⑵相关指数() () ∑∑==--- =n i i n i i y y y y R 1 2 12 21 ,用来刻画回归的效 果,2R 越接近1,表明回归效果越好. ⑶两个分类变量X 和Y 的22?列联表: 则() ()()()()2 2 n ad bc K a b c d a c b d -=++++,通常: (1)828.102>k 有9.99﹪的把握认为X 与Y 有关系;(2)636.62>k 有99﹪的把握认为X 与Y 有关系; (3)841.32>k 有95﹪的把握认为X 与Y 有关系; (4)706.22>k 有90﹪的把握认为X 与Y 有关系; (5)706.22≤k 认为没有充分证据显示X 与Y 有关系;

相关文档
相关文档 最新文档