§2 方差、协方差与相关系数
2.1方差
例1
比较甲乙两人的射击技术,已知两人每次击中环数分布为:
ξ:78901
0601...?? ???
η:67
891001
02040201.....?? ???. 问哪一个技术较好?
首先看两人平均击中环数,此时8E E ξη==,从均值来看无法分辩孰优孰劣. 但从直观上看,甲基本上稳定在8环左右,而乙却一会儿击中10环,一会儿击中6环,较不稳定.因此从直观上可以讲甲的射击技术较好.
上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度.
称ξ-E ξ为随机变量ξ对于均值E ξ的离差(deviation),它是一随机变量. 为了给出一个描述离散程度的数值,考虑用()E E ξξ-,但由于()E E ξξ-=E E ξξ-=0对一切随机变量均
成立,即ξ的离差正负相消,因此用()E E ξξ-是不恰当的. 我们改用(
)2
E E ξξ-描述取
值ξ的离散程度,这就是方差.
定义1 若()2
E E ξξ-存在,
为有限值,就称它是随机变量ξ的方差(variance),记作Var ξ,
Var ξ=(
)2
E E ξξ-
(1)
但Var ξ的量纲与ξ
不同,为了统一量纲,有时用ξ的标准差(standard deviation).
方差是随机变量函数(
)2
E ξξ-的数学期望,由§1的(5)式,即可写出方差的计算公式
Var ξ=2()d ()x E F x ξ
ξ+∞
-∞-?=22()(),,
()()d .i i i x E P x x E p x x ξξξξ+∞
-∞?-=???-?∑?离散型,连续型 (2)
进一步,注意到
()2
E E ξξ-=()222E E E ξξξξ??-+??=()22E E ξξ-
即有
Var ξ=
()2
2
E E ξξ-. (3)
许多情况,用(3)式计算方差较方便些. 例1(续) 计算例1中的方差Var ξ与Var η.
解 利用(3)式
2
E ξ=
∑=i
i i x P x
)
(2ξ=72×0.1+82×0.8+92
×0.1=64.2,
Var ξ=
()2
2
E E ξξ-=64.2--82=0.2. 同理, Var η=
()2
2
E E ηη-= 65.2-64 = 1.2 > Var ξ, 所以η取值较ξ分散. 这说明甲的射击技术较好.
例2 试计算泊松分布P(λ)的方差.
解
2
2
1
!
(1)!k
k
k k E k
e
k
e k k λ
λ
λλξ∞
∞
--====-∑∑
1
1(1)
(1)!(1)!k k
k k k e e k k λ
λ
λλ∞
∞
--===-+--∑∑
2
!
!
j
j
j j j
e
e j j λ
λ
λλλ
λ∞
∞
--===+∑∑
2
λλ=+
所以Var ξ=22
λλλλ+-=.
例3 设ξ服从[ a, b ]上的均匀分布U [a, b],求Var ξ.
解
()2
2
22
11
d 3
b
a
E x x a ab b b a ξ==++-?,
Var ξ()()2
221132a ab b a b ??
=++-+????()2
112b a =-.
例4 设ξ服从正态分布(
)2
,N a σ
,求Var ξ.
解 此时用公式(2),由于E a ξ=,
Var
ξ2
()E a ξ=-222
()/2()d x a x a x σ+∞
---∞
=-?
2
2
2/2d z z e z
∞
--∞
=
2
22/2
/2
z
z ze
e
dz +∞+∞
---∞
-∞
?=-+?
??
22
2πσ=
=.
可见正态分布中参数2
σ就是它的方差, σ就是标准差.
方差也有若干简单而重要的性质. 先介绍一个不等式.
切贝雪夫(Chebyshev)不等式 若随机变量的方差存在,则对任意给定的正数ε,恒有
()2
Var P E ξξεξε-≥≤. (4)
证 设ξ的分布函数为()F x ,则
()
P E ξξε-≥=
?≥-ε
ξ||)(E x x dF 2
2
||()d ()
x E x E F x ξε
ξε
-≥-≤?
22
1
()d ()
x E F x ξε+∞
-∞
≤
-?
=Var ξ/2
ε.
这就得(4)式.
切贝雪夫不等式无论从证明方法上还是从结论上都有一定意义. 事实上,该式断言ξ落在
(),E ξε-∞-与(),E ξε++∞内的概率小于等于Var ξ/2
ε,或者说,ξ落在区间
(),E E ξεξε-+内的概率大于
1-Var ξ/ε2
,从而只用数学期望和方差就可对上述概率进
行估计.
例如,取 ε
(2
1Var P E ξξξ
-≤≥-≈0.89.
当然这个估计还是比较粗糙的(当ξ~()
2,N a σ时,在第二章曾经指出,
P(|ξ-E
ξ|≤ξ-a |≤3σ)≈0.997 ).
性质1 Var ξ=0的充要条件是P(ξ=c) =1,其中c 是常数.
证 显然条件充分. 反之,如果Var ξ= 0,记E ξ= c, 由切贝雪夫不等式, P(|ξ- E ξ|≥ε)=0 对一切正数ε成立. 从而
()P c ξ=()
10P c ξ=-->
()1lim 11
n P c n ξ→∞
=--≥=.
性质2 设c ,b 都是常数,则
Var(c ξ+b )=2
c Var ξ.
(5)
证 Var(c ξ+b )=E (c ξ+b -E (c ξ+b ))2
=E (c ξ+b -c E ξ-b )2
=2c 2()E E ξξ-=c 2Var ξ.
性质3 若c E ξ≠, 则
()2
Var E c ξξ<-.
证 因 Var ξ=E 2
ξ-2
)(ξE , 而E (ξ-c )2=E ξ2-2c E ξ+2
c ,
两边相减得
()2Var E c ξξ--()2
0E c ξ=--<.这说明随机变量ξ对数学期望E ξ的离散
度最小.
性质4
1
Var()
n
i i ξ=∑=
1
Var n
i
i ξ
=∑+2∑≤<≤--n
j i j j i i
E E E 1)
)((ξξξξ
(6)
特别若1,,n ξξ两两独立,则
1Var()
n
i i ξ=∑=
1
Var n
i
i ξ
=∑. (7)
证 Var(
)
1
∑=n
i i ξ=E (
∑=n
i i
1
ξ
-E (
)1
∑=n
i i ξ)
2
=E
∑=-n
i i i E 1
2
))((ξξ
= E
∑∑=≤<≤--+-n
i n
j i j j i i
i i E E E 1
12))
)((2
)((ξξξξ
ξξ
=
1
Var n
i
i ξ
=∑+2∑≤<≤--n
j i j j i i
E E E 1)
)((ξξξξ
,
得证(6)式成立. 当1,,n ξξ两两独立时,对任何1,i j n ≤≤有i j i j E E E ξξξξ=,
故
E ))((j j i i E E ξξξξ--=E()j i i j j i j i E E E E ξξξξξξξξ+-- =E j i j i E E ξξξξ-=0, 这就得证(7)式成立.
利用这些性质,可简化某些随机变量方差的计算. 例5 设ξ服从二项分布B (n , p ), 求Var ξ. 解 如§1例12构造i ξ,1,
,i n =, 它们相互独立同分布,此时
Var 2
222201)(p q p E E i i i -?+?=-=ξξξ=pq. 由于相互独立必是两两独立的,由性质4
Var ξ
1
Var()n i i ξ==∑1
n
i
i Var ξ==∑npq =.
例6 设随机变量1,,n ξξ相互独立同分布, i E a ξ=, Var i ξ=2σ,
(1,
,i n =). 记ξ=∑=n
i i
n 11ξ, 求E ξ,Var ξ.
解 由§1性质2和本节性质2和4有
E ξ
11n
i
i E n ξ==∑a =, Var ξ2
11
Var n
i i n
ξ==∑2
21n n σ=2
n σ=. 这说明在独立同分布时,ξ作为各i ξ的算术平均,它的数学期望与各i ξ的数学期望相同,但方差只有i ξ的1/ n 倍. 这一事实在数理统计中有重要意义. 例7 设随机变量ξ的期望与方差都存在,Var 0ξ>. 令
*ξ=
称它为随机变量ξ的标准化. 求*
E ξ与Var *
ξ. 解 由均值与方差的性质可知
*0
E ξ=
=,
*Var()Var Var E ξξξξ-=
1
Var Var ξ
ξ==.
2.2协方差
数学期望和方差反映了随机变量的分布特征. 对于随机向量1(,,)n ξξ', 除去各分量的期
望和方差外,还有表示各分量间相互关系的数字特征—协方差. 定义2 记i ξ和j ξ的联合分布函数为),(y x F ij . 若
()()i i j j E E E ξξξξ--<+∞
,就称
()()i i j j E E E ξξξξ--()()d (,)i j ij x E y E F x y ξξ+∞+∞
-∞-∞=--?? (8)
为,i j ξξ的协方差( covariance),记作Cov(,i j ξξ). 显然,
()Cov ,i j ξξVar i
ξ=.公式(6)可改写为
Var(
∑=n
i i
1
ξ
)=
∑=n
i i
Var 1
ξ
+2∑≤<≤n
j i j
i
Cov 1)
,(ξ
ξ.
'
)6(
容易验证,协方差有如下性质:
性质1 Cov(,ξη) = Cov(,ηξ)E E E ξηξη=-.
性质2 设,a b 是常数,则
Cov(,)a b ξηCov(,)ab ξη=.
性质3
1
1
Cov(,)Cov(,)
n
n
i i i i ξηξη===∑∑.
对于n 维随机向量ξ=1(,,)n ξξ',可写出它的协方差阵
()()B E E E ξξξξ'=--=??
?
??
??
??nn n n n n b b b b b b b b b 2
122221112
11, (9)
其中Cov(,)ij i j b ξξ=.
由性质1可知B 是一个对称阵,且对任何实数j t ,1,
,j n =, 二次型
∑=n
k j k
j jk t t b
1
,,1
()()n
j k
j
j k k j k t t E E E ξ
ξξξ==
--∑21
(())0
n
j j j j E t E ξξ==-≥∑,
即随机向量ξ的协方差阵B 是非负定的. 性质4 设
ξ=1(,,)n ξξ' ,
C =c c c c n m mn 1111 ?? ?
???,
则C ξ的协方差阵为CBC ',其中B 是ξ的协方差阵.
因为
'
'''')(C CE C EC C EC ξξξξξξ==,所以CBC '的第(),i j 元素就是C ξ的第i 元素与第j 元素的协方差.
2.3相关系数
协方差虽在某种意义上表示了两个随机变量间的关系,但()Cov ,ξη的取值大小与ξ,η的量纲有关. 为避免这一点,用ξ,η的标准化随机变量(见例7)来讨论. 定义3 称
r ξη=Cov(,)
ξη**=
(10)
为ξ, η的相关系数(correlation coefficient). 为了讨论相关系数的意义,先看一个重要的不等式.
柯西—许瓦茨(Cauchy —Schwarz)不等式 对任意随机变量ξ, η有
2
22E E E ξηξη≤.
(11)
等式成立当且仅当存在常数0t 使
()01P t ηξ==.
(12)
证 对任意实数t
2222 ()()2u t E t t E tE E ξηξξηη=-=-+
是t 的二次非负多项式,所以它的判别式
222
()0E E E ξηξη-≤, 证得(11)式成立. (11)式中等式成立当且仅当多项式 ()u t 有重根0t ,即
()200()0
u t E t ξη=-=.
又由(3)
()()
2
00Var t E t ξηξη-≤-,
故得
()0V a r 0t ξη-=,同时有()0
0E t ξη-=. 所以由方差的性质1就证得
()001P t ξη-==,此即 (12)式.
由此即可得相关系数的一个重要性质. 性质1 对相关系数ξηr 有
1
r ξη≤. (13)
ξηr =1当且仅当
1
P ??==; ξηr =-1当且仅当
1
P ??==-.
(14)
证 由(11)式得
1
r E ξηξη**=≤==,
证得(13)式成立. 证明第二个结论. 由定义*
***ηξηξξηE r r ==. 由柯西-许瓦兹不等式的证
明可知,
1||=ξηr 等价于)(t u =2***2*22ηηξξE tE E t +-有重根
)2/(22
***0ξηξe E t ==.**ηξE 因此由(12)式得1=ξηr 当且仅当1)(**==P ηξ;1
-=ξηr 当且仅当
**
()1ξηP -=. 注 性质1表明相关系数1r ξη=±时,ξ与η以概率1存在着线性关系. 另一个极端是ξηr = 0,此时我们称ξ与η不相关(uncorrected). 性质2 对随机变量ξ和η, 下列事实等价:
(1) Cov(ξ,η)=0;
(2) ξ与η不相关;
(3) E E E ξηξη=;
(4)
()Var Var Var ξηξη
+=+.
证 显然(1)与(2)等价. 又由协方差的性质1得(1)与(3)等价. 再由'
)6(式,得(1)与(4)等价. 性质3 若ξ与η独立,则ξ与η不相关.
显然, 由ξ与η独立知(3)成立,从而ξ与η不相关. 但其逆不真.
例8 设随机变量θ服从均匀分布U [0, 2π],ξ=cos θ,sin ηθ=,显然2
2
1ξη+=, 故ξ与η不独立. 但
cos
E E ξθ=201
cos d 02π
?
?π==?,
20
1
sin =sin d 02E E π
ηθ?
?π==?,
20
1
cos sin =cos sin d 02E E π
ξηθθ??
?π=?=?,
故()Cov ,=0 E E E ξηξηξη-=,即ξ与η不相关.
注 性质2不能推广到()3n ≥个随机变量情形. 事实上从()3n ≥个随机变量两两不相关只
能推得
1
1
Var()Var n n
i i
i i ξξ===∑∑,不能推得1
1
n n E E E ξξξξ=. 反之,从这两个等式也不
能推得1,,n ξξ两两不相关. 具体例子不列出了. 对于性质3, 在正态分布情形,独立与不相
关是一致的,这将在下面进行讨论.
例9 设(ξ,η)服从二元正态分布()2
2
12,;,,N a b r σσ, 试求()Cov ,ξη和ξηr .
解
()Cov ,()()(,)d d x a y b p x y x y
ξη+∞
+∞
-∞
-∞
=--??
2
2221221()()()exp d d 2(1)2x a y b y b x a y b r x y r σσσ∞
∞
-∞-∞????---??
--?---?? ?-??????
?,
令1
2x a
y b
z r
σσ--=
-,
2y b t σ-=
, 则1
x a
z rt σ-=+,
12
(,)
(,)x y J z t ?σσ?=
=,
于是
()
Cov ,ξ
η222
/2(1)
2/2()d d z r t zt rt e
e z t
--∞∞
--∞-∞
=
+??
=
2/2
12
d t t
e t
σσ∞
--∞
?
2
2/2(1)
d z
r z e z
∞
---∞
??
22
22
/2
/2(1)
d d t z
r t e
t e z
∞
∞
----∞
-∞
??
= 0+r 21σσ. 故得
r r
ξη=
=.
这就是说二元正态分布中参数r 就是ξ,η的相关系数. 所以对二元正态分布,ξ、η不相关等价于r = 0. 但在第二章已证ξ与η相互独立等价于r = 0. 这样我们有 性质4 对二元正态分布,两个分量不相关与相互独立是等价的.
2.4矩
矩(moment)是最广泛的一种数字特征,常用的矩有两种,一种是原点矩, 对正整数k ,
k k E m ξ=
称为ξ的k 阶原点矩. 数学期望就是一阶原点矩. 另一种是中心矩, 对正整数k ,称
k k E E c )(ξξ-=
为ξ的k 阶中心矩. 方差是二阶中心矩.除此以外,三阶与四阶中心矩也是常用的,它们分别表示随机变量的性状. 往往用他们的相对值.
例10 设ξ为服从正态分布N (02
,σ)的随机变量,此时0E ξ=
,且
2
2
2d x n
n n m c x e
x
σ-+∞
-∞
==
0,13(1),n n σ?=?
???-?
.
2,
12k n k n =+=
特别 4
443σ==c m .故不论σ为多少,正态分布的偏态系数与峰态系数都为0. 我们可以用原点矩来表示中心矩:
;)1(10r k r r
k
r k m m r k c -=-???? ??=∑
反过来,我们也可以用中心矩来表示原点矩:
.)1(10r k r r
k
r k c m r k m -=-???? ??=∑
我们也定义α阶绝对矩
,||αξE M k = 其中α是实数.
对于例10中的随机变量ξ
21!,21||13(1),2k
k n
n k n k E n n k σξσ+=+=???-=?
利用上述结果,可以求出其他某些分布的矩. 如瑞利分布, 具有密度
2
2
22
(),0
x
x
R x e x ααα
-=
>,那么
2
2
2
2
1222
2
1d ||d 2x
x
n n
x x
E x e x x e
x
α
αξα
α+∞
+∞
--+-∞
==
?
?
.
因此,
??????=k k n
n
k n E 2!2,312ααπξ .2,
12k n k n =+=
特别,
2π
α
ξ=E ,2
22αξ=E . 因此,方差
2
2)2
2(απ
σξ-=.
再如,马克斯威尔分布具有密度
2
2
22(),0
x
p x x e
x σ-=
>,那么
2
2
2
2
22220
d ||d x
x
n n n E x e
x x e
x
σ
σξ+∞
+∞
--++-∞
=
=
因此,
2113(1),(1)!,n n k
k n E k σξσ+????+=+ .12,
2+==k n k n
特别,
,
2
2πσ
ξ=E 2
23σξ=E .
例11. 如果ξ服从参数为λ的指数分布,那么 对于1≥k ,
d k
k x
E x e
x λξλ+∞
-=?
1
k k
E ξλ
-=
.
根据递推关系得
!
k k k E ξλ=
.
即指数分布的任意阶矩存在.
Excel数据分析相关系数与协方差 化学合成实验中经常需要考察压力随温度的变化情况。某次实验在两个不同的反应器中进行同一条件下实验得到两组温度与压力相关数据,试分析它们与温度的关联关系,并对在不同反应器内进行同一条件下反应的可靠性给出依据。 相关系数是描述两个测量值变量之间的离散程度的指标。用于判断两个测量值变量的变化是否相关,即,一个变量的较大值是否与另一个变量的较大值相关联(正相关);或者一个变量的较小值是否与另一个变量的较大值相关联(负相关);还是两个变量中的值互不关联(相关系数近似于零)。设(X,Y)为二元随机变量,那么: 为随机变量X与Y的相关系数。p是度量随机变量X与Y之间线性相关密切程度的数字特征。 注:本功能需要使用Excel扩展功能,如果您的Excel尚未安装数据分析,请依次选择“工具”-“加载宏”,在安装光盘中加载“分析数据库”。加载成功后,可以在“工具”下拉菜单中看到“数据分析”选项。 操作步骤 1. 打开原始数据表格,制作本实例的原始数据需要满足两组或两组以上的数据,结果将给出其中任意两项的相关系数。 2. 选择“工具”-“数据分析”-“描述统计”后,出现属性设置框,依次选择:
输入区域:选择数据区域,注意需要满足至少两组数据。如果有数据标志,注意同时勾选下方“标志位于第一行”; 分组方式:指示输入区域中的数据是按行还是按列考虑,请根据原数据格式选择; 输出区域可以选择本表、新工作表组或是新工作簿; 3.点击“确定”即可看到生成的报表。 可以看到,在相应区域生成了一个3×3的矩阵,数据项目的交叉处就是其相关系数。显然,数据与本身是完全相关的,相关系数在对角线上显示为1;两组数据间在矩阵上有两个位置,它们是相同的,故右上侧重复部分不显示数据。左下侧相应位置分别是温度与压力A、B和两组压力数据间的相关系数。
§2 方差、协方差与相关系数 方差 例1 比较甲乙两人的射击技术,已知两人每次击中环数分布为: ξ:7 8901 0601...?? ??? η:67891001 02040201.....?? ???. 问哪一个技术较好 首先看两人平均击中环数,此时8E E ξη==,从均值来看无法分辩孰优孰劣. 但从直观上看,甲基本上稳定在8环左右,而乙却一会儿击中10环,一会儿击中6环,较不稳定.因此从直观上可以讲甲的射击技术较好. 上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度. 称ξ-E ξ为随机变量ξ对于均值E ξ的离差(deviation),它是一随机变量. 为了给出一个描述离散程度的数值,考虑用()E E ξξ-,但由于 ()E E ξξ-=E E ξξ-=0对一切随机变量均成立,即ξ的离差正负相消,因此 用()E E ξξ-是不恰当的. 我们改用()2 E E ξξ-描述取值ξ的离散程度,这 就是方差. 定义 1 若()2 E E ξξ-存在,为有限值,就称它是随机变量ξ的方差(variance),记作Var ξ, Var ξ=()2E E ξξ- (1) 但Var ξ的量纲与ξξ的标准差(standard deviation). 方差是随机变量函数()2 E ξξ-的数学期望,由§1的(5)式,即可写出方差的计算公式
Var ξ=2()d ()x E F x ξ ξ+∞ -∞-?=22()(),,()()d .i i i x E P x x E p x x ξξξξ+∞ -∞?-=???-?∑?离散型,连续型 (2) 进一步,注意到 ()2 E E ξξ-= ()222E E E ξξξξ??-+??=()22E E ξξ- 即有 Var ξ=()2 2 E E ξξ-. (3) 许多情况,用(3)式计算方差较方便些. 例1(续) 计算例1中的方差Var ξ与Var η. 解 利用(3)式 2 E ξ= ∑=i i i x P x ) (2 ξ=72×+82×+92×=, Var ξ= ()2 2E E ξξ-=82=. 同理, Var η= ()2 2 E E ηη-= = > Var ξ, 所以η取值较ξ分散. 这说明甲的射击技术较好. 例2 试计算泊松分布P(λ)的方差. 解 2 2 01 ! (1)!k k k k E k e k e k k λ λ λλξ∞ ∞ --====-∑∑ 1 1(1) (1)! (1)!k k k k k e e k k λ λ λλ∞ ∞ --===-+--∑∑ 2 ! ! j j j j j e e j j λ λ λλλ λ∞ ∞ --===+∑∑ 2 λλ=+ 所以Var ξ=22 λλλλ+-=. 例3 设ξ服从[ a, b ]上的均匀分布U [a, b],求Var ξ.
探究协方差与相关系数 罗燕 摘要:协方差),(Y X Cov 是描述二维随机变量两个分量间相互关联程度的一个特征数,如果将协方差相应标准化变量就得到相关系数),(Y X Corr 。从而可以引进相关系数),(Y X Corr 去刻画二维随机变量两个分量间相互关联程度。且事实表明,相关系数明显被广泛应用。本文的目的在于从协方差与相关系数的关系的角度去探讨协方差与相关系数的优缺点,并具体介绍协方差和相关系数这两个描述二维随机变量间相关性的特征数。 关键字:协方差),(Y X Cov 相关系数),(Y X Corr 相互关联程度 1 协方差、相关系数的定义及性质 设(X ,Y )是一个二维随机变量,若E{ [ X-E(X) ] [ Y -E(Y) ] }存在,则称此数学期望为X 与Y 的协方差,并记为Cov(X,Y)=E{ [ X-E(X) ] [ Y -E(Y) ] },特别有Cov(X,X)=)(X Var 。 从协方差的定义可以看出,它是X 的偏差“X-E(X) ”与Y 的偏差“Y -E(Y)”的乘积的数学期望。由于偏差可正可负,故协方差也可正可负,也可为零,其具体表现如下: ·当Cov(X,Y)>0时,称X 与Y 正相关,这时两个偏差 [ X-E(X) ] 与[ Y -E(Y) ] 同时增加或同时减少,由于E(X)与E(Y)都是常数,故等价于X 与Y 同时增加或同时减少,这就是正相关的含义。 ·当Cov(X,Y)<0时,称X 与Y 负相关,这时X 增加而Y 减少,或Y 增加而X 减少,这就是负相关的含义。 ·当Cov(X,Y)=0时,称X 与Y 不相关。 也就是说,协方差就是用来描述二维随机变量X 与Y 相互关联程度的一个特征数。协方差Cov(X,Y)是有量纲的量,譬如X 表示人的身高,单位是米(m ),Y 表示人的体重,单位是公斤(k g ),则Cov(X,Y)带有量纲(m ·kg )。为了消除量纲的影响,对协方差除以相同量纲的量,就得到一个新的概念—相关系数,它的定义如下: 设(X ,Y )是一个二维随机变量,且)(X Var >0,)(Y Var >0.则称 ),(Y X C o r r =)()() ,(Y Var X Var Y X Cov =y x Y X Cov σσ),( 为X 与Y 的(线性)相关系数。 利用施瓦茨不等式我们不难得到-1≤),(Y X Corr ≤1.也就是说相关系数是介于-1到1之间的,并且可以对它作以下几点说明: ·若),(Y X Corr =0,则称X 与Y 不相关。不相关是指X 与Y 没有线性关系,但也有可能有其他关系,比如平方关系、立方关系等。 ·若),(Y X Corr =1,则称X 与Y 完全正相关;若),(Y X Corr =-1,则称X 与Y 完全,负相关。
协方差分析理论与案例 假设我们有N 个个体的K 个属性在T 个不同时期的样本观测值,用it y ,it x ,…,N,t=1,…,T,k=1,…,K 表示。一般假定y 的观测值是某随机实验的结果,该实验结果在属性向量x 和参数向量θ下的条件概率分布为(,)f y x θ。使用面板数据的最终目标之一就是利用获取的信息对参数θ进行统计推断,譬如常假设假定的y 是关于x 的线性函数的简单模型。协方差分析检验是识别样本波动源时广泛采用的方法。 方差分析:常指一类特殊的线性假设,这类假设假定随机变量y 的期望值仅与所考察个体所属的类(该类由一个或多个因素决定)有关,但不包括与回归有关的检验。而协方差分析模型具有混合特征,既像回归模型一样包含真正的外生变量,同时又像通常的方差一样允许每个个体的真实关系依赖个体所属的类。 常用来分析定量因素和定性因素影响的线性模型为: *,1,,,1,,it it it it it y x u i N t T αβ'=++=???=??? 从两个方面对回归系数估计量进行检验:首先,回归斜率系数的同质性;其 次,回归截距系数的同质性。检验过程主要有三步: (1) 检验各个个体在不同时期的斜率和截距是否都相等; (2) 检验(各个体或各时期的)回归斜率(向量)是否都相等; (3) 检验各回归截距是否都相等。 显然,如果接受完全同同质性假设(1),则检验步骤中止。但如果拒绝了完全同质性性假设,则(2)将确定回归斜率是否相同。如果没有拒绝斜率系数的同质性假设,则(3)确定回归截距是否相等。(1)是从(2)、(3)分离出来的。 基本思想:在作两组或多组均数1y ,2y ,…,k y 的假设检验前,用线性回归分析方法找出协变量X 与各组Y 之间的数量关系,求得在假定X 相等时修定均数1y ',2y ',…,k y '然后用方差分析比较修正均数间的差别,这就是协方差分析的基本思想。 协方差分析的应用条件:⑴要求各组资料都来自正态总体,且各组的方差相等;(t 检验或方差分析的条件)⑵各组的总体回归系数i β相等,且都不等于0(回归方程检验)。因此,应用协方差分析前,要对资料进行方差齐性检验和回归系数的假设检验(斜率同质性检验),只有满足上述两个条件之后才能应用,否则不宜使用。 ⑴各比较组协变量X 与分析指标Y 存在线性关系(按直线回归分析方法进行判断)。 ⑵各比较组的总体回归系数i β相等,即各直线平行(绘出回归直线,看是否
二维随机变量的期望与方差 对于二维随机变量,如果存在,则 称为二维随机变量的数学期望。 1 、当( X ,Y ) 为二维离散型随机变量时 2 、当( X ,Y ) 为二维连续型随机变量时 例题 2.39 设,求。与一维随机变量函数的期望一样,可求出二维随机变量函数的期望。 对二维离散型随机变量( X ,Y ) ,其函数的期望为 对二维连续型随机变量( X ,Y ) ,其函数的期望为
例题 2.40 设,求 2.41 设( X ,Y ) 服从区域A 上的均匀分布,其中A 为x 轴、y 轴及直线 围成的三角形区域,如图2-10 所示。求函数的数学期望。 随机变量的数学期望和方差的三个重要性质: 1 、 推广: 2 、设X 与Y 相互独立,则 推广:设相互独立,则 3 、设X 与Y 相互独立,则 推广:设相互独立,则 仅对性质 3 就连续型随机变量加以证明 证明3
由于X 与Y 相互独立,所以与相互独立,利用性质 2 、知道 从而有, 可以证明:相互独立的随机变量其各自的函数间,仍然相互独立。 例题 2.42 某学校流行某种传染病,患者约占,为此学校决定对全校1000 名师生进 行抽血化验。现有两个方案:①逐个化验;②按四个人一组分组,并把四个人抽到的血混合在一起化验,若发现有问题再对四个人逐个化验。问那种方案好? 2.10.2 协方差与相关系数 分析协方差与相关系数反映随机变量各分量间的关系;结合上面性质 3 的证明,可以得到以下结论: 若X 与Y 相互独立,则 可以用来刻划X 与Y 之间的某种关系。 定义设( X ,Y ) 为二维随机变量,若 存在,则称它为随机变量X 与Y 的协方差,记作或,即 特别地 故方差,是协方差的特例。计算协方差通常采用如下公式:
第三节 协方差及相关系数 对多维随机变量, 随机变量的数学期望和方差只反映了各自的平均值与偏离程度,并没能反映随机变量之间的关系. 本节将要讨论的协方差是反映随机变量之间依赖关系的一个数字特征. 内容分布图示 ★ 引言 ★ 协方差的定义 ★ 协方差的性质 ★ 例1 ★ 例2 ★ 相关系数的定义 ★ 相关系数的性质 ★ 例3 ★ 例4 ★ 例5 ★ 例6 ★ 矩的概念 ★ 协方差矩阵 ★ n 维正态分布的概率密度 ★ n 维正态分布的几个重要性质 ★ 例7 ★ 内容小结 ★ 课堂练习 ★ 习题4-3 内容要点: 一、 协方差的定义 定义 设),(Y X 为二维随机向量,若 )]}()][({[Y E Y X E X E -- 存在, 则称其为随机变量X 和Y 的协方差, 记为),(Y X Cov ,即 )]}.()][({[),cov(Y E Y X E X E Y X --= 按定义, 若),(Y X 为离散型随机向量,其概率分布为 ),2,1,(},{ ====j i p y Y x X P ij j i 则 ∑--=j i j i Y E y X E x E Y X ,)]}.()][({[),cov( 若),(Y X 为连续型随机向量, 其概率分布为),,(y x f 则 ? ? +∞∞-+∞∞ ---=dxdy y x f Y E y X E x E Y X ),()]}()][({[),cov(. 此外, 利用数学期望的性质, 易将协方差的计算化简. ). ()()()()()()()()()()]} ()][({[),cov(Y E X E XY E Y E X E X E Y E Y E X E XY E Y E Y X E X E Y X -=+--=--= 特别地, 当X 与Y 独立时, 有 .0),cov(=Y X 二、协方差的性质 1. 协方差的基本性质 );(),cov()1(X D X X = );,cov(),cov()2(X Y Y X = ),cov(),cov()3(Y X ab bY aX =,其中b a ,是常数;
一、协方差矩阵 变量说明: 设为一组随机变量,这些随机变量构成随机向量,每个随机变量有m个样本,则有样本矩阵 (1) 其中对应着每个随机向量X的样本向量,对应着第i个随机单变量的所有样本值构成的向量。 单随机变量间的协方差: 随机变量之间的协方差可以表示为 (2) 根据已知的样本值可以得到协方差的估计值如下: (3) 可以进一步地简化为: (4) 协方差矩阵:
(5)其中,从而得到了协方差矩阵表达式。 如果所有样本的均值为一个零向量,则式(5)可以表达成: (6) 补充说明: 1、协方差矩阵中的每一个元素是表示的随机向量X的不同分量之间的协方差,而不是不同样本之间的协方差,如元素C ij就是反映的随机变量X i, X j的协方差。
2、协方差是反映的变量之间的二阶统计特性,如果随机向量的不同分量之间的相关性很小,则所得的协方差矩阵几乎是一个对角矩阵。对于一些特殊的应用场合,为了使随机向量的长度较小,可以采用主成分分析的方法,使变换之后的变量的协方差矩阵完全是一个对角矩阵,之后就可以舍弃一些能量较小的分量了(对角线上的元素反映的是方差,也就是交流能量)。特别是在模式识别领域,当模式向量的维数过高时会影响识别系统的泛化性能,经常需要做这样的处理。 3、必须注意的是,这里所得到的式(5)和式(6)给出的只是随机向量协方差矩阵真实值的一个估计(即由所测的样本的值来表示的,随着样本取值的不同会发生变化),故而所得的协方差矩阵是依赖于采样样本的,并且样本的数目越多,样本在总体中的覆盖面越广,则所得的协方差矩阵越可靠。 4、如同协方差和相关系数的关系一样,我们有时为了能够更直观地知道随机向量的不同分量之间的相关性究竟有多大,还会引入相关系数矩阵。 二、相关矩阵 相关系数: 著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。 依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。 相关系数用r表示,它的基本公式(formula)为: 相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:
§2 方差、协方差与相关系数 一、方差 二、协方差 三、相关系数 四、矩 一、方差 例1 例1 比较甲乙两人的射击技术,已知两人每次击中环数ξ分 布为 ξ: 789010601...?? ??? η:67 891001 02040201.....?? ???. 问哪一个技术较好? 首先看两人平均击中环数,此时8E E ξη==,从均值来看无法分辩孰优孰劣. 但从直观上看,甲基本上稳定在8环左右,而乙却一会儿击中10环,一会儿击中6环,较不稳定.因此从直观上可以讲甲的射击技术较好. 上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度. 称ξ-E ξ为随机变量ξ对于均值E ξ的离差(deviation),它是一随机变量. 为了给出一个描述离散程度的数值,考虑用()E E ξξ-,但由于 ()E E ξξ-=E E ξξ-=0对一切随机变量均成立,即ξ的离差正负相消,因此用 ()E E ξξ-是不恰当的. 我们改用()2 E E ξξ-描述取值ξ的离散程度,这就是方差. 定义1 若 () 2 E E ξξ-存在,为有限值,就称它是随机变量ξ的方差 (variance),记作Var ξ, Var ξ=()2 E E ξξ- (1) 但Var ξ的量纲与ξ ξ的标准差
(standard deviation). 方差是随机变量函数()2 E ξξ-的数学期望,由§1的(5)式,即可写出方差的 计算公式 Var ξ=2()d ()x E F x ξ ξ+∞-∞-?=22()(),, ()()d .i i i x E P x x E p x x ξξξξ+∞ -∞?-=???-?∑?离散型,连续型 (2) 进一步,注意到 ()2 E E ξξ-=()222E E E ξξξξ??-+??=()22E E ξξ- 即有 Var ξ=()2 2E E ξξ-. (3) 许多情况,用(3)式计算方差较方便些. 例1(续) 计算例1中的方差Var ξ与Var η. 解 利用(3)式 2 E ξ= ∑=i i i x P x ) (2 ξ=72×0.1+82×0.8+92 ×0.1=64.2, Var ξ=()2 2E E ξξ-=64.2--82=0.2. 同理, Var η=()2 2E E ηη-= 65.2-64 = 1.2 > Var ξ, 所以η取值较ξ分散. 这说 明甲的射击技术较好. 例2 试计算泊松分布P(λ)的方差. 解 2 2 01 ! (1)!k k k k E k e k e k k λ λ λλξ∞ ∞ --====-∑∑ 1 1(1) (1)!(1)!k k k k k e e k k λ λ λλ∞ ∞ --===-+--∑∑ 2 ! ! j j j j j e e j j λ λ λλλ λ∞ ∞ --===+∑∑ 2 λλ=+ 所以Var ξ=22 λλλλ+-=. 例3 设ξ服从[ a, b ]上的均匀分布U [a, b],求Var ξ.
https://www.wendangku.net/doc/8216283191.html,/Probability/course/chapter3-2.htm 一、方差 例1 例1 比较甲乙两人的射击技术,已知两人每次击中环数ξ分 布为 ξ: 789010601...?? ??? η:67 891001 02040201.....?? ???. 问哪一个技术较好? 首先看两人平均击中环数,此时8E E ξη==,从均值来看无法分辩孰优孰劣. 但从直观上看,甲基本上稳定在8环左右,而乙却一会儿击中10环,一会儿击中6环,较不稳定.因此从直观上可以讲甲的射击技术较好. 上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度. 称ξ-E ξ为随机变量ξ对于均值E ξ的离差(deviation),它是一随机变量. 为了给出一个描述离散程度的数值,考虑用()E E ξξ-,但由于 ()E E ξξ-=E E ξξ-=0对一切随机变量均成立,即ξ的离差正负相消,因此用 ()E E ξξ-是不恰当的. 我们改用()2 E E ξξ-描述取值ξ的离散程度,这就是方差. 定义1 若 () 2 E E ξξ-存在,为有限值,就称它是随机变量ξ的方差 (variance),记作Var ξ, Var ξ=()2 E E ξξ- (1) 但Var ξ的量纲与ξ ξ的标准差(standard deviation). 方差是随机变量函数()2 E ξξ-的数学期望,由§1的(5)式,即可写出方差的 计算公式 Var ξ=2()d ()x E F x ξ ξ+∞ -∞-?=22()(),, ()()d .i i i x E P x x E p x x ξξξξ+∞ -∞?-=???-?∑?离散型,连续型 (2)