第一章 多元正态分布的参数估计
一、填空题
1.设X 、Y 为两个随机向量,对一切的u 、v
,有 ,则称X 与Y 相互独立。
2.多元分析处理的数据一般都属于 数据。
3.多元正态向量()'
=p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。
4.一个p 元函数()
p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。
5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X ,
2X , ,p X 是相互独立的。
6.多元正态分布的任何边缘分布为 。
7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则
~d AX + 。
8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。
10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 1
1
-具有 、 和 。
12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则
~X ,X 和S 。
13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵
()()()()∑='
--=n
X X X X S 1~ααα 。
14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题
1.多元分布函数()x F 是单调不减函数,而且是右连续的。
2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合
()p R X ∈'αα都是一元正态分布。
3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质:
(1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B
4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。
5.一般情况下,对任何随机向量()'=X X
X p
,,1
,协差阵∑是对称阵,也
是正定阵。
6.多元正态向量(
)'
=X X X p
,,1
的任意线性变换仍然服从多元正态分布。
7.多元正态分布的任何边缘分布为正态分布,反之一样。 8.多元样本中,不同样品之间的观测值一定是相互独立的。
9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。
10.
S n
1
是∑的无偏估计。 11.Wishart 分布是2
χ分布在p 维正态情况下的推广。
12.若()()∑,~μαp N X ,n ,,1 =α,且相互独立,则样本离差阵
()()()()()∑-'
--=∑=,1~1
n W X X X X S n
p ααα
13.若()∑,~n W X p ,C 为奇异矩阵,则()c c n W C CX p '∑',~ 三、简答题
1.多元正态分布有哪些基本性质?
2.均值向量和协差阵的最大似然估计量有哪些优良性质?
3.维希特分布有哪些基本性质?
4.试述多元联合分布和边缘分布之间在关系。 四、证明题
1.样本均值向量和离差阵也可以用样本资料X 直接表示如下:
n X n X 11'=
,X n I X S n n n ??
?
??'-'=111
其中:()'=1,,1,11 n ,????
??????=1001
I
试分别给以证明。
五、计算题
1.已知随机向量()'
=21,X X X 的联合分布密度函数为
()()()()()()()[]
()()
2
2
21212122,c b a b c x a x c x a b a x c d x x f -------+--=
其中,b x a ≤≤1,d x c ≤≤2.求:
(1)随机变量1X 和2X 各自的边缘密度函数、均值与方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。
第二章 多元正态分布均值向量和协差阵的检验
一、填空题
1.在一个正态总体均值向量的假设检验中,在∑已知的情况下,构造的检验统计量为 ,服从 分布;在∑未知的情
况下,构造的检验统计量为 ,服从 分布。
2.若()∑,0~p N X ,()∑,~n W S p ,且X 与S 相互独立,令X S X n T 12
-'=,则
~12
T np
p n +- 。 3.在两个正态总体均值向量的假设检验中,假定其协差阵∑相等,则在∑已知的情况下,构造的统计量为 ,服从的分布为 ;在∑未知的情况下,构造的检验统计量为 ,服从的分布为 。
二、判断题
1.设()∑,~μp N X ,()∑,~n W S p ,p n ≥,则称统计量X S X n T 12
-'
=的分布为非中心2HotellingT 分布,记为()μ,,~2
2n p T
T 。
2.在协差阵∑未知的情况下对均值向量进行检验,需要用样本协差阵
S n
1
去代替∑。
3.2
HotellingT 分布是一元统计分布中t 分布的推广。 三、简答题
1.试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。 2.试述多元统计分析中2
HotellingT 分布和一元统计中t 分布的关系。
第三章 主成分分析 一、填空题
1.
2.主成分分析的数学模型可简写为 ,该模型的系数要求
3 4.第k 个主成分k y
k 个主成分的累积贡献率为
5spss
6.主成分的协方差矩阵为_________矩阵。
7.原始变量协方差矩阵的特征根的统计含义是________________。
8.原始数据经过标准化处理,转化为均值为__ __,方差为__ __的标准值,且其________矩阵与相关系数矩阵相等。
9.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为________。 10.SPSS 中主成分分析采用______________命令过程。 二、判断题
1.主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标来代替原来指标。 ( )
2.主成分y 的协差阵为对角矩阵。 ( )
3.p x x x ,,,21 的主成分就是以∑的特征向量为系数的一个组合,它们互不相关,其方差为
∑的特征根。 ( )
4.原始变量i x 的信息提取率()
m i V 表示这m 个主成分所能够解释第i 个原始变量变动的程度。
( )
5.在spss 中,可以直接进行主成分分析。 ( ) 6.主成分分析可用于筛选回归变量。 ( )
7.SPSS 中选取主成分的方法有两个:一种是根据特征根≥1来选取; 另一种是按照累积贡献率≥85%来选取。 ( )
8.主成分方差的大小说明了该综合指标反映p 个原始观测变量综合变动程度的能力的大小。 ( )
9.主成分表达式的系数向量是协方差矩阵∑的特征向量。 ( )
10.主成分k y 与原始变量i x 的相关系数()i k x y ,ρ反映了第k 个公共因子对第i 个原始变量的解释程度。 ( ) 三、简答题
1.简述主成分的概念及几何意义。 2.主成分分析的基本思想是什么? 3.简述主成分分析的计算步骤。 4.主成分有哪些性质? 5.主成分主要应用在哪些方面? 四、计算题
1.假设3个变量1x 、2x 和3x 的协方差矩阵为:
????
?
?????--=∑20
053
032
要求用此协差阵和相应的相关阵对这3个变量进行主成分分析,根据计算结果说明应选取多少个主成分以代表原来的3个变量,并说明理由。
2.在一项研究中,测量了376只鸡的骨骼,并利用相关系数矩阵进行主成分分析,见下表:
(1)解释6个主成分的实际意义。
(2)计算前三个主成分各自的贡献率和累积贡献率。
(3)对于y4,y5,y6的方差很小这一点,你怎样对实际情况作出推断。 3.假设某商场棉鞋1x 、凉鞋2x 、布鞋3x 三种商品销售量的协方差矩阵如下:
????
?
?????--=∑20
052
021 试求各主成分,并对各主成分的贡献率和各个原始观测变量的信息提取率进行讨论。 4.对某市15个大中型工业企业进行经济效益分析,经研究确定,从有关经济效益指标中选取7个指标作分析,即固定资产产值率(X1),固定资产利税率(X2),资金利润率(X3),资金利税率(X4),流动资金周转天数(X5),销售收入利税率(X6)和全员劳动生产率(X7)。数据资料如下:
根据下面SPSS 软件的输出信息,回答:
(1)这个数据的7个变量可以用几个综合变量(主成分)来表示? (2)这几个综合变量(主成分)包含有多少原来的信息? (3)写出这几个综合变量(主成分)的模型。 (4)构造综合评价函数为。 Total Variance Explained
Extraction Method: Principal Component Analysis.
Component Matrix(a)
Extraction Method: Principal Component Analysis. a 2 components extracted.
(1)这个数据的7个变量可以用二个综合变量来表示
(2) 前二个成分特征值对应的方差累计占了总方差的84.577%,它们已经代表了原来7个变量绝大部分的信息 。
(3)由Component1、2的系数除以635.4、285.1,得到:
7
653.4/585.0653.4/943.0653.4/984.0653.4/888.03211x x x x Y +++=
7285.1/594.0285.1/028.0285.1/213.0212x x x Y -+-=
(4)利用选取得二个主成分,以各主成分的方差贡献率作为权数,构造综合评价函数为:
2
1?%358.18?%219.66Y Y F +=
五、证明题
主成分有三个重要性质: ⑴F 的协差阵为对角阵Λ; ⑵
1
1
p
p
ii
i i i σ
λ===∑∑;
⑶(
),k i F X ρ=
试分别加以证明。
第四章 因子分析
一、填空题
1.因子分析常用的两种类型为 和 。
2.因子分析是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现_____________与____________之间的相互关系。
3.因子分析就是通过寻找众多变量的 来简化变量中存在的复杂关系的一种方法。
4.因子分析是把每个原始变量分解成两个部分即 、 。 5.变量共同度是指因子载荷矩阵中_______________________。 6.公共因子方差与特殊因子方差之和为_______。
7.求解因子载荷矩阵常用的方法有 和 。 8.常用的因子旋转方法有 和 。 9.Spss 中因子分析采用 命令过程。
10.变量i X 的方差由两部分组成,一部分为 ,另一部分为 。
二、判断题
1.在因子分析中,因子载荷阵不是唯一的。 ( )
2.因子载荷阵经过正交旋转后,各变量的共性方差和各个因子的贡献都发生了变化。 ( )
3.因子分析和主成分分析的核心思想都是降维。 ( )
4.因子分析有两大类,R 型因子分析和Q 型因子分析;其中R 型因子分析是从变量的相似矩阵出发,而Q 型因子分析是从样品的相关矩阵出发。( )
5.特殊因子与公共因子之间是相互独立的。( ) 6.变量共同度是因子载荷矩阵列元素的平方和。( ) 7.公共因子的方差贡献是衡量公共因子相对重要性指标。( ) 8.对因子载荷阵进行旋转的目的是使结构简化。( ) 三、简答题
$ 1. 因子分析的基本思想是什么,它与主成分分析有什么区别和联系?
$ 2.因子模型的矩阵形式ε+=X UF ,其中:
()
()
()
u F
F ij m
p P
m
U F ?='
='
=εεε,,,,1
1
请解释式中F 、ε
、U 的统计意义。
F l ,F 2,…,F m 叫做公共因子,它们是在各个变量中共同出现的因子。εi (i=1,2,…,p )表示影响Xi 的独特因子。u ij 做因子载荷,它是第i 个变量在第j 个主因子上的负荷,或者叫做第i 个变量在第j 个主因子上的权,它反映了第i 个变量在第j 主因子上的相对重要性。ε
i 为独特因子的载荷。因子分析的基本问题就是要确定因子载荷。
$ 3.因子旋转的意义何在?如何进行最大方差因子旋转? 因子旋转的目的是通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构更简单,更易于解释,以期找到意义更为明确,实际意义更明显的公因子。
对公共因子作正交旋转就是对载荷矩阵U 作一正交变换,右乘正交矩阵T ,使得UT
有更明显的实际意义。旋转以后的公共因子向量为F T F '=*,它的各个分量*
*2*1,,m
F F F 也是互不相关的因子。根据正交矩阵T 的不同选取方式,将构造不同的正交旋转的方法。
解:由题中数据可得因子载荷矩阵为:
()????
? ??--=????
???????
?
?--=???
?
?
?
=077.0628.0077.0628.0275.0352
.00877.000
9123
.0261.0657.0261.0657
.0929.0369.00
021
21λλααU
① 因子分析模型为: (3分)
1211275.0352.0ε++=F F x 2212077.0628.0ε+-=F F x 3213077.0628.0ε++-=F F x
② 变量的共同度为: (4分) ()()2.0076.0124.0275.0352.02
2
2
1
2121
=+=+==∑=j j u h
()()4.0006.0394.0077.0628.02
2
2
12222=+=-+==∑=j j u h
()()4.0006.0394.0077.0628.02
2
2
1
2323=+=+-==
∑=j j
u
h
它分别反映了公因子对i x 的影响作用大小。 ③ 公共因子的方差贡献为:(5分)
()()()
912
.0394.0394.0124.0628.0628.0352.02
2
2
3
1
211=++=-++==∑=i i u S
()()()
088
.0006.0006.0076.0077.0077.0275.02
2
2
3
1
222=++=+-+==∑=i i u S
它分别反映了第j 个公因子j y 对X 的各个分量i x 的方差贡献之和。
2.设变量x 1,x 2和x 3已标准化,其样本相关系数矩阵为:
??
??
??????=135.045.035.0163.045.063.01
R
(1)对变量进行因子分析。 (2)取q=2进行正交因子旋转。
3.已知我国某年各地区的国有及非国有规模以上的工业企业经济效益资料,现做因子分析,结果如下,请说明每一个输出结果的含义及目的,并回答以下问题:
(1)什么是方差贡献率? 计算方差贡献率的目的何在? (2) 如何利用因子分析结果进行综合评价? 结合本例写出计算综合评价结果的公式。 (非原题)
表1
表2
表3
表4
表5
(1)13个指标可以用三个公因子来表示。而且前3个因子的累积方差贡献率为84.916%,应该选取前4个公因子。第一个公因子在指标X1、X2、X3上有较大载荷,说明这3个指标有较强的相关性,可以归为一类;第二个公因子在指标X4、X5上有较大载荷,同样可以归为一类;同理,第三个公因子在指标X6、X7上有较大载荷,可以归为一类.
(2)根据旋转前的因子载荷阵,写出每个原始变量的因子表达式:
X1=0.921F1-0.171F2+0.117F3+ε 1
X2=0.787F1+0.462F2+0.307F3+ε 2
…………………………………………
X7-8.26E-02F1+0.782F2+0.444F3+ε7
(3)旋转后的因子得分函数
F1=0.480X1+0.351X2-0.032X3-0215X4+0.315X5-0.018X6+0.137X7
F2=-0.272X1+0.140X2+0.212X3+0.508X4+0.043X5+0.407X6+0.031X7
F3=-0.087X1-0.290X2+0.553X3+0.082X4+0.052X5+0.143X6-0.572X7
五、操作题
1.10
(1
(2)分别计算各变量的公共因子方差和特殊因子方差,判断哪个因子能概括原始信息的大部分,为什么?
(3)写出方差最大正交旋转因子模型,并分析各因子的实际含义
(4)计算各个样本点的因子得分
第一、对数据资料进行主成分分析:
(1)前两个最大特征根为_____________、______________,其对应的特征向量为__________________________________,_____________________________。
(2)第一主成分的表达式为_________________________________________ ___,该
主成分包含了原始信息的_______%,第二主成分的表达式为_________________________________________,该主成分的方差贡献率为_______。
(3)如果舍弃第二主成分,则哪个原始变量的损失信息最大:_______
(4)第一个主成分与第二个变量间的相关系数为_____________
(5)第一个主成分主要反映盈利能力,现对第一主成分计算得分为
_________________________________________________________________,对得分进行排序(降序),各企业的得分排名顺序依次为:_________________
__________________________(依企业顺序写出排名)。若利用第一、二主成分构造综合评价函数,则两主成分的权数分别为_________、_________。
第二、对原数据资料进行因子分析:
(6)利用主成分法求解因子载荷,现提取两个因子进行分析,因子模型表示为:
(7)前三个变量(X1,X2,X3)的公共因子方差为___________、_____________、
____________,特殊因子方差为________、___________、_____________。
(8)对以上模型进行方差最大正交旋转,得出旋转后的因子载荷矩阵为:
第五章聚类分析
一、填空题
1.在进行聚类分析时,根据变量取值的不同,变量特性的测量尺度有以下三种类型:、和。
2.Q型聚类法是按_________进行聚类,R型聚类法是按_______进行聚类。
3.Q型聚类统计量是__________,而R型聚类统计量通常采用______________。
4.在聚类分析中,为了使不同量纲、不同取值范围的数据能够放在一起进行比较,通常需要对原始数据进行变换处理。常用的变换方法有以下几种:_____________、____________、_______ _、__ _。
d一般应满足以下四个条件:、、5.距离
ij
、。
6.相似系数一般应满足的条件为:、和
。
7.常用的相似系数有和两种。
8.常用的系统聚类方法主要有以下八种: 、 、 、 、 、 、 、 。 9.快速聚类在SPSS 中由_______________过程实现。
10.常用的明氏距离公式为:()p
k q jk ik ij x x q d 11??
????-=∑=,当1=q 时,它表
示 ;当2=q 时,它表示 ;当q 趋于无穷时,它表
示 。
11.聚类分析是将一批 或 ,按照它们在性质上 的 进行分类。
二、判断题
1.在对数据行进中心化变换之后,数据的均值为0,而协差阵不变,且变换后后的数据与变量的量纲无关。 ( )
2.根据分类的原理,我们可以把聚类分为样品聚类和变量聚类。 ( ) 3.兰氏距离不仅克服了明氏距离与各指标的量纲有关的缺点,而且也考虑了变量间的相关性。 ( )
4.当各变量之间相互独立时,马氏距离就退化为欧氏距离。 ( ) 5.在几种系统聚类法中,最短(长)距离法、(可边)类平均法、重心法和离差平方和法都具有单调性,只有中间距离法不具有单调性。 ( )
6.重心法比离差平方和法使空间扩张。 ( )
7.离差平方和法的思想来源于方差分析.如果类分得比较合理,同类样品之间的离差平方和应当较大,类与类之间的离差平方和应当较小. ( )
8.使用离差平方和法时,计算样品间的距离必须采用欧氏距离. ( )
9.快速聚类法又称为动态聚类法,是一种非谱系聚类法,它可以应用于比系统聚类法大得多的数据组. ( )
三、简答题
1.简述聚类分析的基本思想和基本步骤? 2.系统聚类法的基本思想是什么? 3.系统聚类法的基本步骤是什么? 4.简述最长聚类法的聚类步骤。
5.简述快速聚类的基本思想及主要步骤。
6.简述最优分割法的步骤
7.简述Ward 离差平方和法的基本思想.
8.在数据处理时,为什么通常要进行标准化处理? 四、计算题
1.假设有一个二维正态总体,它的分布为:??
?
???????
?????? ??19
.09.01
,002N ,并且还已知有两点()'=1,1A 和()'
-=1,1B ,
要求分别用马氏距离和欧氏距离计算这两点A 和B 各自到总体均值点()'
=0,0μ的距离.
2.设有5个样品,已知各样品之间的距离矩阵为: 54321G G G G G
???????
?
????????065.32705.2410
5.15.305054321G G G G G 试分别用最短距离法和最长距离法聚类。 3.为研究全国31个省区城镇居民生活消费的分布规律,根据2003年统计资料利用SPSS 软件中的系统聚类法做类型划分,其谱系图如下,你认为从全国各省区的消费情况看,分为几类较合适,结合我国区域社会及经济发展情况,对分类结果作简要分析。
* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 青海 29 宁夏 30 河南 16 甘肃 28 河北 3 四川 23 陕西 27 湖北 17 湖南 18 内蒙古 5 新疆 31 吉林 7 黑龙江 8
山西 4 辽宁 6 云南 25 安徽 12 贵州 24 江西 14 江苏 10
重庆 22 山东 15
福建 13 广西 20
海南 21 天津 2 西藏 26 浙江 11 广东 19 上海 9 北京 1
第四章 判别分析
一、填空题
1.进行判别分析时,通常指定一种判别准则,用来判定新样本的归属,按照判别准则的不同,又有多种判别方法,其中常用的方法有______ _____ _ 、____________ _、 、和 。
2.判别分析按判别的组数来区分,有 和 ;按区分不同总体的所用的数学模型来分,有 和 。
3.Fisher 判别是借助于 的思想,来导出 和建立判别准则。
4.判别分析是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立 和 。
5.在进行距离判别时,通常采用的距离是 ,它的基本公式为: Bayes 线性判别函数等价于距离判别准则。 ( )
2.费歇判别和距离判别都对判别变量的分布类型没有要求。 ( ) 3.只有当两个总体的均值有显著差异时,做判别分析才有意义。( )
4.如果()x ?是费歇判别准则的判别函数,则对于任何β与任意常数γ来说,()γβ?+x 也都是它的线性函数。( )
5.Bayes 判别不仅考虑了各个总体出现的先验概率,而且也考虑到了错判所造成的损失。( )
6.在进行两类判别时,两总体的协差阵如果相等,那么费歇判别与距离判别是等价的。( ) 7.逐步判别法中筛选变量的过程实质上就是作假设检验,通过检验找出显著变量,剔除不显著变量。( )
8.在进行距离判别时,通常采用的是马氏距离。( ) 9.设k R R ,,1 为p 维空间p R 上的k 个子集,而且要求互不相交,它们的和集为p R ,则称k R R ,,1 为p R 的一个划分。而Bayes 判别实质上就是找这个划分。
( )
三、简答题
1. 判别分析和聚类分析有何区别与联系? 2.距离判别分析的基本思想是什么?假设有两个总体G 1和G 2, 如果能够定义样品x 到它们的距离D(x,G 1)和D(x,G 2), 那么判别规则是怎样的?请描述这个准则的数学模型。 3.简述逐步判别法的基本思想。
4.距离判别、贝叶斯判别和费歇判别有何异同?
5.进行聚类分析往往要先对数据进行标准化变换,进行判别分析是否也需要先进行标准化变换?为什么? 四、计算题
***1.已知观测向量()'=321,,x x x x 在两类上的均值向量分别为()
()'
=35,100,301μ和
()()'=30,90,262μ,两类的共同协差阵为:
????
?
?????=∑1000
20
04000
20060 试用距离判别法建立判别函数和判别规则。现有一样品()'
=31,90,35x ,问此样品应属于哪
一类?
(1)求出共同协方差矩阵的逆矩阵和两类均值向量的离差向量分别为:
??
??
??????--=???
????
?????????--=????
???
???--=∑-01071.00
00357.000025.0000357.0001786
.028030
280104001028010561
24000080000560008000040000
224000011
()()()
????
?
?????=??????????---=-510430359010026302
1
μμ
(2)求出判别系数向量为:
()()()
????
?
?????=????????????????????--=-∑=-03927.0025.005359.0510401071.00
00357
.000025.0000357.0001786
.0211μμa (3)两类均值向量的平均数向量为:
()
()()
????
?
?????=???????
???+++=+=
5.3295283035901002630212
121μμμ (4)线性判别函数为:
()()[]1518
.503927.0025.005359.05.32952803927.0025.005359.0321321-++=????
?
?????---=-'=x x x x x x x a x w μ (5)相应的判别规则为:
()()()??
?
??=<∈>∈00,0,21x w x w G x x w G x 待判,若若若 (6)该样品的判别函数值为:
()0
19122.01518
.53103927.090025.03505359.0>=-?+?+?=x w
由此可以判断,该样品应属于第一类。
2.例:某种产品的生产厂商有很多个,有些厂商的产品在市场上比较受欢迎,而有些厂商的产品在市场上不大受欢迎,批发商店现有12家厂商的产品,其中7家是受欢迎的,5家属于不太受欢迎的。该商店对这12家厂商的产品就其式样、包装和耐久性进行了评估,评分采用10分制,评估结果如下表所示。
试用费歇判别准则建立判别函数和判别规则。现有一新厂商推销其产品,产品特性评分为式
样6分,包装4分,耐久性5分,问该厂商的产品是否受消费者欢迎?
3.某地市场上销售的收录机有多种牌号,该地某商场从市场上随机抽取了13种牌号的收录机,其中有4种畅销,有5种销售一般,有4种滞销。所调查的各种收录机的质量评分、功能评分和销售价格资料如下表所示:
其产品的质量评分为7.0,功能评分为7.0,销售价格为660元,问该厂产品的销售前景如何?
4.下图是SPSS 统计分析软件的一个对话框,请问是什么分析过程?解释"Grouping Variable"、"Independents:"、“Enter independent together ”、“Use Stepwise method ”等按纽的含义。
??????????----=-04427.001614.001089.001614.004748.001990.001089.001990.006197
.01S
五、证明题
1.在两总体判别分析时,当两总体协差阵相等并且判别变量服从正态分布时,试证明距离判别与贝叶斯判别是等价的。
2.设1G 、2G 为两个总体,其密度分别为()∑,1μp N ,()∑,2μp N ()0>∑,已知1μ、2μ、
∑时,试证明Bayes 判别准则为:
()()()??
?
??=<∈>∈d x v d x v G x d x v G x 若待判若若2
1
其中:()()()x f x f x v 21=
,()
()
1/22/112C q C q d =
§12.6 离散型随机变量的均值与方差、正态分布 1.离散型随机变量的均值与方差 若离散型随机变量X (1)均值 称E (X )=x 1p 1+x 2p 2+…+x i p i +…+x n p n 为随机变量X 的均值或数学期望,它反映了离散型随机变量取值的平均水平. (2)方差 称D (X )=∑n i =1 (x i -E (X ))2 p i 为随机变量X 的方差,它刻画了随机变量X 与其均值E (X )的平均偏离程度,其算术平方根D X 为随机变量X 的标准差. 2.均值与方差的性质 (1)E (aX +b )=aE (X )+b . (2)D (aX +b )=a 2 D (X ).(a ,b 为常数) 3.两点分布与二项分布的均值、方差 (1)若X 服从两点分布,则E (X )=__p __,D (X )=p (1-p ). (2)若X ~B (n ,p ),则E (X )=__np __,D (X )=np (1-p ). 4.正态分布 (1)正态曲线:函数φμ,σ(x )=1 2πσ e -x -μ2 2σ2 ,x ∈(-∞,+∞),其中μ和σ为参数(σ>0, μ∈R ).我们称函数φμ、σ(x )的图象为正态分布密度曲线,简称正态曲线. (2)正态曲线的性质: ①曲线位于x 轴上方,与x 轴不相交; ②曲线是单峰的,它关于直线x =μ对称; ③曲线在x =μ处达到峰值1 σ2π; ④曲线与x 轴之间的面积为__1__; ⑤当σ一定时,曲线的位置由μ确定,曲线随着__μ__的变化而沿x 轴平移,如图甲所示; ⑥当μ一定时,曲线的形状由σ确定,σ__越小__,曲线越“瘦高”,表示总体的分布越集中;σ__越大__,曲线越“矮胖”,表示总体的分布越分散,如图乙所示.
§7.4 一般总体均值的假设检验 一、一般总体均值的大样本假设检验 1. 一个总体均值的大样本假设检验 设样本12(,,,)n X X X 取自非正态总体X ,记总体均值μ=)(X E 。样本均值及样本方差分别为11n i i X X n ==∑,2211()1n i i S X X n ==--∑。 如果我们要做双侧检验:0100::μμμμ≠?=H H ,在大样本情况(样本容量30≥n )下可选 n S X Z /0 μ-=为检验统计量,由中心极限定理知,它在0H 成立时近 似服从)1,0(N 。检验的P 值近似为|))(|1(2)| |(20O O z z Z P Φ-==≥μμ,其中检验统计量Z 的观测值为 n s x z O /0 μ-=。 例7.4.1 一种机床加工的零件尺寸绝对平均误差为1.35mm 。生产厂家现采用一种新的 机床进行加工以期降低误差。为检验新机床加工的零件平均误差与旧机床相比是否有显著降低,从某天生产的零件中随机抽取50个进行检验。50个零件尺寸的绝对误差数据(mm )如下所示: 1.26 1.19 1.31 0.97 1.81 1.13 0.96 1.06 1.00 0.94 0.98 1.10 1.12 1.03 1.16 1.12 1.12 0.95 1.02 1.13 1.23 0.74 1.50 0.50 0.59 0.99 1.45 1.24 1.01 2.03 1.98 1.97 0.91 1.22 1.06 1.11 1.54 1.08 1.10 1.64 1.70 2.37 1.38 1.60 1.26 1.17 1.12 1.23 0.82 0.86 利用这些数据,检验新机床加工的零件尺寸的平均误差是否显著降低?(0.01α=) 解:这里研究者所关心的是新机床加工的零件尺寸的平均误差与旧机床相比是否有显著降低,也就是新机床加工的零件尺寸的误差的数学期望μ=)(X E 是否小于1.35,因此属于单左侧检验。提出的假设如下: 0: 1.35H μ≥?1: 1.35H μ< 现在50=n ,检验统计量可选为 )1,0(~/35.135.1N n S X Z =-=μ; 由数据得:215.1=x ,366.0=s ,故检验统计量Z 的观测值为608.250 /366.035 .1215.1-≈-≈O z ,所以检验的P 值近似为 0046.0)608.2()35.1608.2(=-Φ≈=-≤μZ P 。 因为01.0
教学过程 一、课堂导入 “离散型随机变量的分步列,均值和方差”在“排列与组合”知识的延伸,在本讲的学习中,同学们将通过具体实例理解随机变量及其分布列、均值和方差的概念,认识随机变量及其分布对于刻画随机现象的重要性.要求同学们会用随机变量表达简单的随机事件,会用分布列来计算这类事件的概率,计算简单离散型随机变量的均值、方差,并能解决一些实际问题.在高考中,这部分知识通常有一道解答题,占12─14分左右,主要考查学生的逻辑推理能力和运算能力,凸显数学的应用价值.
二、 复习预习 1.判断下面结论是否正确(请在括号中打“√”或“×”) (1)随机变量的均值是常数,样本的平均值是随机变量,它不确定. ( ) (2)随机变量的方差和标准差都反映了随机变量取值偏离均值的平均程度,方差或标准差越小,则偏离变量平均程度越小. ( ) (3)正态分布中的参数μ和σ完全确定了正态分布,参数μ是正态分布的期望,σ是正态分布的标准差. ( ) (4)一个随机变量如果是众多的、互不相干的、不分主次的偶然因素作用结果之和,它就服从或近似服从正态分布. ( ) 2.设随机变量ξ的分布列为P (ξ=k )=1 5(k =2,4,6,8,10),则D (ξ)等于 ( ) A .5 B .8 C .10 D .16 3.设随机变量ξ服从正态分布N (3,4),若P (ξ<2a -3)=P (ξ>a +2),则a 等于 ( ) A .3 B.5 3 C .5 D.73 4.有一批产品,其中有12件正品和4件次品,有放回地任取3件,若X 表示取到次品的件数,则D (X )=________.
16.3 单个正态总体参数的假设检验 设,,,12n X X X 是来自正态总体()2,N μσ的样本,考虑如下三种关于μ的检 验问题 (1) 00:H μμ≤ vs 10:H μμ> 单侧检验 (2) 00:H μμ≥ vs 10:H μμ< 单侧检验 (3) 00: H μμ= vs 10:H μμ≠ 双侧检验 ********************************************************** (1) 00: H μμ≤ vs 10:H μμ> 单侧检验 (3) 00:H μμ= vs 10:H μμ≠ 双侧检验
********************************************************** 下面给出σ已知时,上述三种检验情况的具体实现。 σ已知时的,对于单侧检验问题(1) 00:H μμ≤ vs 10:H μμ>, 2 ~, X N n σμ?? ?? ? ,故选用服从标准正态分布的检验统计量X u =, 通常称此检验为u 检验。 拒绝域选为()()?? ? ???????≥σμ-==c x n u x x W n 01:,, ,c 为临界值,简记为{}c u ≥。若显著性水平要求为α,则可确定α-=1u c 。 同理对 问题(2),00: H μμ≥ vs 10:H μμ<,水平为α的检验的拒绝域为 ()()?? ? ???????≤σμ-==αu x n u x x W n 01:,, 。 问题(3),00: H μμ= vs 10:H μμ≠,水平为α的检验的拒绝域为 ()()?? ? ???? ? ??≤σμ-= =α2-101u x n u x x W n :,, 。 ********************************************************** 例16.3.1 设某工厂生产一种产品,其质量指标服从正态分布()2 2,μN ,μ为 平均质量指标,其值越大则质量越好,10=μ是达到优级的标准。进货商店从一批产品抽取样本,, ,12n X X X ,16=n ,取显著性水平为050.=α,如何检 验这一批产品是否达到优秀。 分析: 根据工厂产品社会声誉可能的不同,分以下两种情况讨论。 情形一,按照过去长时间的记录,商店的检验人员相信该厂的产品质量很好。
第一章 多元正态分布的参数估计 一、填空题 1.设X 、Y 为两个随机向量,对一切的u 、v ,有 ,则称X 与Y 相互独立。 2.多元分析处理的数据一般都属于 数据。 3.多元正态向量()' =p X X X ,,1 的协方差阵∑是 ,则X 的各分量是相互独立的随机变量。 4.一个p 元函数() p x x x f ,,,21 能作为p R 中某个随机向量的密度函数的主要条件是 和 。 5.若p 个随机变量1X ,2X , ,p X 的联合分布等于 ,则称1X , 2X , ,p X 是相互独立的。 6.多元正态分布的任何边缘分布为 。 7.若()∑,~μp N X ,A 为p s ?阶常数阵,d 为s 维常数向量,则 ~d AX + 。 8.多元正态向量X 的任何一个分量子集的分布称为X 的 。 9.多元样本中,不同样品的观测值之间一定是 。 10.多元正态总体均值向量和协差阵的极大似然估计量分别是 。 11.多元正态总体均值向量μ和协差阵∑的估计量X 、S n 1 1 -具有 、 和 。 12.设X 和S 分别是多元正态总体()∑,μp N 的样本均值向量和离差阵,则 ~X ,X 和S 。 13.若()()∑,~μαp N X ,n ,,2,1 =α且相互独立,则样本离差阵 ()()()()∑=' --=n X X X X S 1~ααα 。 14.若()∑,~i p i n W S ,k i ,,1 =,且相互独立,则~21k S S S S +++= 。 二、判断题 1.多元分布函数()x F 是单调不减函数,而且是右连续的。 2.设X 是p 维随机向量,则X 服从多元正态分布的充要条件是:它的任何组合 ()p R X ∈'αα都是一元正态分布。 3.μ是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质: (1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B 4.若P 个随机变量X 1,…X P 的联合分布等于各自边缘分布的乘积,则称X 1,… X P 是相互独立的。 5.一般情况下,对任何随机向量()'=X X X p ,,1 ,协差阵∑是对称阵,也 是正定阵。 6.多元正态向量( )' =X X X p ,,1 的任意线性变换仍然服从多元正态分布。 7.多元正态分布的任何边缘分布为正态分布,反之一样。 8.多元样本中,不同样品之间的观测值一定是相互独立的。 9.多元正态总体参数均值μ的估计量X 具有无偏性、有效性和一致性。 10. S n 1 是∑的无偏估计。 11.Wishart 分布是2 χ分布在p 维正态情况下的推广。
高中数学--离散型随机变量的均值与方差、正态分布 1.已知随机变量X 服从二项分布,且E (X )=2.4,D (X )=1.44,则二项分布的参数n ,p 的值为( ) A .n =4,p =0.6 B .n =6,p =0.4 C .n =8,p =0.3 D .n =24,p =0.1 【解析】 由题意得??? ?? np =2.4, np 1-p =1.44, 解得??? ?? n =6, p =0.4. 【答案】 B 2.设两个正态分布N (μ1,σ21)(σ1>0)和N (μ2,σ2 2)(σ2>0)的密度函数图象 如图所示,则有( ) A .μ1<μ2,σ1<σ2 B .μ1<μ2,σ1>σ2 C .μ1>μ2,σ1<σ2 D .μ1>μ2,σ1>σ2 【解析】 根据正态分布N (μ,σ2)函数的性质:正态分布曲线是一条关于直线x =μ对称,在x =μ处取得最大值的连续钟形曲线;σ越大,曲线的最高点越低且较平缓;反过来,σ越小,曲线的最高点越高且较陡峭,故选A. 【答案】 A 3.一个篮球运动员投篮一次得3分的概率为a ,得2分的概率为b ,不得分的概率为c (a 、b 、c ∈(0,1)),已知他投篮一次得分的均值为