文档库 最新最全的文档下载
当前位置:文档库 › bayes判别分析案例及结果

bayes判别分析案例及结果

bayes判别分析案例及结果
bayes判别分析案例及结果

例:研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类,共抽取28个省、市、自治区的六个指标数据。先采用聚类分析,将28个省、市、自治区分为三组。北京、上海、广州3个城市属于待判样本。(家庭收支.sav)

1.选中判别分析,

2.选择Fisher 即bayes判别分析方法,易混!!!

3.确定组别

4. 选择保存结果

5. 模型检验(即判别准确率)

重要结果

(常量) -117.620 -89.052 -53.616 Fisher 的线性判别式函数

a. 仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。

判别分析案例(鸢尾花)

Wilks 的 Lambda 卡方df Sig. 函数检验Wilks 的 Lambda 1 到 2 .025 538.950 8 .000 2 .774 37.351 3 .000 标准化的典型判别式函数系数 函数 1 2 花萼长-.346 .039 花萼宽-.525 .742 花瓣长.846 -.386 花瓣宽.613 .555 - =0.613 ? ? 0.846 - 1 + 346 0.525 .0 花萼长z 花萼宽 花瓣长 ? z 花瓣宽 z D? + z =0.555 ? + 0.386 0.742 ? 2 0.039 - ? 花萼宽 花瓣长 花瓣宽花萼长z z D? + z z 结构矩阵 函数 1 2 花瓣长.726*.165 花萼宽-.121 .879* 花瓣宽.651 .718* 花萼长.221 .340* 判别变量和标准化典型判别式函数 之间的汇聚组间相关性 按函数内相关性的绝对大小排序 的变量。 *. 每个变量和任意判别式函数间 最大的绝对相关性

0.155 0.196 - - =0.299 .0 花瓣宽.2 526 - 063 1 z z 花萼长z 花萼宽 ? z 花瓣长 ? D? + ? + 0.089 - + - =0.271 978 ? 2 .6 0.007 0.218 z 花萼长z 花萼宽 花瓣长 花瓣宽 z z ? ? + D? +

区域图 典则判别 函数 2 -16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0 +---------+---------+---------+---------+---------+---------+---------+---------+ 16.0 + 13 + I 13 I I 13 I I 123 I I 123 I I 12 23 I 12.0 + + + + 12 23 + + + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I 8.0 + + + + 12 + 23 + + + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I 4.0 + + + + 12 + 23 + + + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 * I .0 + + + * + 12 + 23 + + + I 12 * 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I -4.0 + + + + 12 + + 23 + + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I -8.0 + + + +12 + + 23 + + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I -12.0 + + + 12 + + 23 + + I 12 23 I I 12 23 I I 12 23 I I 12 23 I I 12 23 I -16.0 + 12 23 + +---------+---------+---------+---------+---------+---------+---------+---------+ -16.0 -12.0 -8.0 -4.0 .0 4.0 8.0 12.0 16.0 典则判别函数 1 区域图中使用的符号 符号组标签 ---- -- -------------- 1 1 刚毛鸢尾花 2 2 变色鸢尾花 3 3 佛吉尼亚鸢尾花 * 表示一个组质心

SPSS操作方法:判别分析例题

为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 5

贝叶斯判别的SPSS操作方法: 1. 建立数据文件 2.单击Analyze→ Classify→ Discriminant,打开Discriminant Analysis 判别分析对话框如图1所示: 图1 Discriminant Analysis判别分析对话框 3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。 从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。 选择后点击Continue按钮返回Discriminant Analysis主对话框。 图2 Define Range对话框 4、选择分析方法 Enter independent together 所有变量全部参与判别分析(系统默 认)。本例选择此项。 Use stepwise method 采用逐步判别法自动筛选变量。

Bayes 判别分析及应用 201009014119

Bayes 判别分析及应用 班级:计算B101姓名:孔维文 学号201009014119 指导老师:谭立云教授 【摘 要】判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方 法,在社会生产和科学研究上应用十分广泛。在判别分析之前,我们往往已对各总体有一定了解,样品的先验概率也对其预测起到一定作用,因此进行判别时应考虑到各个总体出现的先验概率;由于在实际问题中,样品错判后会造成一定损失,故判别时还要考虑到预报的先验概率及错判造成的损失,Bayes 判别就具有这些优点;然而当样品容量大时计算较复杂,故而常借助统计软件来实现。本文着重于Bayes 判别分析的应用以及SPSS 的实现。 【关键词 】 判别分析 Bayes 判别 Spss 实现 判别函数 判别准则 Class: calculation B101 name: KongWeiWen registration number 201009014119 Teacher: TanLiYun professor .【Abstract 】Discriminant analysis is based on the study of certain indicators of individual observations to infer that the individual belongs as a type of statistical methods in social production and scientific research is widely used. In discriminant analysis, we often have a certain understanding of the overall sample of the a priori probability of its prediction play a role, it should be taken into account to determine the overall emergence of various prior probability; because of practical problems, samples will result in some loss of miscarriage of justice, so identification must be considered when the prior probability and wrongly predicted loss, Bayes discriminant to have these advantages; However, when the sample is large computing capacity of more complex, often using statistical software Guer to achieve. This article focuses on the application of Bayes discriminant analysis, and implementation of SPSS. 【Key words 】 Discriminant analysis; Bayes discriminant; Spss achieve; Discriminant function; Criteria; 1.1.1 判别分析的概念 在科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一种类型都是用一些指标T p X X X X ),,(21 来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。当得到一个新样品(或

贝叶斯判别习题

1. 办公室新来了一个雇员小王,小王是好人还是 坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。 解:A :小王是个好人 a :小王做好事 B :小王是个坏人 B :小王做坏事 ()(/)(/)()(/)()(/)P A P a A P A a P A P a A P B P a B = +0.5*0.9 0.820.5*0.90.5*0.2==+ ()(/)0.5*0.2 (/)()(/)()(/)0.5*0.90.5*0.2 P B P a B P B b P A P a A P B P a B = =++=0.18 0.82>0.18 所以小王是个好人、 2. 设 m = 1,k = 2 ,X 1 ~ N (0,1) ,X 2 ~ N (3,2 2 ) ,试就C(2 | 1) = 1,C(1 | 2) = 1,且不考虑先验概率的情况下判别样品

2,1 属于哪个总体,并求出 R = (R1, R2 ) 。 解: 2222 121/821 ()()/}1,2 21(2)(20)}0.05421(2)(23)/4}0.176 2i i i P x x i P P μσ--= --== --===--== 由于1(2)P <2(2)P ,所以2属于2π 21/2 121/221(1)(10)}0.242 21(1)(13)/4}0.120 2P P --= --===--== 1(1)P >2(1)P ,所以1属于1π 由 1()P x 22211 }()(3)/4}22x P x x -==-- 即221 exp{}2x -=21exp{(69)}8 x x --+ 2211 ln 2(69)28 x x x -=--+ 解得 1 x =1.42 2 x =-3.14.所以 R=([-3.41,1.42],(-∞,-3.41)U(1.42,+∞)). 3.已知1π,2π的先验分布分别为1q =3 5,2q =25 ,C(2|1)=1,C(1|2)=1,且 11,01()2,120,x x f P x x x <≤??==-<≤???其他 22 (1)/4,13()(5)/4,350,x x f P x x x -<≤?? ==-<≤??? 其他 使判别1x = 95 ,2x =2所属总体。 解:1p (9/5)=2-9/5=1/5 1p (2)=2-2=0 2p (9/5)=(9/5-1)/4=1/5

Bayes判别

§5.2Bayes 判别 1. Bayes 判别的基本思想 假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别. 2. 两个总体的Bayes 判别 (1) 基本推导 设概率密度为1()f x 和2()f x 的p 维总体12,G G 出现的先验概率为

1122(),()p P G p P G ==(121p p +=) 先验概率的取法: (i) 121 2 p p == , (ii) 12 121212 ,n n p p n n n n ==++, 一个判别法 = 一个划分=12(,)R R =R 1212,,p R R R R =?=?=?R 距离判别中

112212{|(,)(,)} {|(,)(,)} R d G d G R d G d G =≤=>x x x x x x 判别R 下的误判情况讨论 2 1(2|1,)()d R P f =?R x x , 或 1 2(1|2,)()d R P f =?R x x 代价分别记为 (2|1),(1|2),(1|1)0,(2|2)0c c c c ==,

在得新x 后, 后验概率为 1111122() (|)()()p f P G p f p f = +x x x x 2221122() (|)()() p f P G p f p f = +x x x x (i) 当(1|2)(2|1)c c c ==时, 最优划分是 112212{:(|)(|)} {:(|)(|))} R P G P G R P G P G =≥?? =

判别分析实例

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2 3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */

SPSS操作方法:判别分析例题

实验指导之二 判别分析的SPSS软件的基本操作 [实验例题]为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。试建立判别函数,判定广东、西藏分别属于哪个收入类型。判别指标及原始数据见表9-4。 1991年30个省、市、自治区城镇居民月平均收人数据表 单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体) x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入 x4:人均集体所有制工资收入 x9:个体劳动者收入 x5:人均集体所有制职工标准工资

贝叶斯判别的SPSS操作方法: 1. 建立数据文件 2.单击Analyze→Classify→Discriminant,打开Discriminant Analysis判别分析对话框如图1所示: 图1 Discriminant Analysis判别分析对话框 3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。 从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range 对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。。 选择后点击Continue按钮返回Discriminant Analysis主对话框。 图2 Define Range对话框 4、选择分析方法

判别分析实例汇总

判别分析实例汇总

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2

3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */ class type; var gdp life rate zhrate; run; proc gplot data=reult; plot can1*can2=type; run; proc discrim data=result distance list; class type; var can1 can2; run; 表1 已知样本分类水平信息

判别分析实例

判别分析实例

例:人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用判别分析过程对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类。

data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99. 2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97. 3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7 3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2

3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90. 4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数的估计和归类。*/ class type; var gdp life rate zhrate; run; proc discrim pool=test slpool=0.05list; /*simple: */ class type; priors'1'=0.3'2'=0.4'3'=0.3 ; run; proc discrim method=npar k=2list; /*simple: */ class type; run; proc candisc out=result ncan=2; /*simple: */ class type; var gdp life rate zhrate; run; proc gplot data=reult; plot can1*can2=type; run; proc discrim data=result distance list; class type; var can1 can2; run; 表1 已知样本分类水平信息

典型判别分析与贝叶斯判别的区别

典型判别分析与贝叶斯判别的区别 1.原理不同 典型判别是根据方差分析思想,进行投影,将原来一个维度空间的自变量组合投影到另一维度空间,寻找一个由原始变量组成的线性函数使得组间差异和组内差异的比值最大化。根据样本点计算判别函数,计算判别函数到各类中心的欧式距离,取距离最小的类别。 贝叶斯判别是是利用已知的先验概率去推证将要发生的后验概率,就是计算每个样本的后验概率及其判错率,用最大后验概率来划分样本的分类并使得期望损失达到最小 2.前提条件不同 典型判别不考虑样本的具体分布,只求组间差异和组内差异的比值最大化 贝叶斯判别从样本的多元分布出发,充分利用多元正态分布的概率密度提供的信息计算后验概率,因此需要样本数据服从多元正态分布,方差齐性等。 3.产生的判别函数不同 典型判别根据K类最多产生K-1个判别函数 贝叶斯判别根据K类最多可产生K个判别函数 先验概率在判别分析中的作用 1.所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度,是根据以往经验和分析得到的概率。所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果,它是更接近于实际情况的概率估计。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断 2.样品的先验概率对预测有一定的作用,反应样本分布的总体趋向性。被判断的个案应该属于先验概率最大总体的概率应该高一些,贝叶斯考虑了先验概率的影响提高判别的敏感度,同时利用先验概率可以求出后验概率(基于平均损失函数)和误判率,从而进行判别分析,充分利用数据的概率密度分布,判别效率高。样品归于概率大的类别。 3.这样使误判平均损失最小。既考虑到不同总体出现机会的差异、各错误判断造成损失的不同,又充分尊重了每个总体的分布状态 判别准则的评价 刀切法:基本思想是每次剔除训练样本中的一个样本,利用其余容量的训练样本建立判别函数,再用所建立的判别函数对删除的那个样本做判别,对训练样本中的每个样品重复上述步骤,已其误判的比例作为误判概率的估计。 判别分析结果 Eigenvalues a First 2 canonical discriminant functions were used in the analysis. 1.判别函数的特征根,方差百分比,累计方差百分比

判别分析实验报告 SPSS

一、实验目的及要求: 1、目的 用SPSS软件实现判别分析及其应用。 2、内容及要求 用SPSS对实验数据利用Fisher判别法和贝叶斯判别法,建立判别函数并判定宿州、广安等13个地级市分别属于哪个管理水平类型。 二、仪器用具: 三、实验方法与步骤: 准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS 数据文件中,同时,由于只有当被解释变量是属性变量而解释变量是度量变量时,判别分析才适用,所以将城市管理的7个效率指数变量的变量类型改为“数值(N)”,度量标准改为“度量(S)”,以备接下来的分析。 四、实验结果与数据处理: 表1 组均值的均等性的检验 Wilks 的 Lambda F df1 df2 Sig. 综合效率标准指数.582 23.022 2 64 .000 经济效率标准指数.406 46.903 2 64 .000 结构效率标准指数.954 1.560 2 64 .218 社会效率标准指数.796 8.225 2 64 .001 人员效率标准指数.342 61.645 2 64 .000 发展效率标准指数.308 71.850 2 64 .000 环境效率标准指数.913 3.054 2 64 .054 表1是对各组均值是否相等的检验,由该表可以看出,在0.05的显著性水平上我们不能拒绝结构效率标准指数和环境效率标准指数在三组的均值相等的假设,

即认为除了结构效率标准指数和环境效率标准指数外,其余五个标准指数在三组的均值是有显著差异的。 表2 对数行列式 group 秩对数行列式 1 6 -33.410 2 6 -33.177 3 6 -40.584 汇聚的组内 6 -32.308 打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。 表3 检验结果 箱的 M 140.196 F 近似。 2.498 df1 42 df2 1990.001 Sig. .000 对相等总体协方差矩阵的零假设进行检验。 以上是对各组协方差矩阵是否相等的Box’M检验,表2反映协方差矩阵的秩和行列式的对数值。由行列式的值可以看出,协方差矩阵不是病态矩阵。表3是对各总体协方差阵是否相等的统计检验,由F值及其显著水平,在0.05的显著性水平下拒绝原假设,认为各总体协方差阵不相等。 1)Fisher判别法: 图一

判别分析例题及SAS程序

判别分析 例题某医院眼科研究糖尿病患者的视网膜病变情况, 视网膜病变分轻、中、重三型。研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力(vision)、视网膜电图中的a波峰时(at)、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数, 以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。为此观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。 见表1 (表中仅列出前5例)。试以此为训练样本, 仅取age,vision,at,bt和qpv 等指标, 求分类函数, 并根据王××的信息: 38岁, 视力1.0, 视网膜图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型。 表1 131例糖尿病患者各指标实测记录(前5例) ──────────────────────────────────例号年龄患病血糖视力a波a波b波b波qp波pq波视网膜年数峰时振幅峰时振幅峰时振幅病变程度 ────────────────────────────────── 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1 3 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0. 6 13.75 269.59 55.50 451.2 7 78.0 33.70 A2 ──────────────────────────────────解假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 利用SAS的Discrim过程可得分类函数 Y1=-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv) Y2=-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv) Y3=-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv) 以王××的观察值代入分类函数, 得 Y1=-181.447+0.473×38+60.369×1.0+17.708×14.25+0.048×383.39+0.364×43.18 =183.36 同样可算得:Y2=180.58, Y3=179.66 其中最大者为Y1, 故判断为轻度病变。 由上例见, Y1, Y2, Y3的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。这时, 分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属, 而避免武断。令Y*=179, 从而有 P(Y1|X1,X2,…,X5)=e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180)) =e4.36/(e4.36+e1.58+e0.66)=0.9202 类似地, 可得:P(Y2|X1,X2,…,X5)=0.0571 P(Y3|X1,X2,…,X5)=0.0227 由此可见王××为轻度病变的概率为0.9202,因此把他判断为轻度病变可靠性较大。

贝叶斯判别、费希尔判别法的计算机操作及结果分析

贝叶斯判别、费希尔判别法的计算机 操作及结果分析 一、实验内容、目标及要求 (一)实验内容 选取140家上市公司作为样本,其中70家为由于“财务状况异常”而被交易所对其股票实行特别处理(Special Treatment,简称ST)的公司,另外70家为财务正常的公司。为了研究上市公司发生财务困境的可能性,以“是否被ST”为分组变量,选择资产负债率、总资产周转率和总资产利润率几个财务指标作为判别分析变量,这三个指标分别从上市公司的偿债能力、资产管理能力和获利能力三个不同的角度反映了企业的财务状况。 (二)实验目标 贝叶斯判别、费希尔判别法的计算机操作及结果分析。 (三)实验要求 要求学生能熟练应用计算机软件进行判别分析并对结果进行分析,培养实际应用能力。 二、实验准备 (一)运行环境说明 电脑操作系统为Windows XP及以上版本,所需软件为SPSS 16.0。 (二)基础数据设置说明 将数据正确导入SPSS,设置相应的变量值。

三、实验基本操作流程及说明 (一)系统界面及说明 同实验一。 (二)操作步骤 1. 选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图4-1。将分组变量st移入Grouping V ariable列表框中,将自变量x1-x3选入Independents 列表框中。 选择Enter independents together单选按钮,即使用所有自变量进行判别分析。若选择了Use stepwise method单选按钮,则可以根据不同自变量对判别贡献的大小进行变量筛选,此时,对话框下方的Method按钮被激活,可以通过点击该按钮设置变量筛选的方法及变量筛选的标准。 图4-1 Discriminate Analysis对话框 2. 单击Define Range按钮,在打开的Define Range子对话框中定义分组变量的取值范围。本例中分类变量的取值范围为0到1,所以在Minimum和Maximum输入框中分别输入0和1。单击Continue按钮,返回主对话框。 3. 如果不想使用全部的样本进行分析,单击Select按钮,则Discriminate Analysis对话框下方会跳出一个Selection Variable列表框,将一个选择变量移入Selection Variable列表框,并单击Rule按钮,设置选择条件。这样,只有满足选择条件的观测才能参与判别分析。 4. 单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。该对话框中各选项的含义如下: Descriptives选项栏:输出原始数据的描述性统计量 ◆Means:输出各类中所有自变量的均值、组内标准差以及总样本的均值和标准差; ◆Univariate ANOV A:进行单因素方差分析,检验的原假设为不同类别中自变量的均 值不存在显著差异; ◆Box’s M:对各类的协方差矩阵是否相等进行检验。 Matrices选项栏:输出各种不同的协差阵和相关系数矩阵 ◆Within-groups correlation matrix:平均组内相关系数矩阵,它是由平均组内协差阵

实验报告Bayes判别

实验报告Bayes判别 部门: xxx 时间: xxx 整理范文,仅供参考,可下载自行编辑

实验十一Bayes判别 实验目的和要求 掌握Bayes判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题. 实验要求:编写程序,结果分析. 实验内容:5.4 5.5 选一题 data examp5_4。 input group $ x1-x7 @@。 cards。 G1 6.6 39 1.0 6.0 6 0.12 20 G1 6.6 39 1.0 6.0 12 0.12 20 G1 6.1 47 1.0 6.0 6 0.08 12 G1 6.1 47 1.0 6.0 12 0.08 12 G1 8.4 32 2.0 7.5 19 0.35 75 G1 7.2 6 1.0 7.0 28 0.30 30 G1 8.4 113 3.5 6.0 18 0.15 75 G1 7.5 52 1.0 6.0 12 0.16 40 G1 7.5 52 3.5 7.5 6 0.16 40 G1 8.3 113 0.0 7.5 35 0.12 180 G1 7.8 172 1.0 3.5 14 0.21 45 G1 7.8 172 1.5 3.0 15 0.21 45

G2 8.4 32 2.0 9.0 10 0.35 75 G2 8.4 32 2.5 4.0 10 0.35 75 G2 6.3 11 4.5 7.5 3 0.20 15 G2 7.0 8 4.5 4.5 9 0.25 30 G2 7.0 8 6.0 7.5 4 0.25 30 G2 7.0 8 1.5 6.0 1 0.25 30 G2 8.3 161 1.5 4.0 4 0.08 70 G2 8.3 161 0.5 2.5 1 0.08 70 G2 7.2 6 3.5 4.0 12 0.30 30 G2 7.2 6 1.0 3.0 3 0.30 30 G2 7.2 6 1.0 6.0 5 0.30 30 G2 5.5 6 2.5 3.0 7 0.18 18 G2 8.4 113 3.5 4.5 6 0.15 75 G2 8.4 113 3.5 4.5 8 0.15 75 G2 7.5 52 1.0 6.0 6 0.16 40 G2 7.5 52 1.0 7.5 8 0.16 40 G2 8.3 97 0.0 6.0 5 0.15 180 G2 8.3 97 2.5 6.0 5 0.15 180 G2 8.3 89 0.0 6.0 10 0.16 180 G2 8.3 56 1.5 6.0 13 0.25 180 G2 7.8 172 1.0 3.5 6 0.21 45

聚类分析与判别分析实验报告范例

上海电力学院 《应用多元统计分析》——判别分析与聚类分析 学院: 姓名: 学号: 2016年4月

我国部分城市经济发展水平的聚类分析 和判别分析 摘要:本文基于《中国统计年鉴》(2012年版)统计数据,寻找评价城市经济发展水平的指标,包括第二三产业发展水平、固定投资额、社会消费零售总额和进出口贸易交流五个指标,利用统计软件SPSS综合考虑各指标,对所选城市进行K-Means 聚类分析,利用Fisher 线性判别待判城市类型,进一步验证所建模型的有效性。 关键字:聚类分析,判别分析,SPSS,城市经济发展水平 1,引言 经过改革开放后三十多年的长足进展,中国城市化已步入中期阶段,步伐加快,质量显著提高。同时,中国城市化又处于期转折点上,上一期行将结束,下一期将要开始。2011年中国城市化率首次突破50%,意味着中国城镇人口首次超过农村人口,中国城市化进入关键发展阶段,这必将引起深刻的社会变革。 根据2011年4月公布的第六次人口普查数据,2010年中国居住城镇的人口接近6.6亿人,城镇化率达到49.68%,全国已有近一半的人口居住在城镇,这意味着中国将进入城镇时代。在过去30多年中,中国的城市化发展取得了很大成绩。然而,总体上中国的城市化道路是城市化滞后于工业化的非均衡道路;是土地城市化快于人口城市化的非规整道路;是以抑制农村、农业、农民的经济利益来支持城市发展,导致不能兼顾效率和公平的非协调道路;是片面追求城市发展的数量和规模,而以生态环境损失为代价的非持续道路;是以生产要素的高投入,而不是投入少、产值高、依靠科技拉动经济增长的非集约道路。传统的城市化存在着诸多弊端,中国未来的城市化必须走出一条具有自身特色的新型城市化

判别分析案例(鸢尾花)

特征值 函数特征值方差的 % 累积 % 正则相关性 1 30.419a99.0 99.0 .984 2 .293a 1.0 100.0 .476 a. 分析中使用了前 2 个典型判别式函数。 Wilks 的 Lambda 卡方df Sig. 函数检验Wilks 的 Lambda 1 到 2 .025 538.950 8 .000 2 .774 37.351 3 .000 标准化的典型判别式函数系数 函数 1 2 花萼长-.346 .039 花萼宽-.525 .742 花瓣长.846 -.386 花瓣宽.613 .555 - =0.613 ? 0.846 ? 346 1 .0 + 0.525 - 花萼长z 花萼宽 花瓣长 ? z 花瓣宽 z D? + z =0.555 ? + 0.386 0.742 ? 2 0.039 - ? 花萼宽 花瓣长 花瓣宽花萼长z z D? + z z 结构矩阵 函数 1 2 花瓣长.726*.165 花萼宽-.121 .879* 花瓣宽.651 .718* 花萼长.221 .340* 判别变量和标准化典型判别式函数 之间的汇聚组间相关性 按函数内相关性的绝对大小排序 的变量。 *. 每个变量和任意判别式函数间 最大的绝对相关性

典型判别式函数系数 函数 1 2 花萼长-.063 .007 花萼宽-.155 .218 花瓣长.196 -.089 花瓣宽.299 .271 (常量) -2.526 -6.987 非标准化系数 0.196 0.155 - - =0.299 1 ? .2 526 .0 063 - 花萼长z z 花萼宽 花瓣长 ? z 花瓣宽 + z ? + D? 0.089 - + - =0.271 978 ? 2 .6 0.007 0.218 z 花萼长z 花萼宽 花瓣长 花瓣宽 z z ? ? + D? +

相关文档