文档库 最新最全的文档下载
当前位置:文档库 › 多元作业

多元作业

多元作业
多元作业

2009年全国各省份城镇居民家庭消费支出统计分析人们往往会碰到通过划分同种属性的对象很好的解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分则不可能,为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强,目的在于使类间的对象的同质性最大化和类与类间对象的异质性最大化,它包括系统聚类法,模糊聚类法,k-均值法,有序样品的聚类,分解法,加入法,本文采用系统聚类法对2009年全国各省份城镇居民家庭消费支出进行统计分析。

一、经济背景

我国地域辽阔,各地区的经济发展很不平衡, 各地区城镇居民消费性支出的差异主要是由两方面引起的,首先是地区的经济发展水平,我国东部、中部和西部地区的消费水平存着较大差异;其次是由地区气候因素引起的消费倾向,我国南北地区明显有别。由表1中的X1,…,X8这八个指标来描述这种差异,而且由于多种因素的影响,这种差异呈现加速扩大的态势。如何客观、准确、有效地分析这些差异,具有重要的理论和实践意义。

表1 2009年全国各省份城镇居民家庭消费支出数据

运用Spss Statistics软件,将表1数据导入数据视图表中,在变量视图中,定义变量地区为字符串,X1、X2、X3、X4、X5、X6、X7、X8为数值型数据,点击菜单分析,选择分类中的系统聚类,将X1到X8选入变量中,将地区选入标注个案中,统计量选择合并进程表和相似性矩阵,绘制选中树状图,方法先选择类平均法(组内联结法)得如下结果:

图1 平均联结(组内部)

图2 类平均法谱系图

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Average Linkage (Within Group)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+ 江西 17 -+

湖南 20 -+-----+

四川 24 -+ +-+

辽宁 10 -------+ +-+

天津 7 ---------+ +---+

云南 30 -----------+ +---+

山东 18 ---------------+ +-------+

福建 16 -+---+ | |

广西 21 -+ +-------------+ +---------+

海南 22 -----+ | |

北京 1 ---------------+-----------+ |

江苏 14 ---------------+ |

河北 8 -----+-+ +-----------+

宁夏 26 -----+ +-----+ | |

吉林 11 -------+ +---------------+ | |

山西 9 -------------+ | | |

内蒙古 2 ---------------+---------+ | | |

新疆 25 ---------------+ | +-------+ |

河南 4 -+-+ | | |

甘肃 6 -+ +---+ | | |

青海 27 ---+ +-+ +---+ |

湖北 19 -+---+ | | | |

重庆 23 -+ +-+ +---+ | |

陕西 28 ---+-+ | | | |

贵州 31 ---+ | +-----+ | |

安徽 15 ---------+ | +-----+ |

黑龙江 12 -------------+ | |

西藏 29 -------------------+ |

广东 5 -------------+-----------+ |

上海 13 -------------+ +-----------------------+

浙江 3 -------------------------+

由上图直观看出,类平均法分为三类:{浙江、上海、广东}为第一类,{西藏、黑龙江、安徽、贵州、陕西、重庆、湖北、青海、甘肃、河南、新疆、内蒙古}为第二大类,其他为第三大类,运用组间联结法分析得图如下:

图3 组间联结法谱系图

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+ 江西 17 -+

湖南 20 -+---+

四川 24 -+ +-+

辽宁 10 ---+-+ +-+

青海 27 ---+ | |

天津 7 -------+ |

陕西 28 -+---+ +-----------+

贵州 31 -+ +---+ |

湖北 19 -+---+ | |

重庆 23 -+ | | |

河南 4 -+---+ | |

甘肃 6 -+ | |

安徽 15 ---------+ |

河北 8 ---+-+ |

宁夏 26 ---+ +-----+ |

吉林 11 -----+ +-----+ +-------+

山西 9 -----------+ +---+ |

黑龙江 12 -----------------+ | |

内蒙古 2 ---------+-------+ | +-------------------+

新疆 25 ---------+ +---+ | |

山东 18 -----------+-----+ | |

云南 30 -----------+ | |

西藏 29 -----------------------------+ |

北京 1 ---------+---------------+ |

江苏 14 ---------+ | |

福建 16 -+---+ +-------+ |

广西 21 -+ +-------------+ | | |

海南 22 -----+ +-----+ +---------------+

广东 5 -------+-----------+ |

上海 13 -------+ |

浙江 3 ---------------------------------+

此图直观的看分为两大类{北京、江苏、福建、广西、海南、广东、上海、浙江}为第一大类,其他为第二大类,运用最长距离法得图如下:

图4 最长距离法谱系图

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Complete Linkage

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+ 江西 17 -+

湖南 20 -+-+

四川 24 -+ +---+

辽宁 10 -+-+ |

青海 27 -+ |

湖北 19 -+-+ +---+

重庆 23 -+ +-+ | |

河南 4 -+-+ | | |

甘肃 6 -+ +-+ +-+

陕西 28 -+-+ | | |

贵州 31 -+ +-+ | |

安徽 15 ---+ | +-+

山东 18 -----+-----+ | |

云南 30 -----+ | |

内蒙古 2 ---+---+ | |

新疆 25 ---+ +-----+ +-----------+

黑龙江 12 -------+ | |

河北 8 -+-+ | |

宁夏 26 -+ +-+ | |

吉林 11 ---+ +---------+ +---------------------+

山西 9 -----+ | |

福建 16 -+-+ | |

广西 21 -+ | | |

海南 22 ---+-------+ | |

天津 7 ---+ +---------------+ |

西藏 29 -----------+ |

北京 1 ---+-----------+ |

江苏 14 ---+ +---------------------------------+

广东 5 ---+---+ |

上海 13 ---+ +-------+

浙江 3 -------+

由图可看出{北京、江苏、广东、上海、浙江}为第一大类,{西藏、天津、海南、广西、福建}为

第二大类,其他为第三大类,很显然,这三种的分类效果是有差异的,究竟采用哪种分类为好,有时需根据分类问题本身的知识来决定取舍,有时需将几种方法的共性取出来,有争议的样品根据其实际情况再划分,就本文而言,{浙江、上海、广东}划为一类是正确的,都属于东部地区,经济较发达,消费也较高,而由实际情况来看,西藏属于西部地区,它的经济发展和消费水平与天津和福建这两个东部地区差距较大,因此不能与之划为一类,虽然黑龙江也属于东部地区,但是可能受气候条件影响或者统计数据误差导致其划为第二大类,而第二大类中包含了我国大部分西部地区,综合来看,此聚类分析方法用类平均法比较合

适。

二、政策建议

我国中东西部经济发展的差距日益扩大是一个不容争辩的事实,这种局面已严重影响到我国经济持续、健康的发展,影响到国家、社会的稳定和民族的团结,本人认为,要缩小他们之间的差距,宏观政策应体现在“三个结合”:

(一)实行梯度发展与协调发展相结合

1、产业政策的调整和产业结构的协调,80年代,从追求经济增长出发,实行地区倾斜是必要的,但同时带来地区差距的拉大,产业结构趋同的不合理现象已严重影响到国民经济的持续发展。90年代至下个世纪,从宏观角度看,制约国民经济有三大“瓶颈”产业:一是交通运输,二是能源,三是原材料,为了进一步提高国民经济的整体效率,必须下大力气打通这三大“瓶颈”产业的制约,因此,中央政府的投资政策和有关的优惠政策不应采取过去的单向的地区倾斜方法,而应采取向“瓶颈”产业及向拥有“瓶颈”产业优势的地区双向倾斜的方法,为了克服“瓶颈”产业附加值的缺陷,中央政府要进一步理顺价格体系和流通体制,利用新技术,资金等办法来降低“瓶颈”产业的开发成本,这是一方面,另一方面,要尽量缩小原材料等与产成品的价格比例,再相应的发展一些有关的加工业,改变原材料地区与发达地区进行贸易的不利条件,使各地区产业之间形成充分发挥自己各种资源优势的产业结构。

2、财富分配的协调,从效率优先、兼顾公平的原则出发,既要提高整个国名经济的对外竞争力,促进域经济的快速增长,又要使发达地区与不发达地区之间避免出现贫富差距拉大,因此,在财富分配上要协调中东西部之间的收入差距,注意对贫困地区的适度补偿,使这些地区能够建立起自己的“造血机制”,一个可供选择的方案是降低西部地区企业在市场竞争中处于有利地位,从而增强西部地区的经济实力。

(二)区域经济关系的协调

1、实行区域经济一体化的原则和建立全国统一的市场体系,要求各地区之间形成合理的产业分工和密切的协作关系,就目前中东西部市场发展的格局来看,全国统一的大市场尚未形成,东部地区经过十几年的改革开放,较早的初步形成了适应市场竞争的机制和体系,而这方面的工作在西部地区还未到位,这就使得在全国统一市场竞争中,东西部未处在同一起跑线上,西部地区处于天然的劣势,在此情况下,可否在一段时间内,允许西部各省区保持相对独立的市场,对进入的东部产品征收类似关税的费用——“振兴西部附加费”(东部地区到西部办厂可免收此费),这实质上也是一种财政转移,以增强西部地区的竞争力,尽早形成全国合理的区域经济关系。

2、实行梯度推移与点轴开发战略相结合,点轴开发系统由点与轴在一定区域内有机组合而成,点是指一定区域中各级中心城镇,一般具有一定的基础设施并拥有诸如产品、市场等方面的突出优势,组成以主导产业为核心的与周围地区发展密切相关的产业综合体,轴是连接点的线状基础设施,包括各类交通线,动力供应线及水源供给线等,它是处于水陆交通干线之上的不同种类和层次的若干资源开发、产品和劳务生产的流通基地,其实质是依托沿轴各级城镇的产业开发带,点轴开发战略是指经济的空间移动和扩散是通过点对区域的作用和轴对经济发展的影响,采取优先发展点轴经济以带动全区域的经济与社会协调发展,我国中西部地区,虽然从上经济发展落后于东部,但是东部、西部已经具有诸多中心城市,特别是沿铁路干线周围、沿江周围的港口城市,已形成一定的增长点和增长周,以此带动中西部其他地区的发展。

(三)实现国家宏观调控,把东部地区的支援与西部地区的自身努力有机结合起来。

1、国家宏观调控,区域经济的协调发展是关系到整个国民经济和社会全局的重大问题,同时,市场经济建立初期,只会扩大这种差距,而不是缩小这种差距,因此,国家在缩小东西部差距,振兴西部经济过程着重要的责任(1)创造中西部地区发展的良好政策环境(2)对开发潜力的资源富集地区,加大勘探、开发力度、提供资金、技术上的支持(3)进一步改革和完善价格系,优先考虑调整资源性产品的价格(4)加大西部的对外开放,并制定倾斜政策,引导外资西进(5)促进东部对西部的支持与技术合作。

2、们在追求区域经济协调发展时要顾全的大局,先富裕起来的东部地区在缩小东西部差距过程中着义不容辞的责任(2)东部经过十几年的优先发展,在资金、技术、人才等方面拥有了西部所没有的绝对优势,但在交通、能源、原材料及消费品市场方面出现紧张局面,而西部地区恰恰相反,因此,实现我国东西部地区优势互补、东西互助,也是我国市场经济发展的客观要求。

3、西部地区自身的努力,西部地区的发展,需要国家的支持和东部的帮带,但最根本的实施发扬西部人民自力更生、艰苦奋斗的精神(1)加大深层次的开放力度,开放性是市场经济的本质属性,西部地区要融入全国乃至世界的同一大市场中去,必须加大改革开放的力度,克服唯条件论的束缚,利用地缘优势,加大沿边,沿江地区的开放力度(2)以优化产业和经济结构为主线,东西部差距在深层次上反映的是结构上的

差距,西部地区大部分产业单一粗放,结构严重失衡,表现为基础工业相对过长,加工业过短,能源、原材料加工、初级产品比重过大,经济效益差等问题,因此,调整产业结构,促进经济增长方式的转变是西部经济持续、健康发展并追赶东部地区的关键(3)以发展特色经济为主要途径,西部地区只有积极参与全国经济的现代化分工,形成自己的特色,才能在市场竞争中占优势地位,西部已经形成了能源、原材料、机电工业等产业优势,只有立足于现有的资源和产业优势,进行优势再造,才能最终形成自己的特色经济。

统计学第1-2章作业参考答案

第1-2章作业参考答案 一、单项选择 1、政治算术学派的代表人物是(B)A.凯特勒B.威廉·配第C.康令D.阿亨瓦尔 2、统计学研究对象的重要特点是(A)A.数量性B.总体性C.社会性D.具体性 3、就总体单位而言(C)A.只能有一个标志B.只能有一个指标 C.可以有多个标志D.可以有多个指标 4、要了解某班50名学生的学习情况,则总体是(A)A.50名学生B.每一个学生 C.50名学生的学习成绩D.每一个学生的学习成绩 5、对某地区所有工业企业的职工情况进行研究,总体单位是(A)A.每个职工B.每个企业C.每个个数的职工D.全部工业企业 6、某生产班组四名工人月工资收入分别是3200元、3250元、3320元和3560元,这四个数字是(B)A.变量B.变量值C.数量标志D.数量指标 7、某工业企业工人的技术等级分为一级、二级、三级、四级和五级,这里的“技术等级”是(B)A.数量标志B.品质标志C.数量指标D.质量指标 8、职工人数是一个(A)变量。 A.离散型B.连续型C.有时是离散型有时是连续型D.无法判断 9、一项调查是否属于全面调查,关键看其是否(B)A.对调查对象的各方面都进行调查B.对组成调查总体的所有单位逐一进行调查C.制定统计调查方案D.采用多种调查方法 10、制定统计调查方案,首先要明确(D)A.统计调查对象B.统计调查单位C.统计调查项目D.统计调查目的11、经常调查与一时调查是按(B)来划分的。 A.调查组织形式B.登记事物连续性C.调查方法D.调查对象包括范围12、下列属于经常调查的是(D)A.对2011年大学毕业生就业状况的调查 B.对近几年来居民消费价格变动情况进行一次摸底调查 C.对全国人口每隔10年进行一次普查D.按月上报的钢铁产量 13、对某地区饮食业从业人员的身体状况进行调查,调查对象是该地区饮食业的(C)A.全部营业网点B.每个营业网点C.所有从业人员D.每个从业人员14、某市工商企业2011年生产经营成果的年报呈报时间规定在2012年1月31日,则调查期限为(B)A.一日B.一个月C.一年D.一年零一个月 15、调查时间的含义是(A)A.调查资料所属的时间B.进行调查的时间 C.调查工作期限D.调查资料报送的时间

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

统计学作业参考

案例题亚太商学院MBA教育 亚太商学院 商业界追求高学历目前流行于全世界。《亚洲公司》1997 年9 月份的一项调查表明,越来越多的亚洲人选择攻读工商管理硕士学位以求在公司取得成功。在亚太地区商学院申请MBA 课程的人数大约每年增长30% 。1997 年,亚太地区的74 个商学院公布了多达170000 个申请人的记录,其中11000 人将在1999 年获得全日制MBA 学位。需求飙升的主要原因是MBA 可以大大提高赚钱的能力。 在该地区,成千上万的亚洲人显得越来越愿意暂时离开工作,而花上两年的时间去追求商业理论证书。这些学校的课程非常难学,包括经济学、银行学、营销学、行为学、劳资关系学、决策学、战略思考、商法等。《亚洲公司》搜集了部分商学院的如下数据,该数据集显示了最佳商学院的某些特征。 注:GMAT、英语测试、工作经验中的“0,1”为虚拟变量,0表示“要求”,1表示“不要求” 请利用所学统计学知识,依据上表所列示的部分亚太商学院MBA教育的样本数据,对整个亚太地区商学院MBA教育情况做出深入分析及解读,譬如MBA教育样本数据的整体分布态势、本国学费与外国学费差异、要

求和不要求英语测试的商学院学生起薪的差异、要求和不要求工作经验的商学院学生起薪平均数的差异等等。 一.描述性统计分析 就总体来看,这25个知名商学院的招生名额较多;无论本国或是外国学生的学费都较为昂贵,并且外国学生学费普遍高于或者等于本国学生学费,但是相差不会太大;国外学生占的比例约为30%,较多;决大部分(72%)商学院要求工作经验,超半数(56%)要求GMAT,一小部分(32%)学院要求英语测试。各个商学院毕业生的起薪差别较大。 二.本国学生学费和外国学生学费比较分析

统计学课后习题参考答案

思考题与练习题 参考答案 【友情提示】请各位同学完成思考题与练习题后再对照参考答案。回答正确,值得肯定;回答错误,请找出原因更正,这样使用参考答案,能力会越来越高,智慧会越来越多。学而不思则罔,如果直接抄答案,对学习无益,危害甚大。想抄答案者,请三思而后行! 第一章绪论 思考题参考答案 1.不能,英军所有战机=英军被击毁的战机+英军返航的战机+英军没有弹孔的战机,因为英军被击毁的战机有的掉入海里、敌军占领区,或因堕毁而无形等,不能找回;没有弹孔的战机也不可能自己拿来射击后进行弹孔位置的调查。即便被击毁的战机找回或没有弹孔的战机自己拿来射击进行实验,也不能从多个弹孔中确认那个弹孔就是危险的。 2.问题:飞机上什么区域应该加强钢板?瓦尔德解决问题的思想:在她的飞机模型上逐个不重不漏地标示返航军机受敌军创伤的弹孔位置,找出几乎布满弹孔的区域;发现:没有弹孔区域就是军机的危险区域。 3.能,拯救与发展自己的参考路径为:①找出自己的优点,②明确自己大学阶段的最佳目标,③拟出一个发扬自己优点,实现自己大学阶段最佳目标的可行计划。 练习题参考答案 一、填空题 1.调查。

2.探索、调查、发现。 3、目的。 二、简答题 1.瓦尔德;把剩下少数几个没有弹孔的区域加强钢板。 2.统计学解决实际问题的基本思路,即基本步骤就是:①提出与统计有关的实际问题;②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法整理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量的知识作出合理推断;⑥根据合理推断给出更好决策的建议。不解决问题时,重复第②-⑥步。 3.在结合实质性学科的过程中,统计学就是能发现客观世界规律,更好决策,改变世界与培养相应领域领袖的一门学科。 三、案例分析题 1.总体:我班所有学生;单位:我班每个学生;样本:我班部分学生;品质标志:姓名;数量标志:每个学生课程的成绩;指标:全班学生课程的平均成绩 ;指标体系:上学期全班同学学习的科目 ;统计量:我班部分同学课程的平均成绩 ;定性数据:姓名 ;定量数据: 课程成绩 ;离散型变量:学习课程数;连续性变量:学生的学习时间;确定性变量:全班学生课程的平均成绩;随机变量:我班部分同学课程的平均成绩,每个同学进入教室的时间;横截面数据:我班学生月门课程的出勤率;时间序列数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;面板数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;选用描述统计。 2.(1)总体:广州市大学生;单位:广州市的每个大学生。(2)如果调查中了解的就是价格高低,为定序尺度;如果调查中了解的就是商品丰富、价格合适、节约时间,为定类尺度。(3)广州市大学生在网上购物的平均花费。(4)就是用统计量作为参数的估计。(5)推断统计。 3.(1)10。(2)6。(3)定类尺度:汽车名称,燃油类型;定序尺度:车型大小;定距尺度:引擎的汽缸数;定比尺度:市区驾车的油耗,公路驾车的油耗。(4)定性变量:汽车名称,车型大小,燃油类型;定量变量:引擎的汽缸数,市区驾车的油耗,公路驾车的油耗。(5)40%;(6)30%。 第二章收集数据 思考题参考答案

应用多元统计分析SAS作业审批稿

应用多元统计分析S A S 作业 YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】

5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。 表1 岩石化学成分的含量数据 (1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等); (2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿? 问题求解 1 使用广义平方距离判别法对样本进行判别归类 用SAS软件中的DISCRIM过程进行判别归类。 SAS程序及结果如下。 data d59; input group x1-x3@@; cards; 1 2.58 0.9 0.95 1 2.9 1.23 1 1 3.55 1.15 1 1 2.35 1.15 0.79 1 3.54 1.85 0.79 1 2.7 2.23 1.3 1 2.7 1.7 0.48 2 2.25 1.98 1.06 2 2.16 1.8 1.06 2 2.3 3 1.7 4 1.1 2 1.96 1.48 1.04

2 1.94 1.4 1 2 3 1.3 1 2 2.78 1.7 1.48 ; proc print data =d59; run ; proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ; 由输出结果可知,两总体间的广义平方距离为D 2=3.19774。还可知两个三元总体均值相等的检验结果:D =3.19774,F =3.10891,p =0.0756<0.10,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。 线性判别函数为: 判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。 2 对给定样本判别归类 将Cu ,Ag ,Bi 的含量数值2.95、2.15、1.54分别代入线性判别函数得: 1244.674246.978882Y Y ==,。 贝叶斯判别的解{}***1, ,k D D D = 为 {}*|()(),,1, ,(1, ,)t t j D X Y X Y X j t j k t k =>≠==, 由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。 5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。假定样本均来自正态总体。 表2 判别分类的数据

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

统计学实验作业

1、一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的增长,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,管理者希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。该银行所属的25家分行2002年的有关业务数据是“例11.6.xls”。 (1)试绘制散点图,并分析不良贷款与贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的关系;

2计算不良贷款、贷款余额、累计应收贷款、贷款项目个数、固定资产投资额之间的相关系数 (2)求不良贷款对贷款余额的估计方程;

从表系数可以看出常量、应收贷款、项目个数、固定资产投资额,都接受原假设,只有贷款余额拒绝原假设,所以只有贷款余额对不良贷款起作用。 从共线性可以看出,第五个特征值对贷款余额解释87%,对应收账款解释度为12%、对贷款个数解释度为63%、对固定资产投资解释度为5%。 所以不是太共线。、 线性方程为Y=0.01X Y为不良贷款,X为贷款余额。

4 检验不良贷款与贷款余额之间线性关系的显著性(α=0.05);回归系数的显著性(α=0.05); 共线性诊断a 模型维数特征值条件索引 方差比例 (常量) 各项贷款余额 (亿元) 1 1 1.837 1.000 .08 .08 2 .16 3 3.35 4 .92 .92 a. 因变量: 不良贷款 (亿元) 通过对上表分析得出:贷款余额线性关系通过显著性检验,回归系数通过显著性检验。 5绘制不良贷款与贷款余 额回归的残差图。

统计学课后作业答案

统计学课后作业答案

4.2 随机抽取25个网络用户,得到他们的年龄数据如下: 19 15 29 25 24 23 21 38 22 18 30 20 19 19 16 23 27 22 34 24 41 20 31 17 23 要求;(1)计算众数、中位数: 1、排序形成单变量分值的频数分布和累计频数分布: 网络用户的年龄 从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。 (2)根据定义公式计算四分位数。Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25 和27都只有一个,因此Q3也可等于25+0.75×2=26.5。 (3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652 (4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773 (5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。 为分组情况下的直方图:

为分组情况下的概率密度曲线:分组: 1、确定组数: () lg25 lg() 1.398 111 5.64 lg(2)lg20.30103 n K=+=+=+=,取k=6 2、确定组距:组距=( 最大值- 最小值)÷组数=(41-15)÷6=4.3,取5 3、分组频数表 网络用户的年龄(Binned) 分组后的均值与方差:

Kurtosis 1.302 分组后的直方图: 组中值 50.00 45.00 40.00 35.00 30.00 25.00 20.00 15.00 10.00 F r e q u e n c y 10 8 6 4 2 Mean =23.30 Std. Dev. =7.024 N =25 4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下: 成年组 166 169 l72 177 180 170 172 174 168 173 幼儿组 68 69 68 70 7l 73 72 73 74 75 要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么? 均值不相等,用离散系数衡量身高差异。 (2)比较分析哪一组的身高差异大? 成年组 幼儿组 平均 172.1 平均 71.3 标准差 4.201851 标准差 2.496664 离散系数 0.024415 离散系数 0.035016 幼儿组的身高差异大。 7.6利用下面的信息,构建总体均值μ的置信区间: 1) 总体服从正态分布,且已知σ = 500,n = 15, =8900,置信水平为95%。 解: N=15,为小样本正态分布,但σ已知。则1-α=95%, 。其置信区间公式为 ∴置信区间为:8900±1.96×500÷√15=(8646.7 , 9153.2) 2) 总体不服从正态分布,且已知σ = 500,n = 35, =8900,置信水平为95%。 解:为大样本总体非正态分布,但σ已知。则1-α=95%, 。其置信区间公式为 2 α() 28.109,44.10192.336.10525 10 96.136.1052=±=?±=±n z x σ αx x 2 α() 28.109,44.10192.336.10525 1096.136.1052=±=?±=±n z x σ α

03第三篇 多元统计分析作业题

第三篇 多元统计分析作业题 1 证明题 1)已知ψ==A X E X Z T T T ,这里用到关系1-ψ=E A 。以二变量为例证明: 12*-Λ=ψ=A X A X Z T T T 1)(-=T T A X 。 式中X 为标准化原始变量矩阵,A 为载荷矩阵,Z 为非标准化主成分得分,Z *为标准化的因子得分,E 为单位化特征向量构成的矩阵即正交矩阵,Ψ为特征根的平方根的倒数构成的对角阵,Λ为特征根构成的对角阵,对于二变量有 ?????? ??=ψ21 /10 /1λλ, ?? ? ???=Λ21 00λλ. 2)对于二变量因子模型,我们有 ?? ?++=++=222221122 112211111εεu f a f a x u f a f a x . 试以 x 1为例证明1 2 22==+j x j j u h σ ,这里∑== p k kj j a h 1 2 22 21 211a a +=。 2 计算题 1)现有一组古生物腕足动物贝壳标本的两个变量:长度x 1和宽度x 2。所测数据如下(表2.1)。 要求: ① 利用Excel 对数据进行主成分分析。 ② 借助SPSS 对该数据进行主成分分析,并计算结果与Excel 的计算结果进行对比,理解各个表格所给参数的含义。 ③ 用本例数据验证证明题?的推导结果。 表2.1 古生物腕足动物贝壳标本数据 样品编号 长度x 1 宽度x 2 样品编号 长度x 1 宽度x 2 1 3 2 14 12 10 2 4 10 15 12 11 3 6 5 16 13 6 4 6 8 17 13 14 5 6 10 18 13 15 6 7 2 19 13 17 7 7 13 20 14 7 8 8 9 21 15 13 9 9 5 22 17 13

统计学作业

统计学作业 Document number【980KGB-6898YT-769T8CB-246UT-18GG08】

统计学第一次作业(2012年3月15日)注意:作业全部为课后习题,请将必要的推导过程写出,不能只写答案。 本次作业共包括前四章的14道题目,个别题目有删减: 第一章?统计学的性质 1-3答: (1)对于简单随机抽样,置信度为95%的置信区间公式为: 表:历年盖洛普对总统选举的调查结果(n=1500) 年度共和党民主党民主党候选人P*(1-P)/n 95%置信度总体比例的置信区间(%)实际选举结果 (%) 1960 尼克松49% 肯尼迪51% 51± 肯尼迪 1964 戈德沃特36% 约翰逊64% ☆64± 约翰逊 1968 尼克松57% 汉弗莱50% 50± 汉弗莱 1972 尼克松62% 麦戈文38% 38± 麦戈文 1976 福特49% 卡特51% 51± 卡特 1980 里根52% 卡特48% ☆48± 卡特 (2)注☆:实际选举结果证明错误的置信区间 2-2、在中国台湾的一项《夫妻对电视传播媒介观念差距的研究》中,访问了30对夫妻,其中丈夫所受教育X(以年为单位)的数据如下: 18 20 16 6 16 17 12 14 16 18 14 14 16 9 20 18 12 15 13 16 16 2l 2l 9 16 20 14 14 16 16 第二章?描述性统计学 2-2答: 1) 将数据分组,使组中值分别为6,9,12,15,18,21,作出X的频数分布表; 解:(1)数据分组如下: 表:丈夫所受教育年限X频数分布表(n=30) 分组编号组下、上限组中值 X值(年)频数(f)相对频率 ( f / n )累积频率(%) 1 [,) 6 6 1 2 [,) 9 9、9 2 3 [,) 12 12、12、13 3 4 [,) 1 5 14、14、14、14、14、15、16、16、16、16、16、16、16、16、1 6 15 5 [,) 18 17、18、18、18 4 6 [,) 21 20、20、20、21、21 5

统计学课后习题答案完整版

统计学课后习题答案 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第四章 统计描述 【】某企业生产铝合金钢,计划年产量40万吨,实际年产量45万吨;计划降低成本5%,实际降低成本8%;计划劳动生产率提高8%,实际提高10%。试分别计算产量、成本、劳动生产率的计划完成程度。 【解】产量的计划完成程度=%5.112100%40 45 100%=?=?计划产量实际产量 即产量超额完成%。 成本的计划完成程=84%.96100%5%-18% -1100%-1-1≈?=?计划降低百分比实际降低百分比 即成本超额完成%。 劳动生产率计划完= 85%.101100%8%110% 1100%11≈?++=?++计划提高百分比实际提高百分比 即劳动生产率超额完成%。 【】某煤矿可采储量为200亿吨,计划在1991~1995年五年中开采全部储量的%, 试计算该煤矿原煤开采量五年计划完成程度及提前完成任务的时间。 【解】本题采用累计法: (1)该煤矿原煤开采量五年计划完成=100% ?数 计划期间计划规定累计数 计划期间实际完成累计 = 75%.1261021025357 4 =?? 即:该煤矿原煤开采量的五年计划超额完成%。 (2)将1991年的实际开采量一直加到1995年上半年的实际开采量,结果为2000万吨,此时恰好等于五年的计划开采量,所以可知,提前半年完成计划。 【】我国1991年和1994年工业总产值资料如下表:

要求: (1)计算我国1991年和1994年轻工业总产值占工业总产值的比重,填入表中; (2)1991年、1994年轻工业与重工业之间是什么比例(用系数表示)? (3)假如工业总产值1994年计划比1991年增长45%,实际比计划多增长百分之几? 1991年轻工业与重工业之间的比例=96.01.144479 .13800≈; 1994年轻工业与重工业之间的比例=73.04.296826 .21670≈ (3) %37.25 1%) 451(2824851353 ≈-+ 即,94年实际比计划增长%。 【】某乡三个村2000年小麦播种面积与亩产量资料如下表: 要求:(1)填上表中所缺数字; (2)用播种面积作权数,计算三个村小麦平均亩产量; (3)用比重作权数,计算三个村小麦平均亩产量。

统计学原理作业2答案(新)

《统计学原理》作业(二) (第四章) 一、判断题 1、总体单位总量和总体标志总量是固定不变的,不能互相变换。(×) 2、相对指标都是用无名数形式表现出来的。(×) 3、能计算总量指标的总体必须是有限总体。(×) 4、按人口平均的粮食产量是一个平均数。(×) 5、在特定条件下,加权算术平均数等于简单算术平均数。(√) 6、用总体部分数值与总体全部数值对比求得的相对指标。说明总体内部的组成状况,这个相对指标是比例相对指标。(×) 7、国民收入中积累额与消费额之比为1:3,这是一个比较相对指标。(×) 8、总量指标和平均指标反映了现象总体的规模和一般水平。但掩盖了总体各单位的差异情况,因此通过这两个指标不能全面认识总体的特征。(√) 9、用相对指标分子资料作权数计算平均数应采用加权算术平均法。(×) 10、标志变异指标数值越大,说明总体中各单位标志值的变异程度就越大,则平均指标的代表性就越小。(√) 二、单项选择 1、总量指标数值大小(A) A、随总体范围扩大而增大 B、随总体范围扩大而减小 C、随总体范围缩小而增大 D、与总体范围大小无关

2、直接反映总体规模大小的指标是(C) A、平均指标 B、相对指标 C、总量指标 D、变异指标 3、总量指标按其反映的时间状况不同可以分为(D) A、数量指标和质量指标 B、实物指标和价值指标 C、总体单位总量和总体标志总量 D、时期指标和时点指标 4、不同时点的指标数值(B) A、具有可加性 B、不具有可加性 C、可加或可减 D、都不对 5、由反映总体各单位数量特征的标志值汇总得出的指标是(B) A、总体单位总量 B、总体标志总量 C、质量指标 D、相对指标 6、计算结构相对指标时,总体各部分数值与总体数值对比求得的比重之和(C) A、小于100% B、大于100% C、等于100% D、小于或大于100% 7、相对指标数值的表现形式有( D ) A、无名数 B、实物单位与货币单位 C、有名数 D、无名数与有名数 8、下列相对数中,属于不同时期对比的指标有(B) A、结构相对数 B、动态相对数 C、比较相对数 D、强度相对数

统计学课后习题

统计学课后习题 Prepared on 22 November 2020

第二章统计数据调查与整理 9.对50只灯泡的耐用时数进行测试,所得数据如下: (单位:小时) 886 928 999 946 950 864 1050 927 949 852 1027 928 978 816 1000 918 1040 854 1100 900 866 905 954 890 1006 926 900 999 886 1120 893 900 800 938 864 919 863 981 916 818 946 926 895 967 921 978 821 924 651 850 要求: (1)根据上述资料编制次数分布数列,并计算向上累计和向下累计频数和频率。 (2)根据所编制的次数分布数列,绘制直方图、折线图。 (3)根据图形说明灯泡耐用时数的分布属于何种类型。 最大值=651 最下限=650 最小值=1120 最上限=1150 全距=1120-651=469 组数=5,组距=100 10.某服装厂某月每日的服装产量如下表所示。 某服装厂X月X日服装产量表 将表中资料编制成组距式分配数列,用两种方式分组,各分为五组,.比较哪一种分组较为合理。 等距式分组(不考虑异常数据)

异距式分组(考虑异常数据) 11.某驾驶学校有学员32人,他们的情况如下表所示: 利用表中资料编制以下统计表: (1)主词用一个品质标志分组,宾词用一个品质标志和一个数量标志分三组的宾词平行分组设计表。 (2)主词用一个品质标志分组,宾词用一个品质标志和一个数量标志分三组的宾词层叠分组设计表。 (1) (2) 第三章总量指标与相对指标 8.某企业统计分析报告中写道:“我厂今年销售收入计划规定2 500万元,实际完成了2 550万元,超额完成计划2%;销售利润率计划规定8%,实际为1 2%,超额完成计划4%(50%);劳动生产率计划规定比去年提高5%,实际比去年提高5.5%,超额完成计划10%(10。

应用多元统计分析SAS作业第六章资料

6-10 今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。 (1) 试用多种系统聚类法对6个弹头进行分类;并比较分类结果; (2) 试用多种方法对7种微量元素进行分类。 问题求解 1对6个弹头进行分类 对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(A VE )、中间距离法(MID )、可变类平均法(FLE )和离差平方合法(WARD )。使用SAS 软件CLUSTER 过程对数据进行聚类分析(程序见附录1)。 1.1类平均法 图1 类平均聚类法相关矩阵特征值图 图2 类平均聚类分析法聚类历史图 由图2可知,NCL=1时半偏R 2最大且伪F 统计量在NCL=2,5时和伪t 方统计量在NCL=1,4时较大。因此,将6个弹头分为两类{}{}(2) (2) 121,2,4,6,3,5G G ==。SAS 绘制的谱系聚类图如图 3所示。

图3 类平均聚类分析法谱系聚类图 1.2中间距离法 图4 中间距离聚类法相关矩阵特征值图 图5 中间距离聚类法聚类历史图 由图5可知,中间距离法与类平均法结果一致。因此,也将6个弹头分为两类 {}{}(2)(2) 121,2,4,6,3,5G G ==。 SAS 绘制的谱系聚类图如图6所示。

图6中间距离聚类法谱系聚类图 1.3可变类平均法 图7可变类平均聚类法分析结果图 图8 可变类平均聚类法聚类历史图 由图8可知,可变类平均法(=0.25 β-)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。因此,分

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的),(~∑μP N X μ∑μp X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

统计学作业完整版本

统计学论文错误

一、科研设计 1.论文题目:HO-1在阿尔兹海默病额叶及海马组织中的表达及对神经的保护作用 摘要:方法选择2012年7月至2013年12月该院收集的30例神经活检脑标本作为研究对象。结合病理诊断选择其中肯定的散发型AD病例记为AD组,共16 例,其余14例有中枢神经系统等病症且无明显脑病理变化者作为对照组。以免疫组化法以及免疫荧光染色法分别检测HO-1在额叶及海马组织中的表达,对比两组HO-1IHC阳性情况以及两组额叶及海马神经元中HO-1表达IA值水平。结论HO-1在AD疾病患者额叶及海马组织中均有表达,且可能是通过启动机体内源性的神经保护机制从而对大脑发挥一定的保护作用。 错误之处: 在科研设计中,病例与对照选择的基本原则是所调查的病例足以代表总体中该病的病例,对照足以代表产生病例的总体。 此调查选取了来源于某一所医院住院部的病例在一定时期内得神经活检标本作为病例。较易进行,省经费;但是带有选择性,容易产生选择偏倚,仅反映该机构的病人特点,而不是全人群该病的特点。 对照的选择关系到病例对照研究的成败。该实验从本医院的其他病人中选对照,即在选择病例的医院内选择有中枢神经系统等病症且无明显脑病理变化者作为对照组,但并未提及是何病种,也并知道该病种是否对研究阿尔兹海默病是否产生影响,病种以愈复杂愈好。这样比较方便,且这种对照的应答率和信息的质量均较高。 建议:

1.得出结论是可以给出范围,如某地区某医院HO-1在AD疾病患者额叶及海马组织中均有表达,且可能是通过启动机体内源性的神经保护机制从而对大脑发挥一定的保护作用。 2.可在方法中给出对照组疾病对研究并未产生统计学作用。 3.可以同时选取两种对照,即从一般人口中选择对照,又可以从住院病人中选择对照。研究结果一致,则能增强评价的依据。如结果不一致,则需分析其原因,可能有偏倚。 4.所选病例必须是患同一种疾病的病人,诊断标准、病例的年龄、性别、种族、职业等,选择时要有一个明确的规定。如本例可选取某排除标准将具有其他痴呆相关的神经系统疾病、抑郁症等排除入组等。 2.论文题目:补肾益智颗粒联合盐酸多奈哌齐片治疗阿尔兹海默病的临床疗效研究 摘要:目的:观察补肾益智颗粒联合盐酸多奈哌齐片治疗阿尔兹海默病的临床疗效。方法:选取2012年11月至2013年11月期间,在广西中医药大学第一附属医院脑病科及干部科门诊或住院治疗符合诊断标准的136例阿尔兹海默病患者,按就诊先后随机分为治疗组和对照组,每组各68例。对照组单用盐酸多奈哌齐片治疗,治疗组在对照组的基础上加用补肾益智颗粒治疗,4周为一疗程,共治疗24周。治疗前及治疗后采用临床总体印象量表(CGI)评价患者的整体情况,采用简易智能精神状态量表(MMSE)评价患者的认知功能及痴呆的严重程度,采用AD评定量表的认知次级量表(ADAS-Cog)评价患者认知功能及精神行为,采用日常生活能力量表(ADL)评价患者的日常生活自理能力,采用神经精神量表(NPI)评价患者的精神状态,采用中医证候评分评价患者症状、体征的变化。所有数据均采用SPSS17.0

统计学原理作业答案(1).doc

宁大专科《统计学原理》作业 第一次作业 一、单项选择题 1、社会经济统计学研究对象(C )。 A、社会经济现象总体 B、社会经济现象个体 C、社会经济现象总体的数量方面 D、社会经济现象的数量方面 2、统计研究在( B )阶段的方法属于大量观察法。 A、统计设计 B、统计调查 C、统计整理 D、统计分析 3、、研究某市工业企业生产设备使用状况,那么,统计总体为( A )。 A、该市全部工业企业 B、该市每一个工业企业 C、该市全部工业企业每一台生产设备 D、该市全部工业企业所有生产设备 4、下列标志属于品质标志的是( C )。 A、工人年龄 B、工人工资 C、工人性别 D、工人体重 5、下列变量中,属于连续变量的是( C )。 A、企业数 B、职工人数 C、利润额 D、设备台数 6、把一个工厂的工人组成总体,那么每一个工人就是( A )。 A、总体单位 B、数量标志 C、指标 D、报告单位 7、几位工人的工资分别为1500元、1800元和2500元,这几个数字是( C )。 A、指标 B、变量 C、变量值 D、标志 8、变异的涵义是( A )。 A、统计中标志的不同表现。 B、总体单位有许多不同的标志。 C、现象总体可能存在各种各样的指标。 D、品质标志的具体表现。 9、销售额和库存额两指标( D )。 A、均为时点指标 B、均为时期指标 C、前者是时点指标,后者是时期指标 D、前者是时期指标,后者是时点指标 10、下列指标中属于时期指标的有( B )。 A、机器台数 B、产量 C、企业数 D、库存额 11、不同时点的指标数值( B )。 A、具有可加性 B、不具有可加性 C、可加或可减 D、以上都不对 12、某企业计划规定劳动生产率比上年提高5%,实际提高8%,则该企业劳动生产率计划完成程度为( B )。 A、86% B、102.86% C、60% D、160% 13、某市2004年重工业增加值为轻工业增加值的85%,该指标是( C )。 A、比较相对指标 B、结构相对指标 C、比例相对指标 D、计划相对指标 二、简答题 1、什么是总体和单位,举例说明。 答: (1)总体:统计所研究对象的全体,即由具有某一共同属性的许多个别事物所组成的集合。单位:构成总体的每一个别事物。 (2)了解某企业的设备情况,每台设备是单位,所有设备是总体。 2、标志与指标的区别和联系。

统计学(第五版)贾俊平-课后思考题和练习题答案(完整版)

统计学(第五版)贾俊平课后思考题和练习题答案(最终完整版) 第一部分思考题 第一章思考题 1.1什么是统计学 统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。 1.2解释描述统计和推断统计 描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。 推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。 1.3统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 1.4解释分类数据,顺序数据和数值型数据 答案同1.3 1.5举例说明总体,样本,参数,统计量,变量这几个概念 对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 1.6变量的分类 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 1.7举例说明离散型变量和连续性变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数” 连续型变量,取之连续不断,不能一一列举,比如“温度”。 1.8统计应用实例 人口普查,商场的名意调查等。 1.9统计应用的领域 经济分析和政府分析还有物理,生物等等各个领域。

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

相关文档
相关文档 最新文档