文档库 最新最全的文档下载
当前位置:文档库 › 成都理工大学统计学问答题

成都理工大学统计学问答题

成都理工大学统计学问答题
成都理工大学统计学问答题

1、抽样调查、重点调查和典型调查这三种非全面调查的区别是什么?

(1)选取调查单位的方式不同。重点调查中重点单位的选取是根据重点单位的标志总量是否占全部单位标志总量的绝大比重这一标准来确定的,这一标准是客观存在的,所以易于确定。抽样调查中的调查单位是按随机原则从全部总体单位中抽选出来的,不受人的主观因素所影响。典型调查中的典型单位是在对总体情况分析的基础上有意识的抽选出来的。(2)调查目的的不同。重点调查的目的是通过对重点单位的调查,掌握总体的基本情况;抽样调查的目的则是通过对部分单位的调查结果来推算总体的数量特征;作为统计意义的典型调查,其目的类似于抽样调查。(3)推算总体指法标的准确性和可靠程度不同。抽样调查和典型调查都要以部分单位调查的结果推算总体指法标,由于二者调查单位选择的方法不同,其推算结果的准确性、可靠性也不同。抽样调查按随机原则抽选调查单位,因而在给定概率和误差范围条件下,可保证推断的准确性和可靠性;而典型调查单位的选择完全由人们有意识的选择,因而难以保证推断结果的准确性和可靠性,推断误差既不知道也不能控制。

2、在近期的辩论中,一位政治家称,由于美国的平均收入在过去的四年中增加了,因此情况正在好转。他的政敌却说,由于富人和穷人之间的收入之间的差距越来越大,因此情况正在恶化。这两种说法对吗?简述您的理由?

答:这两种说法都有一定的道理,(2分)只是这位政治家用平均收入来强调经济的发展(3分),但他的政敌却强调收入的差距扩大使社会分配不公的问题恶化(3分)。他们各自强调了问题的一个方面。而在分析时,两方面都要考虑。(2分)

3、分层抽样与整群抽样有何异同?它们分别适合于什么场合?

答:相同点:分层抽样和整群抽样都需要事先按某一标志对总体进行划分的随机抽样。(2分)不同点:(1)分层抽样的划分标志与调查标志有密切关系,而整群抽样的划分标志不一定与调查标志有关。(1分)(2)分层抽样是在各层中随机抽样,而整群抽样在全部群中随机抽取一部分群体。(1分)(3)分层抽样的抽样误差取决于各层总体方差的平均数,整群抽样的抽样误差取决于总体的群间方差。(1分)(4)分层抽样的目的主要是缩小抽样误差,满足推断子总体数量特征的需要,而整群抽样的目的主要是扩大抽样单位,简化组织工作。(1分)

适用场合:分层抽样用于层间差异大而层内差异小时,以及为了满足分层次管理决策的需要。(2分)整群抽样用于群间差异小而群内差异大时,或只有经群体为抽样单位的抽样框等。(2分)

4、欲了解全国钢铁的生产企业的基本情况,试问:(1)总体、总体单位是什么?(2)有哪些调查标志?试列出四个。(3)采用什么调查方法最合适?简要说明为

什么?答:(1)总体是全国所有钢铁生产企业;总体单位是全国每一家钢铁生产企业(4分)(2)调查标志包括企业的职工人数、企业销售收入、企业利润、企业总产值等(3)采用重点调查最合适。重点调查是对总体中的重点单位进行调查,既节约大量的人力、物力,又达到掌握总体基本情况的目的。在这里调查目的是掌握全国钢铁生产企业的基本生产情况,同时我国的钢铁生产又存在着明显的重点单位,如宝钢、鞍钢等。(4分)

5、采用某种新方法需要增加一定的投资。若根据试验数据,通过假设检验判定该生产方法以能降低产品成本,则这种新方法将正式投入使用。

(1)如果目前的生产成本为400元,试提出合适的原假设和备择假设。(2)对你所提出的上述假设,发生第一类错误和第二类错误分别会导致怎样的后果。答:(1) (2)针对上述假设,犯第一类错误时,表明新方法不能降低生产成本,但误认为其成本较低而被投入使用,所以决策错误会增加成本。(3分) 犯第二类错误时,表明新方法的确能降低成本,但误认为其成本不低而未被投入使用,所以决策错误将失去降低成本的机会。(3分)

6、试述估计的精度和估计的可靠度之间的关系,怎样才能既提高估计精度又提高

估计的可靠度?答:关系:提高会计精度会降低估计的可靠度 (3分)提高估计的可靠度会降低估计的精度怎样才能既提高估计精度又提高估计的可靠度:扩大样本容量 (4分)

7、回归分析的实质是什么?为什么进行了相关分析还需要进行回归分析?

回归分析是通过建立回归方程揭示具有相关关系的变量之间的数量变化规律 (4分)相关分析只用于测度现象之间有无相关关系、关系方向、形态及密切程度,而要深入揭示变量之间的数量变化规律就必须进行回归分析。(6分)

8、什么是同度量因素?试述同度量因素的固定方法?

答:同度量因素是使不能直接加总的现象转让化为同度量、可以加总的现象的媒介因素,也称权数。一个现象的数量指标与质量指标互为同度量因素。(4分) 在利用指数体系进行因素分析时,基于指数研究的任务及指数体系成立的需要,一般按如下方法固定同度量因素:计算数量指标指数时,以相应的质量指标作为同度量因素并固定在基期(3分)计算质量指标指数时,以相应的数量指标作为同度量因素并固定在报告期。(3分)

9、述相关分析与回归分析的区别。

答:(1)进行相关分析时可以不分两个变量的关系是因果关系还是共变关系,不必区分哪个是自变量,哪个是因变量,而回归分析必须区分自变量和因变量。(2)计算相关系数的两个变量都是随机变量,而回归分析中的两个变量只有因变量是随400 X H 400

X H 1 0 < ≥ : :

机变量,而自变量是可以控制的量。(3)计算相关系数的两个变量是对等的,而回归分析时,对一种没有明显因果关系的两个变量,可以求得两个回归方程,一个为y倚x的回归,另一个是x倚y的回归。(3分)

10、相关分析的定义、回归分析的定义

定义相关分析和回归分析虽然都是研究两个或两个以上变量之间的关系,但二者之间既有区别又有联系。2、区别:(1)二者的研究目的不同。相关分析主要研究变量之间是否存在线性关系以及这种关系的强弱程度,而回归分析则是在前者的基础上进一步研究变量之间的联系方式,以便在给定一个或几个变量值的条件下预测或控制另一个变量的值。因此,相关分析中的变量之间的关系是对等的,而回归分析中的变量间的地位是不对等的,在进行回归分析时,必须明确变量间的依赖关系,即哪个变量依赖于哪个或哪些变量。一般把说明或解释另一个变量的变量称为解释变量,用x表示;而作为被说明或被解释的变量称为被解释变量,用y表示。在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y 处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的;(2)两者的假设条件不同。相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的。3、联系:首先,在进行回归分析之前,一般要确定变量之间的线性关系是否密切,这就要依赖相关分析。其次,变量之间的相关系数与回归分析中的拟合程度也存在一定的关系。

医学统计学名词解释及问答题

1、总体(population):是根据研究目的确定的同质研究对象的全体。 2、样本(sample):从总体中抽取的一部分有代表性的个体。 3、同质(homogeneity):是指所研究的观察对象具有某些相同的性质或特征。 4、变异(variation):指同质个体的某项指标之间的差异。 5、参数(parameter):反映总体特征的指标称为参数。 6、统计量(statistic):通过样本资料计算出来的相应指标称为统计量。 7、抽样误差(sampling error):由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。 8、概率(probability):某事件发生的可能性大小。 9、正态分布(normal distribution):高峰位于均数处,中间高两边低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。 10、平均数(average):是描述一组同质变量值的平均水平或集中趋势的指标。 11、中位数(median):将一组数据由小到大排列,位于中间位置的观测值。 12、医学参考值范围(medical reference range):又称正常值范围,医学上常将包括绝大多数正常人的某项指标的波动范围称为该指标的正常值范围。 13、方差(variance):是各个数据与平均数之差的平方的平均数。 14、标准差(standard deviation):是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示。 15、标准误(standard error):样本均数的标准差,等于原变量总体标准差除以例数的平方根,用以说明均数抽样误差的大小。 16、均数的抽样误差(sampling error of mean):由个体差异和抽样所导致的样本均数与样本均数之间,样本均数与总体均数之间的差异。 17、假设检验(hypothesis testing):先对总体做出某种假设,然后根据样本信息来推断其是否成立的一类统计方法的总称。 18、统计推断(statistical inference):是根据已知的样本信息来推断未知的总体,是统计分析的目的,包括参数估计和假设检验。 19、Ⅰ型错误(type Ⅰ error):拒绝了实际上成立的H0,这类弃真错误,发生的概率为α,为已知。 20、Ⅱ型错误(type Ⅱ error):不拒绝实际上不成立的H0,这类存伪错误,发生的概率为β,未知。 21、检验效能(power of test):又称把握度,为1-β,其意义是两总体确有差别,按α水准能发现它们有差别的能力。 22、可信区间(confidence interval):指总体参数可能所在的范围。 23、率(rate):说明某现象发生的频率或强度。 24、构成比(constituent ratio):表示某事物内部各组成部分所占的比重或分布,常以百分数表示。 25、相对比(relative ratio):表示两个有关事物指标之比,常以百分数和倍数表示,用以说明一个指标是另一个指标的几倍或百分之几。 26、标准化率(standardized rate):亦称调整率,是采用统一的标准对内部构成不同的各组频率进行调整和对比的方法。 27、参数检验(parametric test):一类依赖于总体分布的具体形式的统计推断方法。 28、非参数检验(non parametric test):一类不依赖总体分布类型的检验,在应用中可以不考虑被研究对象为何种分布以及分布是否已知,检验假设中没有包括总体参数的统计方法。

贾俊平 统计学(第六版)思考题答案

1、什么是统计学? 统计学是一门收集、分析、表述、解释数据的科学和艺术。 2、描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 3、统计学据可以分成哪几种类型,个有什么特点? 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同。分为:观测数据、和实验数据 观测数据:通过调查或观测而收集到的数据;不控制条件; 社会经济领域 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 4、举例说明总体、样本、参数、统计量、变量这几个概念。 总体:是包含全部研究个体的集合,包括有限总体和无限总体(范围、数目判定)样本:从总体中抽取的一部分元素的集合。 参数:用来描述总体特征的概括性数字度量。(平均数、标准差、比例等) 统计量:用来描述样本特征的概括性数字度量。(平均数、标准差、比例等) 变量:是说明样本某种特征的概念,其特点:从一次观察到下一次观察结果会呈现出差别或变化。(商品销售额、受教育程度、产品质量等级等) (对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。) 5、变量可以分为哪几类? 分类变量:说明事物类别;取值是分类数据。 顺序变量:说明事物有序类别;取值是顺序数据 数值型变量:说明事物数字特征;取值是数值型数据。 变量也可以分为:随机变量和非随机变量;经验变量和理论变量 6、举例说明离散型变量和连续型变量。 离散型变量:只能取有限个、可数值的变量。(企业个数、产品数量) 连续型变量:可以在一个或多个区间中取任何值的变量。(年龄、温度、零件尺寸误差)7、请举出统计应用的几个例子。 市场调查、人口普查等。 8、请举出应用统计学的几个领域。 社会科学中的经济分析、政府政策制定等;自然科学中的物理、生物领域等。

医学统计学名词解释问答题

医学统计学 1、应用相对数时应注意的事项 ①计算相对数时分母不能太小; ②分析时不能以构成比代替率; ③当各分组的观察单位数不等时,总率(平均率)的计算不能直接将各分组的率相加求其平均; ④对比时应注意资料的可比性:两个率要在相同的条件下进行,即要求研究方法相同、研究对象同质、观察时间相等以及地区、民族、年龄、性别等客观条件一致,其他影响因素在各组的内部构成应相近; ⑤进行假设检验时,要遵循随机抽样原则,以进行差别的显著性检验。 2、正态分布的特点及其应用 性质:①两头低中间高,略呈钟形; ②只有一个高峰,在X=μ,总体中位数亦为μ; ③以均数为中心,左右对称; ④μ为位置参数,当σ恒定时,μ越大,曲线沿横轴越向右移动; σ为变异度参数,当μ恒定时,σ越大,表示数据越分散,曲线越矮胖,反之,曲线越瘦高; ⑤对于任何服从正态分布N(μ,σ2)的随机变量X作的线性变换,都会变换成u 服从于均数为0,方差为1的正态分布,即标准正态分布。 应用:①概括估计变量值的频数分布; ②制定参考值范围; ③质量控制; ④是许多统计方法的理论基础。 3、确定参考值范围的一般原则和步骤、方法 一般原则和步骤:①抽取足够例数的正常人样本作为观察对象; ②对选定的正常人进行准确而统一的测定,以控制系统误差; ③判断是否需要分组测定; ④决定取单侧范围值还是双侧范围值; ⑤选定适当的百分范围; ⑥选用适当的计算方法来确定或估计界值。 方法:①正态分布法:②百分位数法(偏态分布) 4、总体均数的可信区间与参考值范围的区别 概念:可信区间是按预先给定的概率来确定的未知参数μ的可能范围。 参考值范围是绝大多数正常人的某指标范围。所谓正常人,是指排除了影响所研究指标的疾病和有关因素的人;所谓绝大多数,是指范围,习惯上指正常人的95%。 计算公式:可信区间① ② ③ 参考值范围①正态分布 ②偏态分布 用途:可信区间用于总体均数的区间估计 参考值范围用于表示绝大多数观察对象某项指标的分布范围

[经济学]统计学试卷

成都理工大学2006-2007学年第二学期 《统计学》期末考试试题(第二套) 题号一二三四五总分 得分 一、单项选择题(在备选答案中只有一个是正确的,将其选出并把它的英文标号写在题后括号内。不答题或者答错题既不得分,也不倒扣分。每题1分,共10分) 1、在研究某城市工业企业生产时,某个工业企业生产工人人数是() A、数量指标 B、数量标志 C、变量 D、标志总量 2、对全国货币发行量中占较大比重的几个大地区进行货币发行量调查,这种调查方式属于() A、普查 B、典型调查 C、抽样调查 D、重点调查 3、2003年某机械车间工人的月平均工资为1200元,工具车间工人的月平均工资为1400元,2004年各车间的工资水平不变,但机械车间工人增加20%,工具车间工人增加10%,则2004年两车间工人总平均工资比2003年() A、提高 B、降低 C、不变 D、不能做结论 4、某企业2003年完成利润100万元,2004年计划比2003年增长5%,实际完成110万元,2004年超额完成计划() A、104.76% B、4.76% C、110% D、10% 5、某单位四年管理费用的环比增长速度为3%,5%,8%,13%,则平均发展速度为() A、 B、 C、-1 D、-1 6、若同样多的人民币多购买商品3%,则物价: A、下降3% B、上升3% C、下降2.91% D、不变

7、是非标志的方差,其最大值是()。 A、1 B、1/2 C、1/3 D、1/4 8、在回归分析中,要求两变量 A、都是随机变量 B、自变量是确定性变量,因变量是随机变量 C、都是确定性变量 D、因变量是确定性变量,自变量是随机变量 9、无偏性是指 A、抽样指标的平均数等于被估计的总体指标 B、当样本容量n充分大时,样本指标充分靠近总体指标 C、随着n的无限增大,样本指标与未知的总体指标之间的离差任意小的可能性趋于实际必然性 D、作为估计量的方差比其他估计量的方差小 10、在一定的抽样平均误差条件下 A、扩大极限误差范围,可以提高推断的可靠程度 B、扩大极限误差范围,会降低推断的可靠程度 C、缩小极限误差范围,可以提高推断的可靠程度 D、缩小极限误差范围,不改变推断的可靠程度 二、多项选择题(在备选答案中有二个以上是正确的,将它们全选出并把它们的标号写在题后括号内,每题所有答案选择正确的得分;不答、错答、漏答均不得分。每题2分,共10分) 1、统计指标和统计标志是不同的,下面属于统计指标的是()。 A、某地区人口的性别比例 B、某人的性别 C、一台完好的设备 D、设备完好率 E 平均身高 2、下列指标中属于时点指标的有() A、企业数 B、在册职工人数 C、某种商品的销售量 D、某地区2004年人口数 E、某种产品的产量 3、影响抽样平均误差的因素有() A、总体标志变异程度 B、样本容量 C、抽样组织形式 D、抽样方法(重复和不重复) E、样本指标值的大小

统计学思考题(20200920020408)

思考题: 1什么是统计学?怎样理解统计学与统计数据的关系? 答:⑴统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据的内在的数量规律性;⑵统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源 于对统计数据的研究,目的也在于对统计数据的研究; ⑶离开了统计数据,统计方法乃至统计学就失去其存在的意义。 2、简要说明统计数据的来源。 答:(1)统计数据来源于直接获取的数据和间接获取的数据;(2)直接获取的数据来自于直接 组织的调查、观察和科学试验;(3)间接获取的数据来源于报纸、杂志、统计年鉴、网络或 从调查公司或数据库公司等处购买。 3、简要说明抽样误差和非抽样误差。 答:(1)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。从理论上看,这类误差是可以避免的;(2)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,可以计量,可以控制。 4、怎样理解均值在统计学中的地位? 答:(1 )反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量 特征的一种反映;(2)是统计分布的均衡点;(3)任何统计推断和分析都离不开均值。 5、解释洛伦茨曲线及其用途。 答:(1)洛伦茨曲线是累积次数分配曲线,由(美)洛伦茨()提出,依据(意)帕累托() 的“二八原理”和收入分配公式绘制;(2)用于描述收入和财富分配性质。 6、简述基尼系数的使用。 答:基尼系数用于反应收入分配的变化情况,取值在0?1之间 ①基尼系数小于,表明分配平均;②在?之间,分配比较适当;③是收入分配不公平的警 戒线,超过,收入分配不公平。 7、一组数据的分布特征可以从哪几个方面进行测度? 答:可以从三个方面测度:⑴分布的集中趋势反映的是数据一般水平的代表值或者数据分 布的中心值;⑵分布的离散程度反映的是分布离散和差异程度;⑶分布的偏态与峰 度反映数据的分布形态是否对称、偏斜的程度以及分布的扁平程度。 8、简述频率与概率的关系。 答:①频率反映的是某一事物出现的频繁程度;②概率是指事件在一次试验中发生的可能性; ③当观察次数n很大时,频率与概率非常接近。 9、概率的三种定义各有什么应用场合。 答:⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;⑵统计概率 实验的基本事件总数有限,每个基本事件出现的可能性不完全相同;⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计。 10、概率密度函数和分布函数的联系与区别表现在哪些方面? 答:(1)联系:概率密度函数的积分是分布函数,分布函数的导数是概率密度函数;别:概率密 (2)区 度函数的函数值是某点的概率密度,分布函数的函数值表示某个区间的概率。

【缩印整理版】医学统计学名词解释及问答题

统计学(Statistics):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达的科学。 总体(population):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。 抽样误差(sampling error)在抽样过程中由于抽样的偶然性而出现的误差。表现为总体参数与样本统计量的差异,以及多个样本统计量之间的差异。可用标准误描述其大小。 标准误(Standard Error) 样本统计量的标准差,反映样本统计量的离散程度,也间接反映了抽样误差的大小。样本均数的标准差称为均数的标准误。均数标准误大小与标准差呈正比,与样本例数的平方根呈反比,故欲降低抽样误差,可增加样本例数 区间估计(interval estimation):将样本统计量与标准误结合起来,确定一个具有较大置信度的包含总体参数的范围,该范围称为置信区间(confidence interval,CI),又称可信区间。 参考值范围描述绝大多数正常人的某项指标所在范围;正态分布法(标准差)、百分位数法,参考值范围用于判断某项指标是否正常 置信区间揭示的是按一定置信度估计总体参数所在的范围。t分布法、正态分布法(标准误)、二项分布法。置信区间估计总体参数所在范围 可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可 能性是1- α ,而不是总体参数落在该范围的可能性为1-α 。 参数统计(parametric statistics) 非参数统计(nonparametric statistics)是指在统计检验中不需要假定总体分布形式和计算参数估计量,直接对比较数据(x)的分布进行统计检验的方法。 变异(variation):对于同质的各观察单位,其某变量值之间的差异 同质(homogeneity):研究对象具有的相同的状况或属性等共性。 回归系数有单位,而相关系数无单位 β为回归直线的斜率(slope)参数,又称回归系数(regression coefficient)。 线性相关系数(linear correlation coefficient):又称Pearson积差相关系数(Pearson product moment coefficient),是定量描述两个变量间线性关系的密切程度与相关方向的统计指标。 参数(parameter):描述总体特征的统计指标。 统计量(statistic):描述样本特征的统计指标。实验设计的基本原则 对照 (control) 对受试对象不施加处理因素的状态。在确定接受处理因素的实验组时,要同时设立对照组 重复 (replication)相同实验条件下进行多次实验或多次观察。整个实验的重复;观察多个受试对象(样本量);同一受试对象重复观察。作用是估计变异大小和降低变异 随机化(randomization) 采用随机的方式,使每个受试对象都有同等的机会被抽取或分配到试验组和对照组。 I类错误(假阳性错误)真实情况为H0是成立的,但检验结果为H0不成立,这样的错误称为I类错误。其发生的概率用α表示。在假设检验中作为检验水准。一般取0.05或0.01。 II类错误(假阴性错误)真实情况为H1是成立的,但检验结果为H1不成立,这样的错误称为II类错误。其发生的概率用β表示。由于其取值取决于H1 ,因此在假设检验中无法确定。 变异指标是用于描述一组观察值围绕中心位置散布的范围,即描述离散趋势的统计指标。数值越大,说明数据越离散,反之越集中。极差 (range);四分位数间距(quartile range);方差(variance);标准差(standard deviation);变异系数(coefficient of variation 平均数指标用于描述一组同质观察值的集中趋势,反映一组观察值的平均水平。算术均数(arithmetic mean);几何均数(geometric mean);中位数(median);众数(mode) 单纯抽样将调查总体的全部观察单位编号,从而形成抽样框架,在抽样框架中随机抽取部分观察单位组成样本。每个观察对象都有相同的机会被抽中系统抽样又称机械抽样。按照某种顺序给总体中的个体编号,然后随机地抽取一个号码作为第一个调查个体,其他的调查个体则按照某种确定的规则“系统”地抽取。最常用的方法是等距抽样 分层抽样先将总体中全部个体按某种特征分成若干“层”,再从每一层内随机抽取一定数量的个体组成样本。分层特征与研究目的有关。按各层比例抽样。为减少抽样误差,要求层内误差最小,层间误 差最大。 整群抽样先将总体分成若干“群”,从中随机抽取 几个群,抽取群内的所有观察单位组成调查样本。 “群”的确定与研究目的无关。为减少抽样误差, 需多抽几个“群”。 方差分析:又称变异数分析或 F检验,适用于对多 个平均值进行总体的假设检验,以检验实验所得的 多个平均值是否来自相同总体。 析因设计(factorial design)实验:凡同时配置两个 或两个以上处理因素,这些因素的各水平又具有完 全组合的实验,统称为析因设计(factorial design) 实验。 随机区组设计(randomized block design)是事先 将全部受试对象按某种可能与实验因素有关的特征 分为若干个区组(block),使每一区组内的受试对 象例数与处理因素的分组数相等,使每个实验组从 每一区组得到一例受试对象。 单向方差分析(one way analysis of variance)是指 处理因素只有一个。这个处理因素包含有多个离散 的水平,分析在不同处理水平上应变量的平均值是 否来自相同总体。 (2)计数资料:将观察单位按某种属性或类别分组, 所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。 其观察值是定性的,表现为互不相容的类别或属性。 如调查某地某时的男、女性人口数;治疗一批患者, 其治疗效果为有效、无效的人数;调查一批少数民 族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性 的不同程度分组,所得各组的观察单位数,称为等 级资料(ordinal data)。等级资料又称有序变量。如 患者的治疗结果可分为治愈、好转、有效、无效或 死亡,各种结果既是分类结果,又有顺序和等级差 别,但这种差别却不能准确测量;一批肾病患者尿 蛋白含量的测定结果分为+、++、+++等。 随机变量(random variable)是指取指不能事先确 定的观察结果。随机变量的具体内容虽然是各式各 样的,但共同的特点是不能用一个常数来表示,而 且,理论上讲,每个变量的取值服从特定的概率分 布。 变异系数(coefficient of variation)用于观察指标单 位不同或均数相差较大时两组资料变异程度的比 较。用CV 表示。计算:标准差/均数*100% 直线回归(linear regression)建立一个描述应变量 依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直 线回归是回归分析中最基本、最简单的一种,故又 称简单回归(simple regression)。 回归系数(regression coefficient )即直线的斜率 (slope),在直线回归方程中用b 表示,b 的统计意 义为X每增(减)一个单位时,Y平均改变b 个单 位。 相关系数r:用以描述两个随机变量之间线性相关 关系的密切程度与相关方向的统计指标。 秩次:变量值按照从小到大顺序所编的秩序号称为 秩次(rank)。 秩和:各组秩次的合计称为秩和(rank sum),是非 参数检验的基本统计量。 方差(variance):方差表示一组数据的平均离散情 况,由离均差的平方和除以样本个数得到。 检验效能:1- β称为检验效能(power of test),它是 指当两总体确有差别,按规定的检验水准a 所能发 现该差异的能力。 百分位数(percentile)是将n 个观察值从小到大依 次排列,再把它们的位次 依次转化为百分位。百分位数的另一个重要用途是 确定医学参考值范围 随机误差(random error)又称偶然误差,是指排 除了系统误差后尚存的误差。它受多种因素的影响, 使观察值不按方向性和系统性而随机的变化。误差 变量一般服从正态分布。随机误差可以通过统计处 理来估计。 一、统计表有哪些要素构成的?制表的注意事项有 哪些? 一般来说,统计表由标题、标目、线条和数字、备 注五部分组成。但备注并不是必需的内容,可以根 据需要出现。 1简明扼要,重点突出:最好一张表突出一个中心, 不易太多中心,如果需要说明多个中心,可分成多 张统计表。 2合理安排主语和谓语的位置:对于表中任意一行, 从左至右,通过简短的连接词,可连成成一句通顺 的句子。 3表中数据要认真核对,保证准确可靠 二、为什么不宜用t 检验对多组均数进行比较? 如果用t检验进行多个样本均数的两两比较,则会 增加犯I 类错误的概率。 经检验得到拒绝H0 ,认为两组之间有差别的结论 可能犯I类错误的概率为α,不犯I类错误的概率为 1- α.每次判断均不犯I类错误的概率为(1- α)k, k为比较的次数,上例α=0.05, k=3,则均不犯错误 的概率为( 1- 0.05)3 =0.86. 至少有一次判断犯I 类错误的概率为1-(1- α)k 三、方差分析的基本思想是什么? 按实验设计的类型,将全部观察值间的变异分解成 两个或多个组成部分,然后将各部分的变异与随机 误差进行比较(每个部分的变异可由某因素的作用 来解释),以判断各部分的变异是否具有统计学意 义,从而推断不同样本所代表的总体均数是否相同。 五、简述直线相关与回归的区别与联系 区别:1.回归说明依存关系,直线回归用于说明两 变量间数量依存变化的关系,描述y如何依赖于x 而变化;相关说明相关关系,直线相关用于说明两 变量间的直线相关关系,此时两变量的关系是平等 的 2.r与b有区别:r说明具有直线关系的两个 变量间相关的密切程度与相关方向; b表示x每改 变一个单位,y平均增(减)多少个单位; 3.资料要求不同:直线回归要求应变量 y是来自正态总体的随机变量,而x可以是来自正 态总体的随机变量,也可以是严密控制、精确测量 的变量,相关分析则要求x,y是来自双变量正态分 布总体的随机变量。 4.取值范围:-∞

第二学期《统计学》期末试卷(第二套)

成都理工大学 第二学期《统计学》期末试卷(第二套) 一、选择题(在备选答案中只有一个是正确的,选择一个正确答案填入下方表格内题号对应的位置,不选、错选、多选均不得分不答题或者答错题既不得分,也不倒扣分。每题1分,共10分) A. 使得总体中的每一个元素都有相同的机会被抽中 B. 在抽样之前先将总体的元素划分为若干类,使得每一类中的每一个单位都有相同的机会被抽中 C. 先将总体划分成若干群,使得每一群都有相同的机会被抽中 D. 先将总体各元素按某种顺序排列,使得总体中的每一个元素都有相同的机会被抽中 2、指出下面的变量哪一个属于顺序变量( )。 A. 每月的生活费支出 B. 产品质量的等级 C. 企业所属的行业 D. 产品的销售收入 3、某大学的教学管理人员想分析经济管理类专业的学生统计学的考试分数与数学考试分数之间是否存在某种关系,应该选择的描述图形是( )。 A. 散点图 B. 条形图 C. 饼图 D. 箱线图 4、某大学共有5000名本科学生,每月平均生活费支出是500元,标准差是 得 分

50元。假定该校学生的生活费支出为对称分布,月生活费支出在400元至600元之间的学生人数大约为( )。 A. 3400人 B. 4550人 C. 4750人 D. 4950人 5、市场营销人员的平均月收入为8000元,标准差为2400元,大学教师的平均月收入为5000元,标准差为2000元。由此可知( )。 A. 市场营销人员收入的离散程度较大 B. 大学教师收入的离散程度较小 C. 大学教师收入的离散程度较大 D. 二者收入的离散程度相等 6、某地区家庭年收入的平均数8000元,中位数是6000元,众数是5000元。由此可知,该地区家庭的收入是( )。 A. 左偏分布 B. 右偏分布 C. 对称分布 D. 尖峰分布 7、 正态分布有两个参数μ和σ,其中( )。 A. σ越小,正态曲线越陡峭 B. σ越大,正态曲线越陡峭 C. 不同的σ,决定了正态曲线在横轴上的位置 D. 不同的σ,决定了正态曲线下的面积大小 8、某电池生产商声称,它们生产的5号电池的平均使用时间为85小时。质检部门抽取20节电池的随机样本,在05.0=α的显著性水平下,检验结果是未能拒绝原假设,这意味着( )。 A .该企业生产的5号电池的平均使用时间是85小时 B .该企业生产的5号电池的平均使用时间不是85小时 C.没有证据证明该企业生产的5号电池的平均使用时间是85小时 D .没有证据证明该企业生产的5号电池的平均使用时间不是85小时 9、根据两个自变量得到的多元回归方程为2189.108.09.19?x x y +-=,回归系数

统计学思考题最新版本

思考题(仅供参考) 部分题目超出范围。同学们仅作上课讲授过的题目即可 二、判断题 1、对于定性变量不能确定平均数.( ) 2、根据组距式数列计算的平均数、标准差等都是近似值.( ) 3、任何平均数都受变量数列中的极端值的影响.( ) 4、中位数把变量数列分成了两半,一半数值比它大,一半数值比它小.( ) 5、任何变量数列都存在众数.( ) 6、如果x >,”,由此可以肯定B 企业生产的均衡性比A 企业好。 ( ) 18.对于分组资料,若不同时期相比,各组平均数均程度不同地上升,则总平均数一定上升。 ( ) 19.n 个同性质独立变量和的方差等于各个变量方差之和。 ( ) 20.n 个同性质独立变量平均数的方差等于各变量方差的平均数。 ( ) 21.变量的方差等于变量平均数的平方减变量平方的平均数。 ( ) 22、峰态一词是由统计学家Galton 于1905年首次提出的。它是对数据分布平峰或尖峰程度的测度。( ) 三、选择题 1、某工厂新工人月工资400元,工资总额为200000元,老工人月工资800元,工资总额80000元,则总平均工资为( ) A 、 600元 B 、 533.33元 C 、466.67元 D 、 500元 2、标志变异指标是反映同质总体的( ). A 、集中程度 B 、离中程度 C 、一般水平 D 、变动程度 3、权数对算术平均数的影响作用,实质上取决于( ) A 、作为权数的各组单位数占总体单位数比重的大小 B 、各组标志值占总体标志总量比重的大小

医学统计学名词解释及问答题

1、 总^(population):就是根据研究目得确泄得同质研究对象得全体。 2、 样本(sample):从总体中抽取得一部分有代表性得个体。 3、 同质(homogeneity):就是指所研究得观察对象具有某些相同得性质或特征。 4、 变异(variation):指同质个体得某项指标之间得差异。 5、 参数(parameter):反映总体特征得指标称为参数。 6、 统计量(statistic):通过样本资料il ?算出来得相应指标称为统计量。 7、 抽样误差(sampling error):由随机抽样造成得样本指标与总体指标之间、样本指标与样本指标 Z 间得差异。 8、 概率(probability):某事件发生得可能性大小。 9、 正态分布(normal distribution):高帐位于均数处冲间高两边低,左右完全对称地下降,但永远不与 横轴相交得钟形曲线。 10、 平均数(average):就是描述一组同质变量值得平均水平或集中趋势得指标。 11、 中位数(median):将一组数据由小到大排列,位于中间位置得观测值。 12、 医学参考值范@(medical reference range):X 称正常值范饥医学上常将包括绝大多数正常人得 某项指标得波动范围称为该指标得正常值范鬧。 13、 方差他I 伽CC):就是徉个数据与平均数之差得平方得平均数。 14、 标准差(standard deviation):就是各数据偏离平均数得距离得平均数,它就是离均差平方与平均 后得方根,用0表示。 15、 标准i^tstandard error):样本均数得标准差,等于原变量总体标准差除以例数得平方根,用以说明 均数抽样误差得大小。 16、 均数得抽样误差(sampling error of mean):由个体差异与抽样所导致得样本均数与样本均数之 间,样本均数与总体均数之间得差异。 17、 假设检验(hypothesistesting):先对总体做出某种假设,然后根据样本信息来推断其就是否成立 得一类统计方法得总称。 18、 统计推断(statistical inference):就是根据已知得样本信息来推断未知得总体,就是统计分析得目 得,包括参数估计与假设检验。 19、 I 型错误(type I error):拒绝了实际上成立得Hu.这类弃真错误,发生得槪率为Q,为已知。 20、 II 型错误(type II error):不拒绝实际上不成立得Ho,这类存伪错误,发生得概率为B ,未知。 21、 检验效能(power of test):又称把握度,为意义就是两总体确有差别,按a 水准能发现它们 有差别得能力。 可信区间(confidence interval):指总体参数可能所在得范围。 率(血⑹:说明某现象发生得频率或强度。 构成比(constituent ratio):^示某事物内韶^$组成部分所占得比重或分布,常以百分数表示。 相对比(relative ratio):表示两个有关事物指标之比,常以百分数与倍数表示,用以说明一个指标 就是另一个指标得几倍或百分之几。 26、 标准化率(standardized 臥C):亦称调整率,就是采用统一得标准对内部构成不同得各组频率进行 调整与对比得方法。 27、 参数检验(paramchic test):—类依赖于总体分布得具体形式得统计推断方法。 28、 非参数检验(non parametric test):-类不依赖总体分布类型得检验,在应用中可以不考虑被研究 对象为何种分布以及分布就是否已知,检验假设中没有包括总体参数得统计方法。 22 、 23、 24

统计学课后习题参考问题详解

思考题与练习题 参考答案 【友情提示】请各位同学完成思考题和练习题后再对照参考答案。回答正确,值得肯定;回答错误,请找出原因更正,这样使用参考答案,能力会越来越高,智慧会越来越多。学而不思则罔,如果直接抄答案,对学习无益,危害甚大。想抄答案者,请三思而后行! 第一章绪论 思考题参考答案 1.不能,英军所有战机=英军被击毁的战机+英军返航的战机+英军没有弹孔的战机,因为英军被击毁的战机有的掉入海里、敌军占领区,或因堕毁而无形等,不能找回;没有弹孔的战机也不可能自己拿来射击后进行弹孔位置的调查。即便被击毁的战机找回或没有弹孔的战机自己拿来射击进行实验,也不能从多个弹孔中确认那个弹孔是危险的。 2.问题:飞机上什么区域应该加强钢板?瓦尔德解决问题的思想:在他的飞机模型上逐个不重不漏地标示返航军机受敌军创伤的弹孔位置,找出几乎布满弹孔的区域;发现:没有弹孔区域是军机的危险区域。 3.能,拯救和发展自己的参考路径为:①找出自己的优点,②明确自己大学阶段的最佳目标,③拟出一个发扬自己优点,实现自己大学阶段最佳目标的可行计划。 练习题参考答案 一、填空题 1.调查。

2.探索、调查、发现。 3. 目的。 二、简答题 1.瓦尔德;把剩下少数几个没有弹孔的区域加强钢板。 2.统计学解决实际问题的基本思路,即基本步骤是:①提出与统计有关的实际问题; ②建立有效的指标体系;③收集数据;④选用或创造有效的统计方法整理、显示所收集数据的特征;⑤根据所收集数据的特征、结合定性、定量的知识作出合理推断;⑥根据合理推断给出更好决策的建议。不解决问题时,重复第②-⑥步。 3.在结合实质性学科的过程中,统计学是能发现客观世界规律,更好决策,改变世界和培养相应领域领袖的一门学科。 三、案例分析题 1.总体:我班所有学生;单位:我班每个学生;样本:我班部分学生;品质标志:;数量标志:每个学生课程的成绩;指标:全班学生课程的平均成绩;指标体系:上学期全班同学学习的科目;统计量:我班部分同学课程的平均成绩;定性数据:;定量数据:课程成绩;离散型变量:学习课程数;连续性变量:学生的学习时间;确定性变量:全班学生课程的平均成绩;随机变量:我班部分同学课程的平均成绩,每个同学进入教室的时间;横截面数据:我班学生月门课程的出勤率;时间序列数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;面板数据:我班学生课程分别在第一个月、第二个月、第三个月、第四个月的出勤率;选用描述统计。 2.(1)总体:市大学生;单位:市的每个大学生。(2)如果调查中了解的是价格高低,为定序尺度;如果调查中了解的是商品丰富、价格合适、节约时间,为定类尺度。(3)市大学生在网上购物的平均花费。(4)是用统计量作为参数的估计。(5)推断统计。 3.(1)10。(2)6。(3)定类尺度:汽车名称,燃油类型;定序尺度:车型大小;定距尺度:引擎的汽缸数;定比尺度:市区驾车的油耗,公路驾车的油耗。(4)定性变量:汽车名称,车型大小,燃油类型;定量变量:引擎的汽缸数,市区驾车的油耗,公路驾车的油耗。(5)4 0%;(6)30%。 第二章收集数据

成都理工大学地质工程专业本科培养方案081401

成都理工大学地质工程专业本科培养方案(081401) Geological Engineering (081401) 一、专业简介(Ⅰ Major Introduction) 地质工程专业门类为工科,一级学科为地质资源与地质工程。地质工程是国内最早通过中国工程教育认证的地学类专业之一,是我校双一流学科“地球科学”的主要支撑专业。 地质工程专业是在原成都地质学院“水文地质与工程地质”“探矿工程”两个专业的基础上,经过60余年的艰苦奋斗发展起来的。“水文地质与工程地质”专业始建于1956年,“探矿工程系”专业始建于1959年。1993年原成都地质学院更名为成都理工学院,“探矿工程”专业改名为“勘察工程”专业。1999年,因国家专业目录调整,“水文地质与工程地质”和“勘察工程”专业分别调整为“勘查技术与工程”专业的工程地质方向和岩土钻掘工程方向,分别隶属于当时的环境与土木工程学院和勘察与机电工程系。2001年底,成都理工学院重新组建并更名为成都理工大学,学校进行院系调整,将勘查技术与工程专业的岩土钻掘工程方向和工程地质方向统一归属环境与土木工程学院。2012年,按照国家专业目录调整要求,环境与土木工程学院的勘查技术与工程专业更名为“地质工程”专业并沿用至今,仍设工程地质和钻掘工程两个方向。 地质工程是地质学与工程学相互渗透交叉的学科,主要研究人类工程活动与地质环境相互关系,以地质学及机械学原理为基础,认识、分析和解决地质工程问题,采用先进的工程技术方法和手段,为工程建设、资源开发和地质环境保护服务。我校工程地质方向主要在山区复杂地质工程问题分析与解决、工程地质勘察设计与施工、地质灾害评价与防治、地质环境评价与保护等方面形成了鲜明的特色和优势,钻掘工程方向在岩土钻掘工程材料、岩土钻掘机具、定向钻探与取心、非开挖水平定向钻进等方面的新技术新方法开发与研究形成了鲜明的特色和优势。 本专业人才质量保障体系实现了国家级本科教学质量工程全覆盖,包括国家级精品课程、国家级特色专业、国家级教学名师、国家级实验教学示范中心、国家级教学团队、教育部专业综合改革试点专业,还入选国家级卓越工程师教育培养计划、国家级工程实践教育中心、国家级虚拟仿真实验教学中心。本专业达到国内一流、国际知名的水平。 本专业全面落实企业导师制度,采用企业导师和专业教师联合指导的教学方式。注重实践能力和创新精神的培养,大学四年中,每年一次校外实习。 二、培养目标(Ⅱ Academic Objectives) 本专业培养知识、能力、素质全面发展,系统掌握地质工程的基本理论、基本方法和基本技能,受到相关工程训练,具有较强创新实践能力以及良好的人文与职业素养、具备分析和解决复杂地质工程问题能力,能在地质工程相关领域承担资源开发、工程勘察、设计、施工、管理及研发等工作的应用型工程技术人才。毕业5年后经过持续学习和工程实践锻炼达

统计学思考题

思考题: 1、什么是统计学?怎样理解统计学与统计数据的关系? 答:⑴统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据的内在的数量规律性;⑵统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究; ⑶离开了统计数据,统计方法乃至统计学就失去其存在的意义。 2、简要说明统计数据的来源。 答:(1)统计数据来源于直接获取的数据和间接获取的数据;(2)直接获取的数据来自于直接组织的调查、观察和科学试验;(3)间接获取的数据来源于报纸、杂志、统计年鉴、网络或从调查公司或数据库公司等处购买。 3、简要说明抽样误差和非抽样误差。 答:(1)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。从理论上看,这类误差是可以避免的;(2)抽样误差是利用样本推断总体时产生的误差。抽样误差对任何一个随机样本来讲都是不可避免的,可以计量,可以控制。 4、怎样理解均值在统计学中的地位? 答:(1)反映了一组数据的中心点或代表值,是数据误差互相抵消后的客观事物必然性数量特征的一种反映;(2)是统计分布的均衡点;(3)任何统计推断和分析都离不开均值。 5、解释洛伦茨曲线及其用途。 答:(1)洛伦茨曲线是累积次数分配曲线,由(美)洛伦茨(,依据(意)帕累托(V.Pareto)的“二八原理”和收入分配公式绘制;(2)用于描述收入和财富分配性质。 6、简述基尼系数的使用。 答:基尼系数用于反应收入分配的变化情况,取值在0~1之间 ①基尼系数小于0.2,表明分配平均;②在0.2~0.4之间,分配比较适当;③0.4 是收入分配不公平的警戒线,超过0.4,收入分配不公平。 7、一组数据的分布特征可以从哪几个方面进行测度? 答:可以从三个方面测度:⑴分布的集中趋势反映的是数据一般水平的代表值或者数据分布的中心值;⑵分布的离散程度反映的是分布离散和差异程度;⑶分布的偏态与峰度反映数据的分布形态是否对称、偏斜的程度以及分布的扁平程度。 8、简述频率与概率的关系。 答:①频率反映的是某一事物出现的频繁程度;②概率是指事件在一次试验中发生的可能性; ③当观察次数n很大时,频率与概率非常接近。 9、概率的三种定义各有什么应用场合。 答:⑴古典概率实验的基本事件总数有限,每个基本事件出现的可能性相同;⑵统计概率实验的基本事件总数有限,每个基本事件出现的可能性不完全相同;⑶主观概率随机事件发生的可能性既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来估计。 10、概率密度函数和分布函数的联系与区别表现在哪些方面? 答:(1)联系:概率密度函数的积分是分布函数,分布函数的导数是概率密度函数;(2)区别:概率密度函数的函数值是某点的概率密度,分布函数的函数值表示某个区间的概率。11、离散型随机变量和连续型随机变量的概率分布的描述有些什么不同? 答:⑴离散型随机变量的概率分布可以用表格、函数或图形等形式来表现。最常见的离散型随机变量的概率分布是二项分布,此外还有伯松分布、超几何分布; ⑵连续型随机变量的概率分布可以用概率密度和分布函数以及对应的曲线图来表示。最常见

相关文档
相关文档 最新文档