文档库 最新最全的文档下载
当前位置:文档库 › 统计学名词解释

统计学名词解释

统计学名词解释
统计学名词解释

名词解释:

医学统计学:用统计学的原理和方法研究生物医学问题的一门学科。

变量(variable):观察单位的某项特征

变量值(value of variable):变量的观察结果(测量值)

总体(population):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。

样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。随机抽样(random sample):按随机化原则从总体中抽取部分观察单位的过程。

同质(homogeneity):是针对被研究指标来讲,其影响因素相同。简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。

变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。

等级资料(ordinal data):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。有序变量(定性变量的一种)。

概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0

频率(frequency):在相同的条件下,独立重复做n次实验,事件A出现了m次,比值m/n 称为随机事件A在n次实验中出现的频率。

随机误差(random error):排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计。

系统误差(system error):由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。

随机变量(random variable):是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。

参数(parameter):根据总体分布特征而计算的总体统计指标。

统计量(statistic):由总体中随机抽取样本而计算的相应样本指标。

频数表(frequency table):将各变量值及其相应的频数列出表格形式,用来表示一批数据各观察值出现的频繁程度。

算术均数(arithmetic mean):描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用X表示。

几何均数(geometric mean):描述对数正态分布或数据呈倍数变化资料的水平,记为G.

中位数(median),将一组观察值由小到大排列,n为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。

极差(range):又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。符号R.

百分位数(percentile):将n个观察值从小到大依次排列,再把它们的位次转化为百分位。四分位数间距(inter quarnle range):表示百分位数P75和百分位数P25之差,定义为Q=P75-P25.。方差(variance):表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。标准差(standard deviation):是描述反映正态分布计量资料离散程度的指标。是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大小样本均可,最为常用。变异系数(coefficient of variation):用于量纲不同和变量间或均数相差较大的变量间变异程度的比较,其计算公式为:

CV=100%?X S

正态曲线(normal curve )是函数f(X)=2

2

2)

(21σμπσ--x e 对应的曲线,此曲线是一条高峰位

于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟形曲线。

正态分布(normal distribution ):若指标X 的频率曲线对应于正态曲线,则称该指标服从正

态分布,通常用记号N (μ,σ2)表示均数为标准差为的正态分布。

标准正态分布(standard normal distribution ):均数为0标准差为1的正态分布为标准正态分布,记为N(0,1).

标准化转换(standardized transformation ):若随机变量X 服从正态分布N (μ,σ2

),经过标准化转换Z=σ

μ-X ,就服从标准正态分布。 统计推断(statistical inference ):通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程为统计推断。

抽样误差(sampling error ):由个体差异产生,由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差,无倾向性,不可避免。

均数的标准误(standard error of mean SEM ):用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。

可信区间(confidence interval CI ):为按预先给定的概率确定的包含未知总体参数的可能范围,含义是包含总体参数的可能性是1-a 。

自由度:n 个变量中,可自由取值的变量的个数。

参数估计:用样本指标(统计量)估计总体指标(参数),有点估计和区间估计两种。 假设检验中P 的含义:指从H 0规定的总体随机抽得的等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。

I 类错误:拒绝了实际上成立的H 0这类弃真的错误称为I 类错误,概率大小用alfa 表示。 II 类错误:接受了实际上不成立的H 0这类存伪的错误称为II 类错误,概率大小用β表示。 检验效能:是指当两总体确有差别,按规定的检验水准所能发现该差异的能力。数值表示:1-β

检验水准:是预先规定的,当假设检验结果拒绝H 0接受H 1下有差别的结论时犯错误的概率称为检验水准,记为α

均方:有离均差平方和被自由度相除而得。

方差分析:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或某几个因素的作用加以解释,通过各变异来源地均方与误差均方比值的大小,借助F 分布做出统计推断,判断各因素对观测指标有无影响。

总变异:样本中全部实验单位差异称为总变异,其大小可用全部观察值的均方表示。 组间变异:各处理组间观察值大小不等,这种变异称为组间变异,可用组间均方表示。 组内变异:各处理组内部观察值大小不等,这种变异称为组内变异,可用组内均方表示。 完全随机设计:只考虑一个处理因素,将全部受试对象随机分配到各处理组,然后观察实验效应。

随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象的特征相同或相近,且受试对象数与处理因素的水平相等,然后将每个区组内的观察对象随

机地分配到各处理组。

相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有“率,构成比,比”等。

率:频率指标,说明一定时期内某现象发生的频率或强度,计算公式为发生某现象的观察单位数除以可能发生某现象的观察总体值*100% 表示方式有百分率%,千分率。

构成比:构成指标。说明某一事物内部的各组成部分所占的比重或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数*100%,表示方法有百分数等。 比相对比。是AB 两个有关指标之比,说明A 是B 的若干倍或百分之几,计算公式为比等于B A

标准化法:常用于内部构成不同的两个或多个率比较的一种方法,基本思想是指定一个统计标准,按指定标准计算调制率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。

定基比:统一用某个时间的指标作为基数,其它各时间的指标与之相比。

环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。

平均增长速度:用于概括某一时期的平均速度变化,即该时期环比的几何均数减1。计算公式为平均增长速度=平均发展速度-1=10 n n

a a

粗死亡率(crude death rate CDR ):或死亡率(mortality rate ),指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平。

发病率(incidence rate IR ):表示一定时期内,可能发生某病的一定人群中新发生某病的强度。

患病率(prevalence rate PR ):又称现患率,指某时刻点上受检人群中现患某种疾病的频率,通常用于描述病程较长或发病时间不明确的疾病的患病情况。

动态数列(dynamic series )按一定的时间顺序,将一系列描述事物的统计指标依次排列起来,就可以观察和比较该事物在时间上的变化和发展趋势。

标化死亡率(standardized mortality rate SMR ):寻找一个统一的分布作为标准组,然后每个比较组均按照该分布标准计算相应的死亡率,所得到的死亡率是相对于标准组的,故称为标化死亡率,由于采取了统一的标准,消除了内部分布不同对总死亡率的影响,使算得的标化死亡率具有可比性。

二项分布(Binomial distribution ):如果每一次实验只有阳性或阴性两种可能的结果,每次实验阳性结果的发生概率均为π,阴性结果均为1-π,每次实验结果是相互独立的,那么重复n 次实验,发生阳性结果次数X 的概率分布称为二项分布。

拟合优度:指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。

非参数统计:不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。

参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。

秩次:变量值按从小到大顺序所编的秩序号。

秩和:各组秩次的合计称为秩和,是非参数检验的基本统计量。

直线回归:建立一个描述应变量依自变量而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。

回归系数:即直线的斜率,直线回归方程中用b 表示,其统计意义为X 每增减一个单位,Y

平均改变b个单位。

直线相关:用于双变量正态分布资料,有正相关,负相关和零相关等关系。零相关表示两变量之间美欧直线相关系数。

相关系数或积差相关系数:以符号γ表示样本相关系数,p表示总体相关系数,它是说明具有直线关系的两个变量间相关关系的密切程度与相关方向的指标。

秩相关或等级相关:用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。

统计图:将统计指标用几何图形表达,即以点的位置,线段的升降,直条的长短和面积的大小等形式直观的表示事物间的数量关系。

安慰剂对照:在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。

随机化:指研究对象中或总体中每一个观察单位都有同等的机会被选入样本或实验研究的各处理组中。

混杂因素:指实验研究中由于某些非实验因素与实验因素同时并存的作用影响到观察的结果,这种非实验因素称为混杂因素。

偏倚:指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。

实验研究:是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。

调查研究:是指对特定对象群体进行调查,影响被调查的因素是客观存在的,研究者只能被动地观察和如实记录。调查时的研究条件往往难以控制,一般只有通过合理分组,设置对照等手段尽可能的减少干扰。

简答

1,统计工作的步骤:统计工作全过程可分为:统计设计,搜集资料,整理资料和分析资料四个步骤。它们相互联系,缺一不可。

设计:是整个统计研究实施的依据,是最关键的一环,在设计时应对后三个步骤进行周密的设想和安排。

搜集资料:是统计工作的基础。是根据设计取得准确可靠地原始数据,按其来源时间分为经常性资料和一时性资料。资料要求完整,准确和及时。

整理资料:对原始资料进行审核、校正、整理并使之系统化、条理化,便于统计分析。

分析资料:计算统计指标,反映数据的综合特征,阐明事物内在的联系和规律,得出科学结论,统计分析包括统计描述和统计推断。

2,制作频数表的步骤:求全距,定组段数和组距;划组段;绘制整理表。

3,频数表的用途:解释频数的分布特征和类型:便于进一步计算统计指标和进行统计分析处理;便于发现某些特大或特小的可疑值。

4,标准差的用途:表示观察值得平均离散程度:结合均数可疑描述正态资料频数分布的特征和估计医学参考值范围:结合样本均数可疑计算变异系数;结合样本含量可疑计算标准误。

5,变异系数的应用:比较度量衡单位不同的多组资料的变异度:比较均数相差悬殊的多组资料的变异度。

6,正态分布的特征:以μ为中心,左右对称,均数处于曲线最高,两边逐渐下降;正态分布曲线下面积分分布有一定规律:有两个参数μ和σ,位置参数μ和变异参数σ决定了曲线的变异度和位置。

7,正态分布的应用:估计频数分布:制定医学参考值范围;做质量控制

8,标准误的用途:反映了样本均数间的离散程度及样本均数抽样误差的大小;推算可信区间;进行假设检验。

9,t分布的特征:单峰分布,以O位中心,左右对称,类似于标准正态分布;t分布形状与n有关,自由度越小,标准误越大,t值越分散,曲峰越矮,尾翘越高;n趋于无穷时,样本标准差逼近总体标准差,t分布逼近标准正态分布,t分布不是一条曲线,而是一簇曲线。

10,假设检验的基本思想:基于反证法思想和小概率思想。反证法思想:首先提出假设,用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它,如果可能性大,还不能认为它不成立;小概率思想:是指小概率事件在一次随机实验中认为基本上不会发生,在进行统计分析时要事先规定概率,即检验水准a

11,假设检验的基本步骤:建立假设;确定检验水准;选定检验方法;计算检验统计量;

确定P值,做出推断结论。

12,t检验的应用条件:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。

13,配对设计的几种情形:两个同质受试对象分别接受两种不同的处理;同一受试对象分别接受两种不同的处理;同一受试对象处理前后

14,配对t检验的基本原理:设两种处理的效应相同,即u1=u2,即看成是差值的样本均数d所代表的未知总体均数与已知总体均数的比较

15,假设检验注意的问题:要有严密的研究设计:不同变量或资料选用不同的检验方法;

正确理解显著性一词的含义;做结论不能绝对化;统计显著性对应于统计结论,医学临床生物学显著性对应于专业结论。

16,参数检验和非参数检验的区别及各自优缺点:参数检验:以已知分布为假设条件,对总体参数进行估计或检验;非参数检验:不依赖总体分布的具体形式和检验分布是否相同。参数检验优点是符合条件时检验效率高,缺点是对资料要求严格而且要求资料的分布型已知和总体方差相等。

非参数检验优点是计算简单便于掌握;应用广泛;收集资料方便,缺点是容易损失信息。

检验效率低。

17,可信区间与假设检验的区别和联系:可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。

18,方差分析的基本思想:根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。

19,方差分析的应用条件:1各次观察独立,即任何两个观察值之间均不相关,2同一水平下的观察值X ij分别服从总体均数μ的正态分布。3各总体的方差基本相等,概括的

表达为:任何观察值都是独立的来自于具有等方差的正态总体。

20,应用相对数的注意事项:计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。

21,四格表χ2检验的适用条件:1,当n>=40且所有T>=5时,用普通的χ2检验,若所得的P约等于0时,改用确切概率法,2,当n>=40但1<=T<=5时,用校正χ2检验;

3当n<40或T<1时,不能用χ2检验,改用确切概率法。

22,秩和检验的基本思想:假定从一总体中,随机抽取一个样本,可以求出T+和T-,当重复所有可能组合的样本,得T+和T-的分布,T的分布以均数为中心对称的非连续分布,当H0成立,从总体随机抽取任一样本,所得T值在均数附近的概率最大,当T值远离均数概率较小,随着n增大,T的分布逐渐逼近均数n(n+1)/4,方差n(n+1)(2n+1)/24的正态分布,当n<25时,T的分布已较好地近似正态分布。

23,成组设计两个样本比较的秩和检验的基本思想n1和n2两个样本,来自同一总体和分布相同的两个总体,即假设检验H0成立,则n1样本的秩和T与平均秩和n1(N+1)/2一般相差不大,也就是u值小于u,若T与平均秩和n1(N+1)/2相差很大,则表示筹得的样本统计量T值的概率很小,因而拒绝检验假设H0。

24,直线回归方程的应用:描述两变量的依存关系;利用回归方程进行预测;利用回归方程进行统计控制。

25,应用直线回归应注意的问题:做回归分析要有实际意义,不能把毫无关联的两种现象勉强做回归分析,即使有回归关系也不一定是因果关系,还必须对两种现象间的内在联系有所认识,能从专业理论上做出合理解释或有所依据,在进行直线回归分析前,应绘制散点图,当观察点的分布有直线趋势,才适宜直线回归分析;直线回归方程的适用范围一般以自便量的取值为限,不能任意外延。

26,直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r表示两变量相关的方向和密切程度,4取值范围不同:-1<=r<=1;b负无穷到正无穷大。

5单位不同,回归系数b有单位,相关系数r没单位。

27,直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近1。

28,列表的原则1重点突出,简单明了2主次分明,层次清楚,符合逻辑。

29,列表的基本要求1标题,概括表的内容,写于表的正上方中央,必要时注明时间地点。主要内容2标目以横纵向标目分别说明主语与谓语,文字简明,层次清楚,有单位用()3,线条用三线条表示,粗略的顶端线及纵标下的横线,其余一律省去,4数字以阿拉伯数字表示,暂缺或无数字分别以“”、“——”表示,不应有空项,为核实与分析,表常应有合计。5不列备注,必要说明者表*,于表下方说明。

30,实验的基本原则随机化,对照,重复。

31,对照的种类:空白,安慰剂,自身,实验,标准

32,实验设计的基本步骤:建立研究假设,明确研究范围,确立处理因素,明确观察指标,控制误差和偏倚。

33,常用的实验设计方法:完全随机设计,配对设计,交叉设计,随机区组设计,析因设计。

34,确定样本含量时应具备的条件:建立假设检验,定出检验水准,提出所期望的检验效能,必须知道有样本推断总体的一些信息。

35,常用的估计样本含量的方法:两样本均数比较,配对实验和交叉试验,样本均数与总体均数的比较,两样本率的比较,配对分类资料多用X2检验进行处理,估计总体均数的样本含量,估计总体率的样本含量。

36,实验设计和调查设计的主要区别:调查设计1在研究过程中没有人为施加的干预措施,而是客观的观察记录某些现象的现状及其相关特征,2不能采用随机分配的方法来平衡或消除非研究因素对研究结果的影响;实验设计1研究者根据研究目的主动加以干预措施,并观察总结其结果,回答研究假设所提出的问题,2按随机分配的方法去除混杂因素。

37,标准误与标准差的区别与联系

区别

1概念不同:标准差是描述样本中个体值间的变异程度指标,标准差越小,表示变量值围绕均数波动越小,标准误是描述样本均数间的变异程度指标,标准差越小,表示变量值围绕均数波动越小。

2用途不同:标准差用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等,标准误常用于表示样本统计量和总体参数的波动情况,可估计参数可信区间进行假设检验。

3与例数的关系不同,当样本含量足够大时,标准差趋向稳定,而标准误随例数增大而减小,甚至趋向于0,若样本含量趋向于总例数,标准差趋近于0或更高。

38,非参数检验的适应情况:1分布型未知,2能以严重程度,优劣等级,效果大小和名次先后等划分的等级资料。3分布极度偏态。4本组内个别变量偏离越大,远离本组其他变量值,5,方差不齐时,6筛选或只需获得初步结果。

39,如何正确选用单侧检验和双侧检验:单侧检验首先应根据专业知识来确定,同时也应考虑所要解决问题的目的,若从转押知识判断一种方法的结果可能低于或高于另一种方法的结果,则用单侧检验;在尚不能从专业知识判断两种结果高低时,用双侧检验,若研究者对于低于或高于两种结果都关心时,则用双侧检验,若只关心其中一种可能,则取单侧检验,一般认为双侧检验较保守和稳妥,单侧检验由于充分利用了另一侧的不可能性,更易得出有差别的结论,但应慎用。

40,配对t检验与配伍组设计的方差分析之间有何联系?两样本t检验与完全随机设计的方差分析有何联系?

配伍组设计的方差分析是配对t检验的推广,他们的基本原理相同。完全随机设计的方差分析是两样本t检验的推广,他们的基本原理相同。不管是配伍组设计害死完全随机设计,当对比样本为两组,可用t检验也可以用方差分析,他们是等价的,当对比样本在两组以上只能用方差分析。

41,P ≤0.05拒绝H0的理论根据。P值是指从H0规定的总体随机抽取等于及大于(或等于及小于)现有样本统计量的概率,P ≤0.05,说明在H0成立的条件下,得到现有检

验结果的概率小于小概率事件标准0.05.因小概率事件在一次实验中几乎不可能发生,现的确发生了,说明样本信息不支持H 0,所以怀疑假设H 0不成立,故拒绝H 0。

42, 配对比较的假设检验,能否出现t 检验结果P>0.05,而非参数检验结果P<0.05?

答:可能出现。配对t 检验的统计量t=

n s d /,式中d 为差值均数,当Sd 固定时,

t 的大小取决于d ,差值均数小,t 值就小,表明每个对子是接近的,故检验结果为P>0.05。推断两总体差值为0的假设未能拒绝,在参数检验中,综合了差数大小与方向的全部信息,差数大小更能提供两组数据之差有无实际意义的信息,而配对秩和检验更侧重方向的作用,设想当n 对差数全部为正号时,尽管两组数据非常接近,也会出现T+很大,T-为零的局面,即P<0.05的结果,这种局面虽然可以出现,但随n 的增大,如果H 0为真,则差数的方向是随机出现的,故T+和T-一般相差不大,其检验结果与参数检验结果多数情况下还是一致的。

43, 参数检验和非参数检验所得结果不一致,以何为准?

仅供参考

第一章 绪论

统计学(statistics ),是研究数据的收集、整理、分析的一门科学,帮助人们分析占有信息。达到去伪存真、去粗存精、争取认识世界的一种重要手段。

卫生统计学(health statistics ):是研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。

统计描述(descriptive statistics )用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行滴定和描述。

统计推断(statistical inference ):通过样本指标来说明总体特征,从样本获取有关总体信息的过程

总体(population ):是根据研究目的确定的同质观察单位的全体。

样本(sample )从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。 变量(variable ):在确定总体之后,研究者则应对每个观察单位的某项特征进行测量和观察,这种特征称为变量。

变异(variation ):指在自然地状态下,个体测量结果在同质基础上的差异。

随机抽样(random sample ):按随机化原则从总体中抽取部分观察单位的过程。以避免误差和偏倚对研究结果有所影响。

样本含量或样本大小(sample size ):样本包含的观察单位数称为样本含量,医学上也称为样本例数。

定量资料(quantitative data )是测量每个观察单位某项指标大小所得到的资料,一般均有度量衡单位。

分类资料(categorical data ):观察值是定性的,表现为互不相容的类别或属性。

有序分类(ordinal categories ):各类之间有程度的差别,给人以“半定量”的概念。

概率(probability ):是度量某一随机事件A 发生可能性大小的一个数值,记为P (A ),P (A )越大,说明A 事件发生的可能性越大,0

统计工作的步骤:设计(design ),收集资料(collection ),整理资料(sorting data ),分析资料(analysis of data )(统计描述descriptive statistics )、统计推断(inferential statistics )

第二章定量资料的统计描述

对称分布:是指集中位置在中间,左右两侧频数大体对称。

偏态分布:指集中位置偏向一侧,频数分布不对称,分为正偏态和负偏态。

均数(mean):描述一组数据在数量上的平均水平,适用于对称分布,特别是正态或者近似正态分布的定量资料。

中位数(median),是指将一组观察值从小到大排列后,居于中间位置的那个数值。将一组观察值由小到大排列,n为奇数时取位次居中的变量值,为偶数时,取位次居中的两个变量的平均值。

极差(range):是全部数据中最大值与最小值之差,它描述了数据变异的程度。又称全距,为最大值与最小值之差,用于资料的粗略分析,计算简便但稳定性较差。符号R.

标准差:反映定量资料离散趋势的指标,它能反映每一个变量值与均值的平均的离散程度,S越小,变量值与均值离散程度越小,均数代表性越好。

变异系数(coefficient of variation CV):标准差与算术均数的比值。

频数分布表的用途:

1揭示资料的分布类型

2由频数分布表可以看到频数分布的两个重要特征:集中趋势和离散趋势。

3便于发现某些特大或特小的可疑值。

4便于进一步计算统计指标和做统计处理。

描述集中趋势的指标:均数X,几何均数G,中位数M

描述离散趋势的指标:极差,方差,标准差,四分位数间距IQR,变异系数CV

第三章正态分布

正态分布:若X的频数曲线对应于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称)则称该指标服从正态分布。

正态分布的应用:归频数分布:制定参考值范围,作质量控制,统计处理方法的基础。

第四章总体均数的估计和假设检验

抽样误差(sampling error):是由个体变异产生的,抽样造成的样本统计量与总体参数的差异。

标准误(standard error)是样本统计量的标准差。

均数的标准误(standard error of mean SEM)用于表示均数抽样误差的指标,反映样本均数之间的离散程度和样本均数抽样误差的大小。

参数估计:是指用样本指标值(统计量)估计总体指标值(参数)。

点估计:就是用样本统计量直接作为总体参数的估计值。

区间估计confidence interval CI:按预先给定的概率(1-a)确定的包含未知总体参数的可能范围。该范围通常称为参数的可信区间或置信区间。

I类错误:拒绝了实际上成立的H0这类弃真的错误称为I类错误,概率大小用α表示。

II类错误:接受了实际上不成立的H0这类存伪的错误称为II类错误,概率大小用β表示。可信度:预先给定的1-a。为按预先给定的概率确定的包含未知总体参数的可能范围,含义

是包含总体参数的可能性是1-a。

检验效能(power of a test)(1-β)当两总体确有差异,按规定检验水准,所能发现该差异的能力。

中心极限定理:

1从正态总体N(μ,σ)中,随机抽取例数为n的样本,样本均数也服从正态分布,即使从偏态总体中随机抽取,当n是足够大时(如n>50),X也近似正态分布。

2从均数μ,标准差σ的正态或偏态总体,抽取例数为n的样本,样本均数X的总体均数也

为μ,标准差用σ(X)=

n

统计推断包括:参数估计和假设检验。

标准误的用途:可反映样品均数与总体均数距离远近,反映可靠性:与样本均数结合估计总体均数的可信区间;进行假设检验。

假设检验应注意的问题:1,要有严密的研究设计2,不同变量或资料应选择不同的检验方法3,正确理解“显著性”一词的含义4,做结论不能绝对化5,统计“显著性”与医学临床/生物学“显著性”。

可信区间与假设检验:1可信区间亦可回答假设检验的问题,2可信区间比假设检验可提供更多的信息。

第五章方差分析

变量变换:将原始数据做某种函数转换,使各组达到方差齐性,也可使资料转换为正态分布。方差分析的基本思想:就是把全部观察值间的变异(总变异)按设计和需要分解成两个或多个组成部分,总自由度也分解成相应的几个部分,再做分析。分解的每一部分代表不同的含义,其中至少有一部分代表各均数间的变异情况,另一部分代表误差。离均差平方和除以自由度得均方,组间均方与误差均方之比为F值,F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P。

方差分析的用途:两个或多个样本均数的比较,分析两个或多个研究因素的交互关系以及回归方程的线性假设检验。

方差分析的应用条件:1,各样本是相互独立的随机样本,2各样本来自正态总体,3各处理组总体方差齐性。

变量变换:1目的:使方差性齐;资料正态化;还可用于曲线直线化;2类型:对数变换:平方根变换;倒数变换;平方根反正弦变换等。

第六章分类资料的统计描述

Relative number相对数:由两个有联系的指标之比组成的用以描述分类变量的统计指标。Rate率:又称频率指标,说明某现象发生的频率或强度。率=发生某现象的观察单位数/可能

发生某现象的观察单位总数×100%

Proportion 构成比:又称构成指标,说明某一事物内部组成部分所占的比重或分布。构成比=某一组成部分的观察单位数/同一事物各组成部分的观察单位总数×100%

Ratio 比:又称相对比。是A ,B 两个有关指标之比,说明A 是B 的若干倍或百分之几。比=A/B

Standard mortality ratio SMR 标准化死亡比:指被标化组实际死亡数与预期死亡数之比。若SMR>1,表示被标化人群的死亡率高于标准组:反之若SMR<1,表示被标化人群的死亡率低于标准组。

Dynamic series 动态数列:是一系列按时间顺序排列起来的统计指标,包括绝对数、相对数或平均数,用以说明事物在时间上的变化和发展趋势。

定基比:即统一用某个时间的指标作基数,以各时间的指标与之相比,是常用的动态数列分析指标之一。

环比:以前一个时间的指标作基数,以相邻的后一个时间的指标与之相比。是常用的动态数列分析指标之一。

应用相对数应注意的问题:计算相对数的分母一般不宜过小,当例数小于30时,宜用绝对数表示为好;分析时不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。

标准化法的基本思想:当两组或多组率之间比较,其内部各小组的率明显不同,且各小组的观察例数的构成比也明显不同时,则不能直接比较两组或多组的总率,得出结论。为消除构成不同造成的影响。采取统一的标准构成进行调整,使之标准化,以具有可比性。 标准化率的计算(直接法):p’=N p N

i i ∑或p’=i i P N N ∑??

? ?? N i :标准组个小组例数:p i :被标化组各小组的率,N :标准组总例数

平均发展速度=o n a a n a 0=基期指标;a n :第n 年指标

平均增长速度=平均发展速度-1

第九章 秩和检验

参数统计:通常要求样本来自总体分布型是已知的,在这种假设的基础上,对总体参数进行估计和检验。

非参数统计:当样本来自总体分布型是未知的或总体分布与检验所要求的条件不符时,所使用的统计方法。不依赖于总体分布类型,也不对总体参数进行统计推断的假设检验。 非参数统计的优缺点:1应用范围广,简便,易掌握,对资料分布特征无特殊要求。

2当资料适合参数统计,而用非参数统计会损失部分信息,减低检验

效能。

秩和检验方法

第十一章回归和相关

直线相关:或简单相关,描述两变量的相互关系,用于双变量正态分布资料。有正相关、负相关和零相关(非直线相关)系。

相关系数:或累积相关系数,说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。样本相关系数用r表示,总体相关系数用ρ表示。

直线回归:描述两变量间的依存关系。利用回归分析方法能够找到一个描述变量之间的变化关系的数学表达式。

回归系数:或直线的斜率,样本回归系数b,总体回归系数β,b的统计学意义为:X每增加/减少一个单位时,Y平均改变b个单位。

剩余:或残差,即实际值与估计值之差。SS B即∑-)

(Y

Y2,为Y的离均差平方和。说明未

考虑X与Y的回归关系时Y的变异。

剩余平方和:SS

剩,即∑-)

(

λ

Y

Y2,它反映X对Y的线性影响之外的一切因素对Y的变异

情况。也就是在总平方和中无法用X解释的部分,其值越小,说明直线回归的估计误差越小。

回归平方和:SS

回,即∑-Λ)

(Y

Y2,它反映由于X与Y的直线关系而使Y的总变异减小的部

分。也就是在总平方和中可以用X解释的部分,其值越大,说明回归效果越好。剩余标准差:指当X对Y的影响被扣除后,Y仍存在变异,此变异由抽样误差造成,与X无关。用来反映Y的剩余变异。

预测:吧预报因子(X)代入回归方程对预报量(Y)进行估计,其波动范围可按求个体Y 值容许区间方法计量。

统计控制:利用回归方程进行逆估计,要求Y在一定范围内波动,可以通过控制X的取值来实现。

决定系数:即r2=SS回/SS总.当总平方和固定不变时,回归平方和的大小取决于r2。

秩相关:又称等级相关,用双变量等级数据作直线相关分析,适用于1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级表示原始数据。

等级相关系数:即rs,说明两个变量间相互关系的密切程度与相关方向,用于下列资料:1,不服从双变量正态分布而不宜作积差相关分析,2,总体分布型未知,3,用等级

表示原始数据。

假设检验:1b,方差分析,t检验;2界值表,t检验。

直线回归方程的应用:1描述两变量的依存关系;2预测;3统计控制

应用直线回归应注意的问题:

1.作回归要有实际意义。

2.回归分析前绘制散点图,观察直线趋势,修正或删除异常点。

3.直线回归方程的适用范围一般以自变量的取值范围为限。

相关和回归的区别:

1.资料要求不同:回归要求Y服从正态分布,X可精确测量和严格控制:相关要求双变量

正态分布。

2.应用情况不同:回归——依存关系:相关——相互关系。

相关和回归的联系:

1.方向一致:r,b符号一致。

2.假设检验等价:统一样本,r,b的假设检验得到的t值相同。

3.用回归解释相关。

A.SS回越接近SS总,,则r2越接近l,说明引入相关的效果越好。

B.相关系数的大小与SS总及回归系数有关,所以相关系数不能作为回归估计精度的指标。秩相关的应用条件:

1.不服从双变量正态分布而不宜作积差相关分析。

2.总体分布型未知。

3.用等级表示的原始数据。

第十二章常用统计表

统计表:在科技报告或论文中,常将统计资料及指标以表格列出,称为统计表。可分为简单表和复合表。

统计图:是用点的位置、线段的升降、直线的长短或面积的大小等形式表达统计资料,可直观反映出事物间的数量关系。

列表原则:1重点突出,简单明了2主次分明,层次清楚,符合逻辑。

列表基本要求:1标题2标目3线条4数字5不列备注

制图基本要求:1标题2标目3图例

常用统计图

第十三章实验设计

实验研究:是指研究者根据研究目的主动加以干预措施,并观察总结结果,回答假设研究所提出的问题的一种研究方法。依研究目的分为实验研究和临床试验。

实验研究设计(experimental design):是以动物或标本(如血,痰,尿等)为研究对象采取干预措施的研究。

临床试验(clinical trial):从统计学角度出发,只要是以人为研究对象并采取了干预措施的研究统称为临床试验,可分为临床疗效实验和社区干预实验。

随机化原则:即总体中的每个观察单位都有相等的机会被选入到样本中来。

随机分配(randomized allocation):为增强可比性,依型讲究假设的要求规定了纳入标准,将实验对象分入实验组和对照组中。

空白对照:对照组不施加任何处理措施。

安慰剂对照:在实验研究中,对照组使用一种外形与实验药物完全相同而毫无药理作用的物质,这种对照称为安慰剂对照。

实验对照:对照组和实验组的处理措施区别在于:实验组加入了有效成分,而对照组则无。标准对照:用公认的有效药物、现有的标准方法或常规方法做对照。

自身对照:对照和实验措施在同一实验对象上实施。

相互对照:几个处理(或水平)互为对照。

处理因素:是根据研究目的而施加的特定的实验措施。

实验效应:主要只处理因素作用于实验对象的反应,这种效应将通过实验中观察指标显示出来。观察指标应该客观性较强,灵敏度较高。精确性较强。

准确度(accuracy):观察值与真值的接近程度。

精确度(precision):重复观察时:观察值与其平均值的接近程度。

随机对照试验(randomized control trial):将受试对象随机分配到实验组和对照组,通过比较分析回答研究假设的问题。

随机双盲对照实验(randomized double blind control trial):在随机对照试验的基础上再采用双盲法。

配对设计(paired design):将实验对象按一定条件配成对子,如将年龄、体重一致的动物配成对子。再将每对中的两个受试对象随机分配到不同处理组。据以配对的因素为可能影响实验结果的主要混杂因素。

系统误差:由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。

偏倚:指在实验中由于某些非实验因素的干扰而形成的系统误差,歪曲了处理因素的真实效应。

选择性偏倚selective bias:由于纳入观察对象的方法不正确而产生的偏倚。

测量性偏倚measurement bias:实验过程中对研究对象进行观察或测量而造成的偏倚。

沾染contamination:对照组实验对象接受实验组的处理措施,提高了对照组的有效率,结果导致了实验组和对照组的差异。

干扰cointervention:实验组从实验外接受了对实验因素有效的药物或措施(非处理措施),提高了实验的有效率,结果扩大了实验组和对照组的差异。

依从性:compliance受试者对于干预措施及实验过程的执行程度。

非依从性noncompliance:受试者为按照研究人员的规定方案执行称为非依从性。

失访lost to followup:受试者在实验过程中由于各种原因退出实验称为失访。

双盲法(double blind method):课题主持人采取措施使研究者和研究对象均不知道接受实验措施或对照措施。

单盲法:single blind method:只有患者不知道处理措施的内容。

三盲法:triple blind method:主持人/研究者/患者均不知道处理措施的内容。

混杂偏倚confounding bias:在总结分析阶段,由某些非实验因素与实验因素同时并存的作用影响到观察的结果,造成混杂因素的偏倚。

实验设计的基本原则:随机化、对照、重复。

对照原则的目的:实验研究的目的是验证研究假设是否正确,只有经过比较才能鉴别其真伪,设对照组是比较的基础,没有对照很难说明研究假设是否正确;设立对照也是控制实验过程中非实验因素的影响和偏倚的一种有力措施。常用的对照有:空白对照,安慰剂对照,实验对照,标准对照,自身对照,相互对照。

重复原则:含义为1足够的样本含量;2实验的次数。

实验设计的三要素:处理因素、实验效应、受试对象。

确定受试对象纳入标准应注意:

1应纳入对处理因素的效应反应灵敏的患者。

2某些处理措施对一些特殊人群产生有害作用,应排除实验之外。

常用的实验设计方法:随机对照实验,配对设计,交叉设计,配伍组设计。

随机对照试验有点(随机化的目的)

1有效避免非实验因素的影响,使实验因素充分显示

2增强各比较组间的可比性,使研究结论更可靠。

3更好地控制非实验因素对实验因素的影响,有效地控制了偏倚和误差。

4满足了随机化原则,使检验结果反映真实差异。

交叉设计的优点:

1节约样本含量

2能控制时间因素及个体差异对处理因素方式的影响

3从医德观点出发,均等考虑每个患者的利益。

交叉设计的注意事项:

1前提是两种处理方式不能相互影响。

2不适用于病程较短急性病效果的研究

3应尽可能采用盲法。

确定样本含量的意义:正确确定样本含量是实验设计的一个重要组成部分,估计样本含量应克服两种倾向:1片面追求增大样品含量导致人力、物力和时间的浪费,还可能引入更多的混杂因素。2样本含量偏少,检验效能偏低,导致总体本来存在的差异未能检出,导致非真实的阴性结果。样本含量大小还受个体差异和研究实验要求的精神有关。阅读专业文献时,对假设检验阴性结果有必要复核样本含量和检验效能是否偏低。以正确分析假设检验的结论。

第X章 2检验

χ2 test (Chi-square test )χ2

是一种用途较广的假设性检验方法,可用于推断两个及多个总体率或总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。

χ2检验的基本思想:χ2值是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。若检验假设成立,则实际数与理论数的差别不会很大,出现大的χ2值的概率p 是很小的,若P ≤α检验水准,就怀疑假设,因而拒绝它,若P ≥α,则无理由拒绝它。

理论数的计算:T ic =n ninc

, T i,r 第i 行第c 列的理论数,n i 为T ic 所在的行合计,n c 为T ic 所在的

列合计:n 为总例数。

χ2检验的基本公式:χ2=∑-T T A 2)

( ————————————(1)

χ2检验的校正公式:χ2=∑--T T A 2

)

5.0( ——————————(2)

四表格专用公式

四表格专用公式:χ2=)

)()()(()(2d b c a d c b a n

bc ad ++++-—————————(3)

校正公式χ2=))()()(()2(2d b c a d c b a n

n bc ad ++++--———————(4)

四格表χ2检验的条件:

1当n ≥40且所有的T ≥5时,用普通的χ2检验(公式1,3),若所得P ≈α,改用确切的概率法。

2当n ≥40但又1≤T ≤5,用校正的χ2检验(公式2,4)。

3当n<40或有T<1时,不能用χ2检验,改用确切概率法。

配对四格表资料的χ2检验: χ2=c b c b +-2)

(,v=1(b+c ≥40时使用)

校正公式χ2=c

b c b +--2

)

1(,v=1 (b+c<40时使用)

行X 列表的χ2检验公式χ2=n (12-∑

i r n n A )无校正公式

行X 列表的χ2检验的注意事项: 1不能有理论数T<1,并且1≤T ≤5的格子数不超过总格子数的1/5.

2当检验有统计学意义(拒绝H 0)时,只能认为各总体率或构成比之间总的来说有差别,但不能说明它们彼此之间都有差别,或某两者之间有差别。若要进一步解决此问题,可用χ2分割法。

3若表格有一个方向按多个等级分类,则称单向有序行列表,当等级数大于3时,一般用秩和检验分析更为适宜。

四格表的确切概率法的应用条件:

1,四格表内理论频数T<1

2,样本含量n<40

3,χ2检验后所得概率P接近检验水准α。

试题:

一、名词解释:

1,coefficient(相关系数):又称积差相关系数(product-moment correlation),是说明具有直线关系的两个变量间,相互关系的密切程度与相关方向的指标。

2,proportion(构成比):又称构成指标。说明某一事物内部的各组成部分所占的比重或分布,计算公式为:某一组分的观察单位数除以同一事物各组分的观察单位总数

*100%,表示方法有百分数等。

3,coefficient of variation (变异系数):常记为CV。它被定义为标准差与算术平均数之比。即CV=S/X×100%。它描述了相对于算术均数X而言。标准差的大小,即

描述数据的变异相对于其平均水平来说是大还是小。

4,population(总体):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。

5,standard error SE(标准误):样本均数的标准差也称均数的标准误(standard error of mean)它反映了样本均数间的离散程度,也反映了样本均数与总体均数间的差异,说明均数抽样误差的大小。

6,incidence rate(发病率):表示一定时期内,在可能发生某病的一定人群中新发生的某病例数。其计算公式为:某病发病率=该期间新发生的某病例数/一定期间内可能

发生某病的平均人口数×100%

7,Chi-square(χ2值)是以理论数为基数的相对误差,它反映了实际数与理论数吻合的程度(差别的程度)。

8,Chi-square test(χ2检验):是一种用途较广的假设检验方法,即推断两个及多个总体构成比之间有无差别,两种属性或两个变量之间有无关联性,以及频数分布的拟

合优度检验等。

9,Normal distribution(正态分布):若X的频数曲线应用于数学上的正态分布曲线(曲线呈钟型,两头低中间高,左右对称),则称该指标服从正态分布。

10,Mortality rate(死亡率):指某地某年平均每千人口中的死亡数,它反映居民总的死亡水平。死亡率=某人群某年(因某病)总死亡人数/该人群同年平均人口×

1000

简单题

1:应用相对数应该注意什么?

计算相对数的分母一般不宜过小;分析是不能以构成比代替率,应当注意不能用构成比的动态分析代替率的动态分析;对观察单位不等的几个率,不能直接相加求其总率,在比较相对数时应注意可比性;对样本率(构成比)的比较应随机抽样,并做假设检验。

2,方差分析的基本思想?

根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个或几个因素的作用加以解释,通过比较不同变异来源地均方,借助F分布做出统计推断,从而了解该因素对观测指标有无影响。F值远大于1,表示各组均数间差别有显著性,F值远小于1,表示各组均数间差别无显著性,可查F界表确定P.

3,相关和回归的区别和联系?

直线回归与相关的区别1资料要求不同:回归要求变量Y服从正态分布,X是可以精确测量和严格控制的变量,相关要求两个变量X,Y服从双变量正态分布,2应用情况不同:说明两变量间依存变化的数量关系用回归,说明变量间的相关关系用相关3,意义不同:回归系数b表示自变量X每变化一个单位后应变量Y的平均变化量,相关系数r 表示两变量相关的方向和密切程度,4取值范围不同:-1<=r<=1;b负无穷到正无穷大。

5单位不同,回归系数b有单位,相关系数r没单位。

直线回归与相关的联系:1两者都是研究两个数值变量的关系的统计方法,2方向一致:对一组数据若同时计算r与b,他们的正负号一致,r为正说明两变量间的相互关系是同向变化的,b为正号说明X增减一个单位,Y平均增减b个单位,3假设检验对同一样本,r与b的假设检验得到的t值相等,由于r的假设检验简单,故在实际应用中常用以前法代替后法,4用回归解释相关,决定系数P2=SS回/SS总,回归平方和越接近总平方和,R2越接近1

4,行X列表χ2检验注意事项。

答:1.不能有理论数T<1,并且1≤T≤5的格子数不超过总格子数的1/5;2.当检验有统计学意义(拒绝H0)时,只能说明各总体率或构成比之间总的来说有差别,但不能说明它们之间都有差别,成两者之间有差别,若要进一步解决此问题,可用χ2分割法。3,若表格有一个方向按多个等级分类,则称单向有序行X列表,当等级数大于3时,一般用秩和检验分析更为适宜。

5,可信区间和假设检验的关系?

可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同,两者相互联系又相互区别;可信区间亦可回答假设检验的问题;

可信区间比假设检验可提供更多的信息,但并不意味着可信区间能够完全代替假设检验;可信区间只能在预先规定的概率——检验水准的前提下进行计算,而假设检验能够获得较为确切的P值,故两者结合起来次才是完整的分析。

6,二项分布应用条件?

答:1.每次试验结果,只能是两个互斥的结果之一(A或非A)。2.每次试验的条件不变,即每次试验中A发生的概率不变,均为x,3.各次实验独立,即一次试验出现什么样的结果与前面已出现的结果无关。

7.t检验的应用条件,方差不齐时的处理方法?

答:当样本含量较小时,理论上要求样本取自正态总体,两样本均数比较时还要求两样本方差相等,(u检验应用条件:样本含量较大,或n虽小但总体标准差已知)。若两总体方差相等,则直接用t检验。若总体方差不等,可采用t’检验或变量变换或秩和检验等方法处理。

8.实验设计的几个原则,要素,方法,适用范围,优缺点?

答:原则:1对照原则2重复原则3随机化原则。

要素:1处理因素2受试对象3实验效应。

方法和优点:1随机对照实验:是将受试对象随机分配到试验组和对照组,通过比较分析回答研究假设的问题,该设计既贯彻了随机化原则,又设有对照。优点是A有效的避免了某些非实验因素的影响B增强了各比较组的可比性,使结论更可靠C有利于所比较总体间存在真实差异D满足了随机化原则,更能反映真实差异。2配对设计:将实验对象按一定条件配成对子,再随机分配每对的两个对象接受不同的处理方式。优点最大限度排除了非处理因素的干扰;降低个体差异水平;提高实验效果;增强均衡性。3交叉设计:是一种特殊的自身对照设计。优点:A节约样本含量B能够控制时间因素及个体差异对处理方式的影响C每个实验对象同时接受了实验因素和对照,考虑了每个患者的利益。4.配伍设计:是将条件相近的实验对象配成一组。优点:增强了各组间的均衡性,可进一步控制混杂性偏倚。

计量数据统计描述和统计图表的是非题

1.在同一连续分布总体中作随机抽样,理论上样本均数越大,则样本标准差

s越大。(错)

2.在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本标准

差越小(错)

3.对称分布就是正态分布。(错)

4.在同一连续分布总体中作随机抽样,理论上样本含量n越大,则样本极差

越大。(对)

5.样本中位数不受样本中的极端值影响。(对)

6.正态分布资料也可用中位数描述其中集中趋势(中心位置)。(对)

7.分组的连续分布资料,计算百分位数要求组距相等。(错)

8.第80百分位数ρ80表示有80%变量值比它大。(错)

9.对于连续分布资料,单位相同时,也可用变异系数比较两个变量的相对离

散度。(错)

10.在同一连续分布总体中作随机抽样,理论上样本含量n越大,则从样本算

得的变异系数越小。(错)

11.对于计量数据,不应按分组方式决定是否计算机和均数。(对)

12.若男女儿童平均是高接近,可用标准差s来比较其绝对离散度。(对)

13.四分位数间距也是描述连续分布数据离散度的指标。(对)

14.自由度p(-∞,∞)时的t分布就是标准正态分布。(对)

15.标准正态分布常用N(0,1)表示。(对)

16.严格地说,是一定以0为中心,左右对称。(错)

17.标准差是位置系数。(错)

18.对于连续分布数据,样本标准差的均数理论上等于总体标准差。(错)

19.对于连续分布数据,样本方差的均数理论上等于总体方差。(对)

20.只有当样本含量很大时,连续分布数据的样本均数的平均数理论上才等于

总体均数。(错)

21.μ±1.96σ表示任何分布计量指标的95%变量值所在范围。(错)

22.正态分布总体,理论上P,P和μ±1.96σ范围是一样的。(对)

23.直方图是描述连续分布变量频数分布的统计图。(对)

24.构成比资料可画圆图。(对)

25.线图可以描述一个计量指标随另一个计量指标变化而变化的趋势。(对)

26.半对数线图可以描述和比较事物的发展变化的相对速度。(对)

27.表示某中学高三年级10个班学生近视比例的比较,应用线图(错,条图)

28.描述200人血压饿分布,应画直图。(错,圆图或百分条图)

29.在同一正态总体N(μ,σ)中随机抽样,两个变量值X1和X2之差d服从

正态分布N(μ,σ)(错)

30.两正态分布变量XN(μ1,σ1)和X2N(μ2,σ2)之差的方差是σ12-σ22(错)。

31.比较2000年年底某地三种疾病的患病率,宜绘制之线图。(错,条图)

32.描述300人肺活量与身高关系可画散点图。(对)

33.纵坐标取等比尺度而横坐标取等差尺度时的线图成为对数线图。(对)

34.一般的正常值范围是指95%正常人的该指标所在范围。(对)

35.理论上正态分布的标准差不会大于平均数。(错)

36.变量值有负数时不能直接计算几何均数。(对)

37.均数大于0时所计算的变异系数才有意义。(对)

38.利用组距不相等的频数分布表资料计算样本均数x和样本标准方差s,宜

用加权法。(对)

39.在同一连续分布总体中作随机抽样,理论上样本含量n越大,样本四分位

数间距越大。(错)

40.超出95%正常值范围的个体都是异常个体。(错)

统计学名词解释

统计学名词解释 第一章绪论 1.随机变量:在统计学上,把取值之间不能预料到什么值的变量。 2.总体:又称母全体、全域,指具有某种特征的一类事物的全体。 3.个体:构成总体的每个基本单元称为个体。 4.样本:从总体中抽取的一部分个体,称为总体的一个样本。 5.次数:指某一事件在某一类别中出现的数目,又称为频数。 6.频率:又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。 7.概率:某一事物或某一情在某一总体中出现的比率。 8.观测值:一旦确定了某个值。就称这个值为某一变量的观测值。 9.参数:又称为总体参数,是描述一个总体情况的统计指标。 10.统计量:样本的那些特征值叫做统计量,又称特征值。 第二章统计图表 1.统计表:是由纵横交叉的线条绘制,并将数据按照一定的要求整理、归类、排列、填写在内的一种表格形式。一般由表号、名称、标目、数字、表注组成。 2.统计图:一般采用直角坐标系,通常横轴表示事物的组别或自变量x,称为分类轴。纵轴表示事物出现的次数或因变量,称为数值轴。一般由图号及图题、图目、图尺、图形、图例、图组成。 3.简单次数分布表:依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表,适合数据个数和分布范围比较小的时候用。 4.分组次数分布表:数据量很大时,应该把所有的数据先划分在若干区间,然后将数据按其数值大小划归到相应区域的组别内,分别统计各个组别中包括的数据个数,再用列表的形式呈现出来,适合数据个数和分布范围比较大的时候用。 5.分组次数分布表的编制步骤: (1)求全距 (2)定组距和组数 (3)列出分组组距 (4)登记次数 (5)计算次数 6.分组次数分布的意义: (1)优点:A.可将杂乱无章数据排列成序,以发现各数据的出现次数及分布状况。B.可显示一组数据的集中情况和差异情况等。 (2)缺点:原始数据不见了,从而依据这样的统计表算出的平均值会与用原始数据算出的值有出入,出现误差,即归组效应。 7.相对次数分布表:用频数比率或百分数来表示次数 8.累加次数分布表:把各组的次数由下而上,或由上而下加在一起。最后一组的累加次数等于总次数。 9.双列次数分布表:对有联系的两列变量用同一个表表示其次数分布。

统计学名词解释

1、统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 2、指标和标志 标志是说明总体单位属性或特征的名称。指标是说明总体综合数量特征和数量关系的数字资料。 3、总体、样本和单位 统计总体是统计所要研究的对象的全体,它是由客观存在的、具有某种共同性质的许多个体所构成的整体。简称总体。构成总体的个体则称为总体单位,简称单位。样本是从总体中抽取的一部分单位。 4、统计调查 统计调查是根据统计研究的目的和要求、采用科学的方法,有组织有计划的搜集统计资料的工作过程。它是取得统计数据的重要手段。 5、统计绝对数和统计相对数 反映总体规模的绝对数量值,在社会经济统计中称为总量指标。统计相对数是两个有联系的指标数值之比,用以反映现象间的联系和对比关系。 6、时期指标和时点指标 时期指标是反映总体在一段时期内累计总量的数字资料,是流量。时点指标是反映总体在某一时刻上具有的总量的数字资料,是存量。 7、抽样估计和假设检验 抽样估计是指根据所抽取的样本特征来估计总体特征的统计方法。假设检验是先对总体的某一数据提出假设,然后抽取样本,运用样本数据来检验假设成立与否。 8、变量和变异 标志的具体表现和指标的具体数值会有差别,这种差别就称为变异。数量标志和指标在统计中称为变量。 9、参数和统计量 参数是反映总体特征的一些变量,包括总体平均数、总体方差、总体标准差等。统计量是反映样本特征的一些变量,包括样本平均数、样本方差、样本标准差等。 10、抽样平均误差 样本平均数与总体平均数之间的平均离散程度称之为抽样平均误差,简称为抽样误差。重复抽样的抽样平均误差为总体标准差的1/n。 11、抽样极限误差 抽样极限误差是指样本统计量和总体参数之间抽样误差的可能范围。我们用样本统计量变动的上限或下限与总体参数的绝对值表示抽样误差的可能范围,称为极限误差或允许误差。 12、重复抽样和不重复抽样 重复抽样也称为回置抽样,是从总体中随机抽取一个样本时,每次抽取一个样本单位时都放回的抽样方式。不重复抽样也叫不回置抽样,它是在每次抽取样本单位时都不放回的抽样方式。13、点估计和区间估计 点估计也叫定值估计,就是直接用抽样平均数代替总体平均数,用抽样成数代替总体成数。区间估计是在一定概率保证下,用样本统计量和抽样平均误差去推断总体参数的可能范围的估计方法。 14、统计指数 广义上来说,它是表明社会经济现象的数量对比关系的相对指标。狭义上来说,它是反映不能直接相加对比的复杂总体综合变动的动态相对数。 15、综合法总指数 凡是一个总量指标可以分解为两个或两个以上的因素指标时,将其中一个或一个以上的因素指

社会统计学的名词解释

社会统计学的名词解释 非参数检验:泛指“对分布类型已知的总体进行参数检验”之外的所有检验方法。符号检验:181页 配对符号秩检验:183页 秩和检验方法:把两个样本混合起来,从小到大进行编号;分别计算两个样本的秩和;;计算检验统计量U;如果计算出的U只小于或等于从附表10中查处的临界值,则零假设被拒绝。 游程检验:把样本1和样本2混合起来,按数值从小到大编号;点算游程数目,以混合样本中游程数目r为检验统计量。 确定性关系:一个变量值确定后,另一个变量值也就完全确定了。 非确定性关系:给定了一个变量值,另一个变量值还可以在一定的范围内变化。相关系数r:这一指标用来度量相关关系程度或强度。就线性相关来说,当\r\=1时,表示完全相关;当0<\r\<1时,表示不完全相关;当\r\=0时,表示无相关或零相关。 判断两个变量有因果联系的条件:(1)两个变量有共变关系;(2)两个变量之间的关系不是有其他因素形成的;(3)两个变量的产生和变化有明确的时间顺序。 列联表:按品质标志吧两个变量的频数分布进行交互分类,由于表内的每一个频

数都需同时满足两个变量的要求,所以列联表又称条件频数表。 消减误差比例(PRE)=(原来的误差—后来的误差)\原来的误差 Gamma系数:适用于测量两对称的定序变项的相关系数。 积差系数:两个定距变量之间的相关测量,最常用的就是积差系数。英国统计学家皮尔逊用积差方法推导出来的,所以也称皮尔逊相关系数,用符号r表示。回归:有一种力量使子辈个体身高趋向父辈平均身高,高尔顿把这种趋向中心的现象称之为回归。 拟合优度检验:检验总体是否具有正态或其他分部形式的非参数统计检验。 方差分析:他可以检验多个总体均值是否存在差异的统计检验方法。 时间数列:是某一指标的数值按时间按先后顺序排列而成的一个序列,也称动态数列。一般有两个基本要素构成:被研究对象所属的时间和反映该现象在各个时间上的统计指标数值。 增长量:总量指标报告期水平和基期水平之差,表明该指标在一定时期内增加和减少的绝对数量。(逐期增长量和累计增长量) 发展速度:反映社会现象发展程度的动态相对指标,即时间相对数。发展速度时报告期发展水平除以基期发展水平所得之商。如果这个比值大于1,表示水平提高了;如果这个比值小于1,表示水平下降了。(环比发展速度、定基发展速度)

统计学名词解释及公式

第1章统计与统计数据 一、学习指导 统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。本章各节的主要内容和学习要点如下表所示。 概念:统计学,描述统计,推断统计。 统计在工商管理中的应用。 统计的其他应用领域。 概念:分类数据,顺序数据,数值型数据。 不同数据的特点。 概念:观测数据,实验数据。 概念:截面数据,时间序列数据。 统计数据的间接来源。 二手数据的特点。 概念:抽样调查,普查。 数据的间接来源。 数据的收集方法。 调查方案的内容。 概念。抽样误差,非抽样误差。 统计数据的质量。 概念:总体,样本。 概念:参数,统计量。 概念:变量,分类变量,顺序变量,数值 型变量,连续型变量,离散型变量。 二、主要术语 1.统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:研究数据收集、处理和描述的统计学分支。 3.推断统计:研究如何利用样本数据来推断总体特征的统计学分支。 4.分类数据:只能归于某一类别的非数字型数据。 5.顺序数据:只能归于某一有序类别的非数字型数据。 6.数值型数据:按数字尺度测量的观察值。 7.观测数据:通过调查或观测而收集到的数据。 8.实验数据:在实验中控制实验对象而收集到的数据。 9.截面数据:在相同或近似相同的时间点上收集的数据。 10.时间序列数据:在不同时间上收集到的数据。

11.抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推 断总体特征的数据收集方法。 12.普查:为特定目的而专门组织的全面调查。 13.总体:包含所研究的全部个体(数据)的集合。 14.样本:从总体中抽取的一部分元素的集合。 15.样本容量:也称样本量,是构成样本的元素数目。 16.参数:用来描述总体特征的概括性数字度量。 17.统计量:用来描述样本特征的概括性数字度量。 18.变量:说明现象某种特征的概念。 19.分类变量:说明事物类别的一个名称。 20.顺序变量:说明事物有序类别的一个名称。 21.数值型变量:说明事物数字特征的一个名称。 22.离散型变量:只能取可数值的变量。 23.连续型变量:可以在一个或多个区间中取任何值的变量。 四、习题答案 1.D 2.D 3.A 4.B 5.A 6.D 7.C 8.B 9.A 10.A 11.C、12.C 13.B 14.A 15.C 16.D 17.C 18.A 19.C 20.D 21.A 22.C 23.C 24.B 25.D 26.C 27.B 28.D 29.A 30.D 31.A 32.B 33.C 34.A 35.A 36.A 37.D 38.B 39.B 40.C 41.C 42.D 43.C 44.D 45.A 46.B 47.C 48.A 49.C 50.D 51.A 52.C 53.D 54.A 55.B

统计学名词解释汇总

统计学名词解释汇总 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分;

截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。 4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量

统计学名词解释

一、名词解释 总体:指在同一组条件下所有成员的某种状态变量的集合;或者说是某一变数的全部可能值的集合;或性质相同的个体组成的整个集团. 样本:从总体中取出来用作分析、研究的个体称样本。 随机样本:总体中的每个总体单位都有同等的机会被抽取为样本单位,由这种方法抽得的样本叫随机样本.(用随机抽样的方法,从总体中抽出一个部分;等概率抽取的样本。)随机抽样:保证总体中的每一个体在每一次抽样中都有同等的机会被取为样本。 复置抽样:保证总体中的每个个体在每次抽样中都有同等的概率被取为样本。 样本容量:样本中包含的单位数称为样本容量。(样本中变量的个数.) 观察值:每一个体的某一性状测定值叫做观察值。 变数:若干有变异的观察值叫随机变数,简称变数。 连续性变数:指在任意两个变量之间都有可能存在只有微量差异的第三个变量存在,这样一类变数称为连续性变数. 间断性变数:只能取整数的一类变数。 参数:由总体获得的代表总体的特征数.(描述总体的特征数,如μσ .)统计数:由样本获得的代表样本的特征数。(描述样本的特征数。) 数量资料(数量性状资料):以测量或称重的方式获取的试验资料称为数量资料。 计量资料、质量性状资料 次数资料:凡是试验结果以次数表示的资料称为次数资料。 算术平均数、众数 几何平均数:变量对数的算术平均数的反对数, (lg) lg Y G n = ∑ 调和平均数:变量倒数的算术平均数的反倒数, 1 () n H Y = ∑ 中位数:将变量顺序排列,处在中间的变量称中位数,计作M d。极差:一组资料中最大值与最小值的差值为极差. 方差:变数变异程度的度量,对于总体 ()2 2i Y N μ σ - = ∑ ,对于样本 2 2 () 1 Y y s n - = - ∑ 。 (描述变量平均变异程度的统计量.定义为 2 1 2 () 1 n j j Y y s n = - = - ∑ 。) EMS:期望均方,是对均方MS的期望值。 标准差:变数变异程度的度量,总体标准差: () N Y ∑- = 2 μ σ ,样本标准 差: () 1 2 - - = ∑ n y Y s .(变数的平均变异量.) 标准误:统计数变异度的度量,12 y y y s s - == 。(统计数的标准差。)

医学统计学名词解释复习资料

1. 总体(population):根据研究目的所确定的同质观察单位的全体。只包括(确定的时间和空间范围内)有限个观察单位的总体,称为有限总体(finite population)。假想的,无时间和空间概念的,称为无限总体(infinite population)。 2. (总体)参数(parameter):总体的统计指标或特征值。总体参数是事物本身固有的、不变的。 3. 样本(sample):从总体中随机抽取的部分个体。 4. 样本含量(sample size):样本中所包含的个体数。 5. 变量(variable):观察对象个体的特征或测量的结果。由于个体的特征或指标存在个体差异,观察结果在测量前不能准确预测,故称为随机变量(random variable),简称变量(variable)。变量的取值称为变量值或观察值(observation)。根据变量的取值特性,分为数值变量和分类变量。 6. 数值变量(Numerical variable):又称为计量资料、定量资料,指构成其的变量值是定量的,其表现为数值大小,有单位。对每个观察单位用定量的方法测定某项指标的数值,组成的资料。 7. 计数资料:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。 8. 抽样(sampling):从总体中抽取部分观察单位的过程称为抽样。 9. 抽样误差(sampling error):由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 10. 误差(error):统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差 。 11. 可信区间(confidence interval, CI):按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间,又称置信区间。 12. 总体均数的可信区间:按一定的概率大小估计总体均数所在的范围(CI)。常用的可信度为95%和99%,故常用95%和99%的可信区间。 13. 变异(variation):同质事物间的差别。由于观察单位通常即为观察个体,故变异亦称为个体变异(individual variation)。 16. 平均数(average):也叫平均值,是一组(群)数据典型或有代表性的值。这个值趋向于落在根据数据大小排列的数据的中心,包括算术平均数(arithmetic mean)、几何平均数(geometric mean)、中位数(median)等。 17. 中位数(median):将一组观察值按升序或降序排列,位次居中的数,常用M 表示。适用于偏态分布资料或不规则分布资料和开口资料。所谓“开口”资料,是指数据的一端或两端有不确定值。当n 为奇数时,M=X (n+1)/2;当n 为偶数时,M=[X n/2+ X n/2+1]/2。 18. 百分位数(percentile):是一种位置指标,以P x 表示,一个百分位数Px 将全部观察值分为两个部分,理论上有x%的观察值小于Px 小,有(1-x%)的观察值大于Px 。 19. 变异系数(coefficient of variance, CV):亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。100%X s/CV ?=, 变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 20. 频率(relative frequency):在n 次随机试验中,事件A 发生了m 次,则比值 22. 概率(probability):在重复试验中,事件A 的频率,随着试验次数的不断增加将愈来愈接近一个常数p ,这个常数p 就称为事件A 出现的概率(probability),记作P(A)或P 。 描述随机事件发生的可能性大小的数值,常用P 来表示。 23. 统计量(statistic):由样本所算出的统计指标或特征值。 24. 相关系数(correlation coefficient):用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数,又称为积差相关系数(coefficient of product-moment correlation),总体相关系数用希腊字母ρ表示,而样本相关系数用r 表示,取值范围均为[-1, 1]。 25. 回归系数(regression coefficient):直线回归方程Y ?= a+b X 的系数b 称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 26. 参考值范围(reference range):也称为正常值范围(normal range),医学上常把绝大多数正常人的某指标值范围称为该指标的正常值范围。绝大多数:可以是90%、95%、99%等等,最常用的是95%。正常人:不是指健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。习惯上是确定包括95%的人的界值。 28. 统计推断(statistic inference):从总体中随机抽取一定含量的样本进行研究,目的是通过样本的信息判断总体的特征,这一过程称为统计推断。 29. 标准误(standard error, SE):在统计理论上将样本统计量的标准差称为标准误,用来衡量抽样误差的大小。据此,样本均数的标准差X σ称为标准误。 30. 参数估计(parameter estimation):由样本信息估计总体参数。它包括两种:点估计和区间估计。 点估计:直接用样本统计量作为对应的总体参数的估计值。 区间估计:按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度1-α的可信区间(confidence interval, CI ),又称置信区间。这种估计方法称为区间估计。 33. 95%可信区间含义:如果重复若干次样本含量相同的抽样,每个样本均按同一方法构建95%可信区间,则在这些可信区间中,理论上有95个包含了总体参数,还有5个未估计到总体均数。 34.Ⅰ类错误(type Ⅰerror):统计学上规定,拒绝了实际上成立的H 0,这类“弃真”的错误称为Ⅰ型错误或第一类错误,Ⅰ型错误的概率用α表示。 35.Ⅱ类错误(type Ⅱerror):统计学上规定,不拒绝实际上不成立的H 0,这类“存伪”的错误称为Ⅱ型错误或第二类错误,Ⅱ型错误的概率用β表示。 36. 检验效能(power of a test):又称把握度,即两总体确有差别,按α水准能发现它们有差别的能力。 37. 参数检验:总体分布已知,对其中一些未知参数进行估计或检验。这类统计推断的方法叫参数统计或参数检验。 38. 参数检验:假定比较数据服从某分布,通过参数的估计量(x , s)对比较总体的参数(μ)作检验,统计上称为参数法检验(parametric test)。如t 、u 检验、方差分析。 39. 率(rate):又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。其计算公式为: 40. 构成比(proportion):又称构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示。 41. 比(ratio):又称相对比,是A 、B 两个有关指标之比,说明A 为B 的若干倍或百分之几,它是对比的最简单形式。其计算公式为:比=A/B 。 统计学(Statistics ):运用概率论、数理统计的原理与方法,研究数据的搜集;分析;解释;表达 的科学。 总体(population ):大同小异的研究对象全体。更确切的说,总体是指根据研究目的确定的、同质的全部研究单位的观测值。 样本(sample ):来自总体的部分个体,更确切的说,应该是部分个体的观察值。样本应该具有代表性,能反映总体的特征。利用样本信息可以对总体特征进行推断。

统计学名词解释超级大全

统计学名词解释超级大全第一章导论 统计学:一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技术的科学,是一门独立的、实用性很强的通用方法论科学。 教育统计学:专门研究如何搜集、整理、分析在心理和教育方面对实验或调查所获得的数字资料,如何根据这些资料所传递的信息,进行数学推论,找出客观规律的一门科学。 描述统计:对实验或调查所获得的数据加以整理(如制表、绘图),并计算其各种代表量数(如集中量数、差异量数、相关量数等),其基本思想是平均,如在集中量数中将原始数据进行平均,在差异量数中将离均差进行平均,在相关量数中将积差进行平均等等。 推断统计:又称抽样统计。它是根据对部分个体进行观测所得到的信息,通过概括性的分析、论证,在一定可靠程度上去推测相应团体。换言之,就是根据已知的情况推测未知情况。 实验设计:研究如何更加合理、有效地获得观测资料,如何更正确、更经济、更有效地达到实验目的,以揭示试验中各种变量关系的实验计划。 统计常态法则:从总体中随机抽取一部分个体所组成的样本,差不多可以保持总体的特征。这种样本特性保持着总体特性的现象叫做统计常态法则。 小数永存法则:第一个样本中所表现出的特性,在其他样本中也会存在,这就是小数永存法则。此处“小数”是指小数量的意思。 大量惰性原则:某一事物的某一性质或状态,在反复观察或试验中是保持不变的。

有效数字:指能影响测量准确性的数字。 变量:又称随机变量。具有变异性的数据。三个特性,离散型,变异性,规律性。 数据:某个数值一旦被取定了,则称这个数值为随机变量的一个观察值。即数据。 总体:性质相同的一类事物的全体。 个体:构成总体的每一基本单位或单元。 样本:总体抽出的部分个体。 参数:表示总体特征的量数。 统计量:直接从样本计算出的量数,代表样本的特征。 名称变量:指一事物与其他事物在属性、类别上不同。 顺序变量:事物的某一属性的多少或大小按顺序排列起来的变量。既无相等的单位又无绝对的零点的变量。 等距变量:只具有相等的单位,而没有绝对的零点的变量。 比率变量:既有相等的单位,又有绝对的零点的变量。 连续变量:指取值可以是某区间内任一数值的随机变量,它是指测量单位之间可以划分成无限多个细小单位,其数字形式多取小数。 离散变量:指测量单位之间不能再细分的数字资料,其数字形式常取整数。 计数数据:计算人或物的个数所获得的数据。 度量数据:用一定的测量工具或测量标准测量时所获得的数据。 指标:表明总体数量特征的概念和具体数值,又称统计指标,它是把各个个体的特征加总起来的综合结果。

统计学名词解释及简答题 .

名词解释 一、分类数据(categorical data )是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,使用文字来表述的。 二、顺序数据(ran k data )是只能归于某一有序类别的非数字型数据。 三、数值型数据(metric data )是按数字尺度测量的观察值,其结果表现为具体的数值。 四、系统抽样(systematic sampling )将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位,这种抽样方法被称为系统抽样。 五、非概率抽样(non-probability sampling )是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采取某种方式从总体中抽出部分单位对其实施调查。 六、抽样误差(sampling error )是由于抽样的随机性引起的样本结果与总体真值之间的误差。 七、四分位数(quartile)也称四分位点,他是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。 八、离散系数也成为变异系数(coefficient of variation ),它是一组数据的标准差与其相应的平均数之比。其计算公式为: s s v x = 离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。 九、泊松分布(Poisson distribution )是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。 十、中心极限定理(central limit theorem ):设从均值μ、2σ(有限)的任意一个总体中抽取样本量为n 的样本,当n 充分大时,样本均值X 的抽样分布近似服从均值为μ、方差2σ/n 的正态分布。 十一、置信区间(confidence interval )在区间估计中,有样本统计量所构造的总体参数的估计区间称为置信区间,其中区间的最小值称为置信上限。 十二、显著性水平(significant level)是一个统计专有名词,在假设检验中,它的含义是当原假设正确时却被拒绝的概率或风险,其实这就是前面所说假设检验中犯弃真错误的概率,它是由人们根据检验的要求确定的,通常取0.05α=或0.01α=,这表明,当做出接受原假设的决定时,其正确的概率为95%或99%。 十三、方差分析(analysis of variance, ANOV A )就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。 十四、相关系数(correlation coefficient )是根据样本数据计算的度量两个变量之间线性关系强度的统计量。 十五、回归模型(regression model )对于具有线性关系的两个变量,可以用一个线性方程来表示他们之间的关系。描述因变量y 如何依赖于自变量x 和误差项ε的方程称为回归模型。 十六、点估计 利用估计的回归方程,对于x 的一个特定值0x ,求出y 的一个估计值就是点估计。点估计可分为两种:一是平均值的点估计;二是个别值的点估计。 十七、时间序列(time series )是同一现象在不同时间上的相继观察值排列而成的序列。 十八、指数平滑法(exponential smoothing )是通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t 期的实际观察值与t 期的预测值的加权平均值。 十九、指数,或称统计指数,是分析社会经济现象数量变化的一种重要统计方法。指数是测定多项内容数量综合变动的相对数。这个概念中包含两个重点:第一个要点是指数的实质是测定多项内容;指数概念的第二个要点是其表现形式为动态相对数,既然是动态相对

社会统计学名词解释

1.社会统计学 社会统计学是运用统计学的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种专门方法与技术。人们既用它来分析已经发生和正在发生的现象,也用它来估计预测未来可能发生的现象。 2.国势学派 产生于德国,其创始人为康令和阿亨瓦尔。该学派一直以统计学为名,但只用文字记述,不用数字计量,历史上人们将该学派称为“有名无实”学派。 3.政治算术学派 该学派的创始人为英国人格朗特和威廉·配第。该学派“用数字、重量、尺度来表达自己想说的问题”,虽然没有使用统计学这一名词,但所使用的社会宏观数量对比和分析方法揭示了统计学所要研究的内容,因此历史上人们将这一学派称为“有实无名”学派。马克思对配第评价很高,誉他为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。 4.数理统计学派 该学派的创始人未比利时人凯特勒,其最大的贡献就是将法国的古典概率论引入统计学,用纯数学的方法对社会现象进行研究。由于把概率论引进统计学,使社会随机现象数量方面的研究提高了准确性。因此,一门兼有数学和统计学双重意义的学科被命名为“数理统计学”。凯特勒也被人称为“现代统计学之父”。 5.大量观察法 大量观察法,就是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。大量观察法是统计调查阶段的重要方法 6.大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可

能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。7.描述性统计 描述性统计,就是讨论范围仅以搜索的资料本身为限,而不予以扩大。早期的统计都是描述统计。 8.推论性统计 推论性统计,主要是依据概率论,研究如何依据有限资料对总体性质作推断,从而使统计的功能大为扩充。是在树立统计学派之后发展起来的,属于比较现代的统计分析方法。9.样本和(或)样本总体 样本或样本总体,是通过抽样得到的用以推断总体特征的那个“部分”。 10.标志 标志是说名总体单位属性或数量特征的名称。 11.虚拟变量 当品质标志的变异性用离散变量来表达时,这个变量可称虚拟变量。 12.指标体系 指标体系就是一系列有内在联系得统计指标集合体。 13.总体和总体单位 总体,就是作为统计研究对象的、由许多具有共性的单位构成的整体。也有人称之为母体。构成总体的每一个个体称为总体单位,简称单位,也称为个体。 14.中位数 把总体单位某一数量标志的各个数值,按大小顺序排列,位于正中处的变量值即为中位数。 15.众数

《社会统计学》作业(共享含部份答案)

社会统计学作业 一、单项选择题 1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是( A ) A.样本 B. 总体 C. 统计量 D. 变量 2.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为( C )A.频率 B. 累积频数 C. 累积频率 D. 比率 3.离散系数的主要目的是( D ) A.反映一组数据的平均水平 B.比较多组数据的平均水平 C.反映一组数据的离散程度 D.比较多组数据的离散程度 4.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 ( B ) A. 50%的数据 B. 68%的数据 C. 95%的数据 D. 99%的数据 5.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为( A ) A. 39.19

B. 28.90 C .19.54 D .27.95 6.用样本统计量的值直接作为总体参数的估计值,这种方法称为( A ) A .点估计 B .区间估计 C .有效估计 D .无偏估计 7.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(π)偏高。如果要检验该说法是否正确,则假设形式应该为( B ) A .0H :π≥0.1;1H :π<0.1 B .0H :π≤0.1;1H :π>0.1 C .0H :π=0.1;1H :π≠0.1 D .0H :π>0.1;1H :π≤0.1 8.下面哪一项不是方差分析中的假定( D ) A .每个总体都服从正态分布 B .观察值是相互独立的 C .各总体的方差相等 D .各总体的方差等于0 9.判断下列哪一个不可能是相关系数( D ) A .-0.9 B .0 C .0.5 D .1.2 10.用于说明回归方程中拟合优度的统计量主要是( D ) A. 相关系数 B. 离散系数 C. 回归系数 D. 判定系数

统计学名词解释汇总

1什么是统计学?统计方法可分为哪两大类?统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类 2统计数据可分为哪几种类型?不同类型数据各有什么特点?按采取计量尺度,分类、顺序、数值型数据;按统计数据收集方法,观测、实验数据;按被描述对象与时间关系,截面、时间序列数据 统计数据;按所采用的计量尺度不同分; (定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。 统计数据;按统计数据都收集方法分; 观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 实验数据:在实验中控制实验对象而收集到的数据。 统计数据;按被描述的现象与实践的关系分; 截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念:对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。

4什么是有限总体和无限总体?举例说明 有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的,如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的,如科学实验中每个试验数据可看做是一个总体的一个元素,而试验可无限进行下去,因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量,顺序变量,数值型变量。 变量也可以分为随机变量和非随机变量。经验变量和理论变量。6举例说明离散型变量和连续型变量 离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。 1数据的预处理包括哪些内容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 2直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,②直方图各矩形连续排列,条形图分开排列,③条形图主要展示分类数据,直方图主要展示数值型数据。 3饼图和环形图有什么不同? 饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。 4茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。 5使用图标应注意哪些问题?

电大社会统计学考试小抄【名词解释部分】

电大社会统计学名词解释资料小抄 1.社会统计学 社会统计学是运用统计学的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种专门方法与技术。人们既用它来分析已经发生和正在发生的现象,也用它来估计预测未来可能发生的现象。 2.国势学派 产生于德国,其创始人为康令和阿亨瓦尔。该学派一直以统计学为名,但只用文字记述,不用数字计量,历史上人们将该学派称为“有名无实”学派。 3.政治算术学派 该学派的创始人为英国人格朗特和威廉·配第。该学派“用数字、重量、尺度来表达自己想说的问题”,虽然没有使用统计学这一名词,但所使用的社会宏观数量对比和分析方法揭示了统计学所要研究的内容,因此历史上人们将这一学派称为“有实无名”学派。马克思对配第评价很高,誉他为“政治经济学之父,在某种程度上也可以说是统计学的创始人”。 4.数理统计学派 该学派的创始人未比利时人凯特勒,其最大的贡献就是将法国的古典概率论引入统计学,用纯数学的方法对社会现象进行研究。由于把概率论引进统计学,使社会随机现象数量方面的研究提高了准确性。因此,一门兼有数学和统计学双重意义的学科被命名为“数理统计学”。凯特勒也被人称为“现代统计学之父”。 5.大量观察法 大量观察法,就是就总体中足够多的单位进行调查和综合分析,用以反映社会总体的数量特征。大量观察法是统计调查阶段的重要方法 6.大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 7.描述性统计 描述性统计,就是讨论范围仅以搜索的资料本身为限,而不予以扩大。早期的统计都是描述统计。 8.推论性统计 推论性统计,主要是依据概率论,研究如何依据有限资料对总体性质作推断,从而使统计的功能大为扩充。是在树立统计学派之后发展起来的,属于比较现代的统计分析方法。 9.样本和(或)样本总体 样本或样本总体,是通过抽样得到的用以推断总体特征的那个“部分”。 10.标志 标志是说名总体单位属性或数量特征的名称。 11.虚拟变量 当品质标志的变异性用离散变量来表达时,这个变量可称虚拟变量。 12.指标体系 指标体系就是一系列有内在联系得统计指标集合体。 13.总体和总体单位 总体,就是作为统计研究对象的、由许多具有共性的单位构成的整体。也有人称之为母体。构成总体的每一个个体称为总体单位,简称单位,也称为个体。 14.中位数 把总体单位某一数量标志的各个数值,按大小顺序排列,位于正中处的变量值即为中位数。 15.众数 在一组资料中,出现次数(或频数)呈现“峰”值的那些变量值。 16.调和平均数 N个变量值倒数算术平均数的倒数,也称倒数平均数。 17.几何平均数: N个变量值连乘积的N次方根。 18.平均指标: 就是表明同质总体在一定条件下某一数量标志所达到的一般水平。 19.显著水平

统计学名词解释新

中央广播电视大学2013-2014学年度第一学期"开放本科"期未考试(半开卷) 社会统计学试题 二、名词解释(每题4分,共20分) 11.抽样单位与抽样框 抽样单位就是一次直接的抽样所使用的基本单位。(2分) 抽样框是指一次直接抽样时所有抽样单位的名单。(2分) 12.普查与抽样调查 普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全 面调查。(2分) 称为误差减少比例,简称PREa(2分)PRE的取值范围为0→1,PRE值越大,说明用变量X 去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大;反之,PRE越小、说明变量X与变量Y之间的关系越小。(2分) 13.散点图 散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。(2分) 散点图是描述变量关系的→种直观方法,我们可以从散点图中直观的看出两个变量之间 是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何乙14.正态分布

连续性随机变量中重要的分布是钟型概率分布,就是正态分布,也称为常态分布,是种 连续型随机变量的概率分布。(2分)正态分布是对称的,且正态分布的中央点最高。(2分) 15.最小二乘法 对于存在线性关系的变量x和y的观察值,我们可以用很多直线去描述,但我们需要选用距离各观测值最近的一条直线,用它来描述x与y之间的关系使实际的误差最小,根据这一思想来确定回归方程中参数的方法就是最小二乘法。(2分)最小二乘法是使因变量的观察值与估计值之间的离差平方和达到最小来求参数的方法。(2分) 二、名词解释(每题4分,共20分) 11.概率抽样 概率抽样就是按照随机原则进行的抽样,(2分)总体中每个个体都有一定的、非零的概率 入选样本,并且入选样本的概率都是已知的或可以计算的。(2分) 分) (2 散点图是描述变量关系的一种直观方法,我们可以从散点图中直观的看出两个变量之间 是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何。 14.抽样分布 抽样分布是指样本统计量的概率分布,(2分)它是在重复选取容量为n的样本时,由每个样本计算出来的统计量值的相对频数分布。(2分) 15.虚无假设与替换假设 我们将需要通过样本信息来推断其正确与否的命题称为虚无假设,也称为原假设或零假设。(2分) 如果虚无假设不成立,我们就拒绝虚无假设,需要在另一个假设中进行选择,这就是替换假设。(2分〉

统计学名词解释

名词解释 1.统计学:是应用概率论和数理统计的基本原理和方法,研究数据的收集、整 理、分析、表达和解释的一门科学。 2.医学统计学:是应用统计学的基本原理和方法,研究医学及其有关领域数据 信息的搜集整理、分析、表达和解释的一门科学。 3.抽样:是从研那个研究总体抽取少量有代表性的个体,称为抽样。 4.统计推断:是根据已知的样本信息来推断未知的总体,是统计分析的目的, 包括参数估计和假设检验。 5.总体:是根据研究目的确定的同质研究对象的全体。 6.概率:是随机事件发生可能性大小的数值度量。 7.同质:是指所研究的观察对象具有某些相同的性质或特征。 8.变异:是同质个体的某项指标之间的差异,即个体差异。 9.正态分布:频数分布的高峰在中间,两端基本对称,逐步减少,这种分布称 为近似正态分布,如果两端完全对称则称为正态分布。 10.医学参考值范围:又称正常值范围,医学上常将包括绝大多数正常人的某指 标值的波动范围称为该指标的正常值范围。 11.动态数列(dynamic series):是按照一定的时间顺序,将一系列描述某事 物的统计指标依次排列起来,观察和比较该事物在时间上的变化和发展趋势,这些统计指标可以为绝对数、相对数或平均数。 12.人口金字塔:将人口的性别与年龄资料结合起来以图形的方式表达人口的性 别与年龄结构,以年龄为纵轴,人口百分比为横轴,左侧为男,右侧为女,两个对应的直方图,其形似金字塔。 13.负担系数(dependency ratio):又称抚养比或抚养系数,是指人口中非劳 动年龄人数与劳动年龄人数之比。 14.标准化死亡比(SMR):实际死亡人数与期望死亡人数之比称为标准化死亡比。

相关文档