第一章绪论
1.举例说明总体和样本的概念。
研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。
2.简述误差的概念。
误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。
3.举例说明参数和统计量的概念。
某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能够根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。
4.简述小概率事件原理。
当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就
是所谓的小概率事件原理,它是进行统计推断的重要基础。
第二章调查研究设计
1.调查研究主要特点是什么?
调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。
2.简述调查设计的基本内容。
①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。
3.试比较常用的四种概率抽样方法的优缺点。
(1)单纯随机抽样优点是:均数(或率)及标准误的计算简便。缺点是:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。
(2)系统抽样优点是:①易于理解,简便易行②容易得到一个按比例分配的样本,由于样本相应的顺序号在总体中是均匀散布的,其抽样误差小于单纯随机抽样。缺点是:①当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势,系统抽样将产生明显的偏性。但对于适合采用系统抽样的情形,一旦确定了抽样间隔,就必须严格遵守,不能随意更改,否则可能造成另外的系统误差②实际工作中一般按单纯随机抽样方法估计抽样误差,因此这样计算得到的抽样误差一般偏大。
(3)分层抽样优点是:①减少抽样误差:分层后增加了层内的同质性,因而观测值的变异度减小,各层的抽样误差减小,在样本含量先锋等的情况下其标准误一般小于单纯随机抽样、系统抽样和整群抽样的标准误②便于对不同的层采用不同的抽样方法,有利于调查组织工作的实施③还可对不同层进行独立分析。缺点是:当需要确定的分层数较多时,操作比较麻烦,实际工作中实施难度较大。
(4)整群抽样优点是:便于组织,节省经费,容易控制调查质量;缺点是:当样本含量一定时,其抽样误差一般大于单纯随机抽样的误差,。
4.常用的非概率抽样方法有哪些?
有偶遇抽样、立意抽样、定额抽样、雪球抽样等。
5.简述调查问题的顺序安排。
调查问题顺序安排总原则:①符合逻辑②一般问题在前,特殊问题在后③易答题在前,难答题在后④如果采用封闭式和开放式相结合的问题,一般先设置封闭式问题⑤敏感问题一般放在最后。此外,在考虑问题顺序时,还应注意问题是否适合全部调查对象,并采用跳答的形式安排问题和给出指导语。
第四章定量资料的统计描述
1.均数、中位数、几何均数的适用范围有何异同?
相同点是都用于描述定量资料的集中趋势。不同点:①均数用于单峰对称分布,特别是正态分布或近似正态分布的资料②几何均数用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料③中位数用于不对称分布资料、两端无确切值的资料以及分布不明确的资料。
2.同一资料的标准差是否一定小于均数?
同一资料的标准差不一定小于均数。均数描述的是一组同质定量变量的平均水平,而标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异大,即一组观察值的分布较分散;标准差小。表示观察值之间变异小,即一组观察值的分布较集中。若标准差远大于均数表明数据离散程度较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。
3.极差、四分位数间距、标准差、变异系数的适用范围有何异同?
相同点是都用于描述资料的离散程度。不同点:①极差可用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度②四分位数间距可用于
描述偏态分布资料、两端无确切值或分布不明确的资料的离散程度③标准差用于描述正态分布或近似正态分布资料的离散程度④变异系数用于比较几组计量单位不同或均数相差悬殊的正态分布资料的离散程度。
4.正态分布有哪些基本特征?
①正态曲线在横轴上方均数处最高②正态分布以均数为中心,左右对称③正态分布有两个参数,即位置参数μ和形态参数σ④正态曲线下的面积分布有一定规律,正态曲线与横轴间的面积恒等于1。曲线下区间(μ-1.96σ,μ+1.96σ)内的面积为95.00%;区间(μ-2.58σ,μ+2.58σ)内的面积为99.00%
5.制定医学参考值范围时,正态分布法和百分位数法分别适用于何种资料?
①通过大量调查证实符合正态分布的变量或近似正态分布的变量,可按正态分布曲线下面积的规律制定医学参考值范围,服从对数正态分布的变量,可对观察值取对数后按正态分布法算出医学参考值范围的对数值,然后求其反对数②对于经正态性检验不服从正态分布的变量,应采用百分位数法制定医学参考值范围。
第五章、定性资料的统计描述
1.应用相对数时需要注意哪些问题?
①应有足够的观察单位数;②不能以构成比代替率;③计算观察单位数不等的及格率的合计率和平均率时,不能简单的把各组率相加求其平均值而得,而应该分别将分子和分母合计,再求出合计率和平均率;④相对数的比较应注意其可比性,如果内部构成不同,应计算标准化率;⑤样品率或样品构成比的比较应作检验假设。
2.为什么不能以构成比代替率?
率是指某现象实际发生数和某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。构成比是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,以说明事物内部各组成部分所占比重,不能说明某现象发生的频率或强度大小。
3.标准化率计算的直接法和间接法的应用有何区别?
如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。
4.常用动态数列分析指标有哪几种?各有何用途?
绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。
绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内个环比发展速度的平均值,用以说明事物在一定时期内逐年的平均发展速度;与平均增长速度是说明事物在一定时间内逐年的平均增长速度。
5.率的标准化需要注意那些问题?
①仅用于相互间的比较,实际水平应采用未标化率来反映。②样品的标化率是样品指标,存在抽样误差,若要比较其代表的总体标准化率是否相同,需作假设检验。③注意直接法和间接法的选用。④各年龄组若出现明显交叉,或呈非平行变化趋势时,不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其他条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。
第六章总体均数的估计
1、什么是均数的抽样误差?决定均数的抽样误差大小的因素有哪些?
抽样研究中,由于同质总体中的个体间存在差异,即个体变异,因而从同一总体中随机抽取若干样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的、随机抽样引起的样本均数与总体均数间的差异称均数的抽样误差。决定均数抽样误差大小的因素主要为样本含量和标准差。
2、样本均数的抽样分布有何特点?
样本均数的抽样分布特点有:1、各样本均数未必等于总体均数;2、样本均
数之间存在差异;3、样本均数服从正态分布;4、样本均数的变异范围较原变量的变异范围小;5、随着样本含量的增加,样本均数的变异范围逐渐缩小。
3、阐述标准差与标准误的区别与联系。
标准差与标准误的区别在于:1、计算公式不同;2、统计学意义:标准差越小,说明个体值相对越集中,均数对数据的代表性越好;而标准误越小,说明样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大;3、用途:标准差用于描述个体值的变异程度,标准误用于描述均数的抽样误差大小。
标准差与标准误的联系:当样本量n一定时,标准误随标准差的增加而增加,公式为:看小抄。
4、如何运用抽样分布规律估计总体均数?
中心极限定理:从均数为u,标准差为σ的正态总体中进行独立随机抽样,其样本均数服从均数为u,标准差为σ/根号下u的正态分布;即使是从非正态总体中进行独立随机抽样,当样本含量逐渐增加时(n大于等于50),其样本均数的分布近似于均数为u,标准差为σ/根号下u的正态分布。σx越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。反之,σx越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。
5、阐述总体均数的置信区间与医学参考值范围的区别。
第七章假设检验
1、解释零假设与备择假设的含义。
零假设又称无效假设或无差异假设,记为H0,表示目前的差异是由抽样误差引起的;备择假设又称对立假设,记为H1,表示目前的差异是因为比较的对象之间存在本质不同造成的。
2、简述假设检验的基本步骤。
假设检验的基本步骤如下:(1)建立检验假设,确定检验水准。(2)计算检验统计量。(3)确定P值,作出统计推断。
3、比较单侧检验与双侧检验的区别。
选用双侧检验还是单侧检验需要根据分析目的及专业知识确定。例如,在临床试验中,比较甲、乙两种治疗方法的疗效有无差异,目的只要求区分两方法有无不同,无需区分何者为优,则应选用双侧检验。如果有充分的理由认为甲法疗效不比乙法差,此时应选用单侧检验。若从专业角度无法确定的情况下,一般应采用双侧检验。
4、解释I型错误、II型错误和检验效能,并说明它们之间的关系。
拒绝实际成立的H0所犯的错误称为I型错误,记为α。不拒绝实际不成立的H0所犯的错误称为II型错误,记为β。如果两个总体参数间确实存在差异,即H1:μ≠μ0成立,按照现有检验水准,使用假设检验方法能够发现这种差异(即拒绝H0)的能力被称为检验效能,记为(1-β)。
三者的关系为:当样本量确定时,α与β成反比,与(1-β)成正比。如果把α设置得很小,势必增加犯II型错误的概率,从而降低检验效能;反之,如果把
重点放在减少β上,势必增加犯I型错误的概率,从而降低了置信度。要同时减小α和β,只有通过增加样本含量来实现。
5、简述假设检验与置信区间估计的联系。
假设检验与置信区间估计的联系是:二者都属于统计推断的范畴,且统计推断结论是等价的。此外,置信区间在回答差别有无统计学意义的同时,还能提供一些假设检验不能提供的信息,并可以提示差别是否具有实际意义。因此,置信区间与假设检验的作用是相辅相成的,将两者结合起来,可以提供更为全面的统计推断信息。
第八章t检验
1、在t检验中,一般当P〈0.05,则拒绝H0,其理论根据是什么?
理论根据是小概率时间和小概率反证法。P值表示H0成立时,出现等于及大于(或等于及小于)现有样本统计量的概率。P〈0.05则表示在H0成立的前提下,得到现有样本统计量概率为小概率事件,所以拒绝H0。
2、配对t检验的应用条件是什么?
配对t检验的应用条件是资料为配对设计,且数据差值服从正态分布。
3、正态性检验时,如何确定检验水准α?
理论上讲α应取得大一些,如0.10或0.20,目的是减少犯II型错误的概率;在实际应用中,常取α=0.10。
4、变量变换的目的是什么?
变量变换的目的在于使变换后的资料满足正态分布或方差齐性等条件,便于进一步的统计分析。
第九章方差分析
1、方差分析的基本思想及其应用条件是什么?
方差分析的基本思想是把全部观察值的总变异按设计类型分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。应用条件:各样本是相互独立的随机样本,且服从正态分布,各样本的总体方差齐性。
2、在完全随机设计方差分析中SS总、SS组间、SS组内各表示什么含义?
SS总是各观察值与总均值之差的平方和,即总离均差平方和,表示总变异的大小;SS组间表示组间变异,指各处理组均值大小的不同,是由处理因素和随机误差造成的;SS组内表示组内变异,指同一处理组内部各观察值之间的变异,是由随机误差造成的。
3、什么是交互效应?请举例说明。
交互效应是指某一因素的效应随另一因素不同水平的变化而变化,称这两个因素之间存在交互效应。例如:某实验研究A、B两种药物在不同剂量情况下对某病的治疗效果,药物A在不同剂量时,B药的效应不同,或者药物B在不同剂量时,A药的效应不同,则A、B两药间存在交互效应。
4、重复测量资料具有何种特点?
重复测量资料中的处理因素在受试者间是随机分配的,受试者内的因素即时间因素是固定的,不能随机分配;重复测量资料各受试者内的数据彼此不独立,具有相关性,后一个时间点的数据可能受到前面数据的影响,而且时间点离的越近的数据相关性越高。
5、为什么总的方差分析的结果为拒绝零假设时,若想进一步了解两两之间的差别需要进行多重比较?
方差分析中备择假设是多个总体均数不等或不全相等,拒绝原假设只说明多个总体均数总的来说差别有统计学意义,并不能说明任意两总体均数之间均有差别。因此,若希望进一步了解两两的差别,需进行多重比较。
第十章、二项分布和Poisson分布
1.Bernoulli试验的适用条件
答:1.每次试验只会发生两种互斥结果之一,即两种互斥结果的概率之和恒等于1;2.在相同试验条件下,每次试验产生某种结果的概率固定不变;3.重复试验是互相独立的,即任何一次试验结果的出现不会影响其他试验结果出现的概率。2. Poisson分布的性质
答:1.总体均数μ与总体方差相等;2.当n很大,而π很小,且nπ=μ为常数时,Poisson分布可看作是二项分布的极限分布;3.当μ增大时,Poisson分布渐近正太分布,一般而言μ≥20时,Poisson分布资料可作为正态分布处理;4. Poisson 分布具备可加性;5.μ的大小决定了Poisson分布的图形特征。
3.二项分布与Poisson分布的区别
答:随机变量X服从二项分布,是指在n重Bernoulli试验中,发生某种结果的次数X=0,1,2…,n的一种概率分布,其恰好发生X个阳性的概率为P(X)=(公式),且总有概率总和=1.而随机变量X服从Poisson分布,是指X满足①取值范围为0,1,2…,n;②相应的概率为P(X)=e-μ·μx/X!,且总有概率总和=1。在总体率π很小,而样本含量n趋向于无穷大时,二项分布近似于Poisson 分布。因此Poisson分布可看作是二项分布的一种极限情况,可用来描述小概率事件的发生规律。
4.二项分布、Poisson分布和正态分布的联系
答:1.在n很大,而π很小,且nπ=μ为常数时,二项分布的极限分布为Poisson 分布;2.在n较大、π不接近0也不接近1时,二项分布B(n,π)近似正态分布,而相应的样本率p的分布也近似正态分布;3.当μ增大时,Poisson分布渐近正态分布,一般μ≥20时,Poisson分布资料可作为正态分布处理。
第十一章、x2检验
1. x2检验的基本思想是什么?可以用于解决哪些问题?
答:基本思想:在H0成立的条件下,推算出各个格子的理论频数T,然后利用理论频数T和实际频数A构造x2统计量,(公式),反映实际频数与理论频数的吻合程度。若无效假设H0成立,则各个格子的A与T相差不应该很大,即x2统计量不应该很大。A与T相差越大,x2值越大,相对应的P值越小,当P≤α,则越有理由认为无效假设不成立,继而拒绝H0,作出统计推断。由于格子越多,x2值也会越大,因而考虑x2值大小的意义时,应同时考虑格子数的多少,这样x2值才能更准确地反映A与T的吻合程度。
x2检验可用于:独立样本两个或多个率或构成比的比较,配对设计两样本率的比较,频数分布的拟合优度检验,线性趋势检验。
2.四格表的Z检验和x2检验有何联系
答:能用四格表Z检验进行两样本率比较的资料,都可以用x2检验。四格表的双侧Z检验与x2检验是完全等价的,两个统计量的关系为Z2= x2,相对应的界值关系为Z2(底数0.05/2)= x2(底数0.05,1)
3.拟合优度x2检验的基本思想及用途
答:基本思想是根据样本的频数分布检验其总体是否服从某特定的理论分布。按照该理论分布计算的频数称为理论频数;从样本观察到的频数称为实际频数。利用x2检验,推断实际频数与理论频数的吻合程度。
4.为什么有些四格表资料的假设检验必须用确切概率法
答:x2检验的理论是基于x2分布,但是只有在大样本时检验统计量才近似服从x2分布,才能使用x2检验公式。如四格表资料,若n≥40,且有1≤T<5时,尚可以校正检验统计量使其近似服从x2分布;当n<40时,这种近似性就很差,x2检验就不适用了,只能用确切概率法。
5. x2检验的应用条件有哪些?
答:1.①当n≥40,且≥5时,用非连续校正的x2检验(公式)
②当n≥40,且有1≤T<5时,用连续性校正的x2检验或用四格表的确切概率
法。(公式)
③当n<40或T<1时,用四格表确切概率法。
2.独立样本R×C列联表x2检验的专用公式为:。。。
①不宜有1/5以上格子的理论频数小于5,或有1个格子的理论频数小于1.
②结果为有序多分类变量的R×C列联表,在比较各处理组的平均效应有无差别时,应该用秩和检验或Ridit检验。
3.配对四格表的x2检验
①当b+c≥40时,(公式)
②当b+c<40时,作连续性校正,(公式)
第十二章、秩和检验
1.参数检验和非参数检验的区别
答:参数检验是以特定的总体分布为前提,对未知总体参数做推断的假设检验方法;非参数检验不以特定的总体分布为前提,也不针对决定总体分布的参数做推断,又称任意分布检验。非参数检验不要求总体的分布类型,适用性广泛;在非参数检验中,一般不直接用样本观测值做分析,统计量的计算基于原数据在样本中的秩次,因此对于符合参数检验的资料,或经变量变换后符合参数检验的资料应首选参数检验;对不满足参数检验条件的资料,应选用非参数检验。
2.非参数检验的适用范围
答:①总体分布不明或未知的资料;②一端或两端有不确实数值的资料;③等级资料;④极度偏态分布的资料。
3.同一资料,又出于同一研究目的,当参数检验和非参数检验所得结果不一致时,以何者为准?理由
答:应以资料满足的条件为准。若资料满足参数检验的条件,应以参数检验的结
果为准,此时非参数检验的检验效能低于参数检验。若资料不服从正态分布,或者分布情况未知,不能用参数法进行推断,宜采用非参数法对总体分布位置进行假设检验。
第十三章双变量关联性分析
1.两变量间的关联性是否可解释为因果关系?
双变量关联性分析的目的在于推断从某一总体中随机抽取的同一份样本观测出的两个关联间是否存在关联性,以及这种关联性的密切程度如何。关联性只反应变量间数量上的关系,但数量上的关联并不表示专业上的因果关系,是否确为因果关系还需结合专业知识、因果逻辑上的时间先后顺序等作进一步判定。
2.2X2列联表的关联性分析与两样本率的比较的x2检验有何不同?
2X2列联表的关联性分析与两样本率比较的x2检验是从两个检验的数据形式非常相似,x2检验的公式以及应用条件也完全不同。但区别在于:两样本率比较的x2检验是从两个总体中分别抽取样本,两样本有各自的频数分布,所检验的是两总体的率是否相同;而2X2列联表的关联性分析是从同一个总体中进行随机抽样,对样本中的每个个体考察其两个变量的关系,检验两个分类之间是否存在关联性或者说是否独立。
3、相关系数r经假设检验有统计学意义,且得到的P值很小,是否表示两变量间一定有很强的直线关系?
P值越小,说明越有理由拒绝H0,犯I型错误的概率越小。相关系数r经假设检验有统计学意义且得到非常小的P值,表示有足够的理由认为两变量总体相关系数ρ≠0,只能定性回答两变量是否存在直线相关,并非意味着其直线相关的强度。若要定量回答相关性的强弱,需结合样本相关系数r的大小和总体相关系数ρ的置信区间来说明。
4.Pearson积矩相关与Spearman秩相关的区别与联系
答:区别1. Pearson积矩相关适用于二元正态分布资料,Spearman秩相关适用于
不服从正态分布、总体分布未知、存在极端值或原始数据用等级表示的资料。②Pearson积矩相关是基于原始数据进行统计分析,而Spearman秩相关是将原始数据进行秩变换后进行统计分析。③Pearson积矩相关是参数检验方法,而Spearman 秩相关不以特定的总体分布为前提,为非参数检验的方法。
联系:1.两种相关系数的取值都介于—1和1之间,无单位,小于0为负相关,大于0为正相关。2.用原始数据的秩次来计算Pearson相关系数,得到的即为Spearman秩相关系数。
第十五章生存分析
1.简述生存分析中截尾数据的常见原因。
①失访:指失去联系。②退出:指死于非研究因素或非处理因素而退出研究。③终止:指设计时规定的研究时限已到而终止观察,但研究对象依然存活。
2.简述生存率和生存概率的区别与联系。
生存概率表示某单位时段开始时存活个体到该时段结束时仍存活的可能性大小;生存率是指观察对象活过某时刻的概率,实质上是累积生存概率。生存概率是单位时段的概率,生存率是多个时段的累计结果。
3.简述死亡率和死亡概率的区别与联系。
死亡概率是指在某个单位时段开始时存活的个体在该时段内死亡的可能性大小;死亡率表示所有观察对象在某时刻的平均死亡水平。二者分母不同,死亡率的分母常用其中人口数,而死亡概率则用期初人数。
4.生存时间资料能计算均数和标准差吗?
如果资料所包含的数据都是完全数据,可以计算均数和标准差;若资料中包含截尾数据,则不可以计算。
5.简述两样本比较的生存时间资料不宜采用t检验或x方检验进行分析的理由。因为随访资料具有特殊性,观察对象既有随访时间又有随访结果,随访期间可能
出现失访等,生存时间数据不完整,分布类型复杂,因而不能简单的应用t检验或x方检验。
第二十章检测手段的效度和信度评价
1.简述效度、信度的概念和目的。
效度用以反映测量结果与“真值”的接近程度。信度用以反映相同条件下重发测定结果的一致程度。评价效度、信度的目的是评价量表对真实情况反映的准确性、可靠性。
2.简述评价效度和信度的常用方法及其特点。
评价效度的常用方法有:标准效度分析、内容效度分析、结构效度分析、区分效度分析。
评价信度的常用方法有:重复测量法、分半信度法、Cronbach’s a系数法。特点:标准效度分析需要一个“金标准”作为参考;内容效度分析对概念的定义有依赖性;结构效度分析需借助因子分析来完成;区分效度分析通过t检验或方差分析可比较不同群组间的差别有无统计学意义。重复测量法需要重复两次或两次以上测量;分半信度法将调查的问题条目分成两半;Cronbac h’s a系数法适用于奇偶两半条目方差不等的情况。
3.简述分半信度法的优点和不足。
优点:分半信度法只在一个时间点上进行;不受记忆效应的影响;在重复测量法中容易出现的误差项之间的相关在分半信度法中不易出现;分半信度法比较经济和简便。
不足:将所有的问题条目分为两半的方法有些武断,不同的半分法可能会得到不同的结果。
4.简述如何考察测量手段和反应度。
①使用测量手段分别在治疗前后或施加干预措施前后对研究对象进行测量,记录
治疗前后或施加干预措施前后的测量结果。
②使用效应尺度统计量评价测量的反应度。效应尺度=(治疗后得分—治疗前得分)/治疗前后得分的标准差
第二十一章医学人口与疾病统计常用指标
1.疾病统计中的观察单位“病例”和“病人”有何区别?
疾病统计的观察单位可以是病人,也可以是病例。一个人每发生一次疾病就算是一个病例,一个病人可以先后数次患同一种疾病,也可以同时患数种不同的疾病。
2.发病率、时点患病率、期间患病率有何区别?
发病率表示在一定时期内,可能发生某病的一定人群中新病例出现的频率,其分子是一定期间内的新发病例数。患病率指在某特定时间内总人口中某病新旧病例所占比例,适用于病程较长的疾病或发病时间不易轻易明确的疾病的统计研究,按观察时间的不同可分为时点患病率和期间患病率。时点患病率用于反映在调查或检查时点一定人群中某病的现患情况(包含该病的新、旧病例);期间患病率可用于反映在观察期间内一定人群存在或流行某病的频度,包括观察期间内的新病例数和现患病例数,但资料收集较为困难。
3.年龄别死亡概率与年龄别死亡率有何区别?两者间有什么关系?
年龄别死亡概率(nqx)是表示一批人在x到x+n岁之间的死亡概率,即同时出生的人群中,刚满x岁的尚存者在今后n年内死亡的可能性。因此,死亡概率的公式定义为:nqx=(x岁到x+n岁之间死亡人数)/活满x岁的人口数
而年龄别死亡率(nmx)是表示某年龄别人口在n年内的平均死亡水平,其公式定义为:nmx=(x岁到x+n岁之间死亡人数)/(x岁到x+n岁之间的平均人口数)
可见,两者分母不同,当年龄分组为1岁时,即n=1时,qx比mx略小,当
年龄分组大于1岁时,即n〉1时,则nqx约比nmx大n倍。死亡率与死亡概率之间可以互相换算,现有许多种由nmx推算nqx的方法,目前常用的计算死亡概率的公式为:nqx=2*n*nmx/(2+n*nmx)
4.平均寿命与平均死亡年龄有何区别?
平均寿命实际上是同时出生的一批人,以各年龄组死亡人数作为权数计算出来的平均岁数,其大小取决于各年龄组死亡人数的相对水平。用寿命表方法计算的平均寿命的大小,仅取决于年龄别死亡率的高低,两地的平均寿命可以直接比较。但平均死亡年龄的大小,不仅取决于年龄别死亡率的高低,也取决于年龄别人口构成。如用甲、乙两地的平均死亡年龄作比较,即使两地的年龄组死亡率完全相同,若甲地人口中青壮年比重较大,而老年人比重较小,可导致甲地平均死亡年龄较低。显然,这种平均死亡年龄的差别,是由于人口年龄构成不同所致,并不反映两地人口的平均寿命不同。因此,一般情况下,两地的平均死亡年龄不能直接比较,不能把平均死亡年龄当作平均寿命应用。
5.某地的平均寿命高,则老年人口占总人口数的比例一定很高,这种说法对吗?
这种说法不正确。用寿命表法计算的平均寿命,其大小仅取决于年龄别死亡率的高低,某地的平均寿命高,并不表明老年人口所占的比例高。如果人群的年龄别死亡率降低,尤其是婴幼儿组死亡率降低,该地人群的平均寿命就会增高。
医学统计学试题及答案集团文件发布号:(9816-UATWW-MWUB-WUNN-INNUL-DQQTY-
医学统计学试题及答案 习??题 《医学统计学》第二版??(五年制临床医学等本科生用)(一)??单项选择题 1.观察单位为研究中的( d??)。 A.样本? ?? ??B. 全部对象 C.影响因素? ?? ?????D. 个体2.总体是由( c )。 A.个体组成? ?? ?B. 研究对象组成 C.同质个体组成? ?? ? D. 研究指标组成 3.抽样的目的是(b??)。 A.研究样本统计量? ?? ?? ???B. 由样本统计量推断总体参数 C.研究典型案例研究误差? ???D. 研究总体统计量 4.参数是指(b? ?)。 A.参与个体数? ???B. 总体的统计指标 C.样本的统计指标? ? ??D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变? ?? ? B.均数改变,标准差不变 C.两者均不变? ?? ?? ?? ?? ??? D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a??)。 A.变异系数? ?? B.差 C.极差? ?? ?? ? D.标准差 8.以下指标中(? ?d)可用来描述计量资料的离散程度。 A.算术均数? ? B.几何均数 C.中位数? ?? ? D.标准差 9.偏态分布宜用(? ?c)描述其分布的集中趋势。 A.算术均数? ?? B.标准差 C.中位数? ?? D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(? ?b)不变。 A.算术均数? ??? B.标准差 C.几何均数? ?? ???D.中位数 11.( a??)分布的资料,均数等于中位数。 A.对称? ? B.左偏态 C.右偏态? ?? ?? D.偏态 12.对数正态分布是一种( c )分布。
医学统计学 第一章 绪论 答案 名词解释: (1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基 础上各观察单位(或个体)之间的差异。 (2) 总体与样本:总体就是根据研究目的确定的同质观察单位的全体。样 本就是从总体中随机抽取的部分观察单位。 (3) 参数与统计量:根据总体个体值统计算出来的描述总体的特征量,称 为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为 样本统计量。 (4) 抽样误差:由抽样造成的样本统计量与总体参数的差别称为抽样误 差。 (5) 概率:就是描述随机事件发生的可能性大小的数值,用p 表示 (6) 计量资料:由一群个体的变量值构成的资料称为计量资料。 (7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称 为计数资料。。 (8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为 等级资料。 就是非题: 1. × 2. × 3. × 4. × 5. √ 6. √ 7. × 单选题: 1. C 2. E 3. D 4. C 5. D 6. B 第二章 计量资料统计描述及正态分布 答案 名词解释: 1、 平均数 就是描述数据分布集中趋势(中心位置)与平均水平的指标 2、 标准差 就是描述数据分布离散程度(或变量变化的变异程度)的指标 3、 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4、 参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指 标范围称为指标的正常值范围。 填空题: 1. 计量,计数,等级 2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4、 σ± σ96.1± σ58.2± 68、27% 95% 99% 5、 47、5% 6、均数、标准差 7、 全距、方差、标准差、变异系数
第一章绪论 一、单项选择题 答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D 二、简答题 1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。 2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。 4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。 5答系统误差、随机测量误差、抽样误差。系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。 6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。 第二章定量数据的统计描述 一、单项选择题 答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E 二、计算与分析 2
1 医学统计学题库 一、最佳选择题 1. 比较相同人群的身高和体重的变异程度,宜用的统计指标是__ __。 A. 全距 B. 标准差 C. 中位数 D. 变异系数 2. 反映一组偏态分布资料平均水平的指标宜用_ __。 A.变异系数 B. 几何均数 C. 中位数 D. 均数 3. 下述_ ___种资料为计数资料。 A. 血红蛋白( g/L ) B. 红细胞计数( 31012 /L ) C. 抗体滴度 D. 血型 4. 表示事物内部各个组成部分所占比重的相对数是___ ____。 A. 相对比 B. 率 C. 构成比 D. 率的标准误 5. 说明样本均数抽样误差大小的指标是___ _____。 A. 变异系数 B. 标准差 C. 标准误 D. 全距 6. 正态分布曲线下中间面积为99% 的变量值范围为___ _____。 A. μσ±196 . B. μσ±258. C. μσ±1 D. μσ±125. 7. 8名新生儿的身长(cm )依次为:50, 53, 58, 54, 55, 52, 54, 52。 中位数M 为__ __。 A. 53.5 B. 54.5 C. 54 D. 53 8. 表示两个变量之间的直线相关关系的密切程度和方向的统计指标是_ _。 A. 变异系数 B. 相关系数 C. 均数 D. 回归系数 9. 某市1955年和2015年的三种死因别死亡率,若用统计图表示宜 选用____ _______。 A. 直条图 B. 直方图 C. 百分直条图 D. 统计地图 10. 下述___ ____为第一类错误的定义。 A.拒绝了实际上是不成立的H 0 B.接受了实际上是不成立的H 0 C.拒绝了实际上是成立的H 0
第二章 1.答:在统计学中用来描述集中趋势的指标体系是平均数,包括算术均数,几何均数,中位数。 均数反映了一组观察值的平均水平,适用于单峰对称或近似单峰对称分布资料的平均水平的描述。 几何均数:有些医学资料,如抗体的滴度,细菌计数等,其频数分布呈明显偏态,各观察值之间呈倍数变化(等比关系),此时不宜用算术均数描述其集中位置,而应该使用几何均数(geometric mean )。几何均数一般用G 表示,适用于各变量值之间成倍数关系,分布呈偏态,但经过对数变换后成单峰对称分布的资料。 中位数和百分位数: 中位数(median )就是将一组观察值按升序或降序排列,位次居中的数,常用M 表示。理论上数据集中有一半数比中位数小,另一半比中位数大。中位数既适用于资料呈偏态分布或不规则分布时集中位置的描述,也适用于开口资料的描述。所谓“开口”资料,是指数据的一端或者两端有不确定值。 百分位数(percentile )是一种位置指标,以P X 表示,一个百分位数P X 将全部观察值分为两个部分,理论上有X %的观察值比P X 小,有(100-X )%观察值比P X 大。故百分位数是一个界值,也是分布数列的一百等份分割值。显然,中位数即是P 50分位数。即中位数是一特定的百分位数。常用于制定偏态分布资料的正常值范围。 2.答:常用来描述数据离散程度的指标有:极差、四分位数间距、标准差、方差、及变异系数,尤以方差和标准差最为常用。 极差(range ,记为R ),又称全距,是指一组数据中最大值与最小值之差。极差大,说明资料的离散程度大。用极差反映离散程度的大小,简单明了,故得到广泛采用,如用以说明传染病、食物中毒等的最短、最长潜伏期等。其缺点是:1.不灵敏; 2.不稳定。 四分位数间距(inter-quartile range )就是上四分位数与下四分位数之差,即:Q =Q U -Q L ,其间包含了全部观察值的一半。所以四分位数间距又可看成中间一半观察值的极差。其意义与极差相似,数值大,说明变异度大;反之,说明变异度小。常用于描述偏态分布资料的离散程度。 极差和四分位数间距均没有利用所研究资料的全部信息,因此仍然不足以完整地反映资料的离散程度。 方差(variance )和标准差(standard deviation )由于利用了所有的信息,而得到了广泛应用,常用于描述正态分布资料的离散程度。 变异系数(coefficient of variance ,CV )亦称离散系数(coefficient of dispersion ),为标准差与均数之比,常用百分数表示。变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 3.答:常用的相对数指标有:比,构成比和率。 比(ratio ),又称相对比,是A 、B 两个有关指标之比,说明A 为B 的若干倍或百 分之几,它是对比的最简单形式。其计算公式为 比=A /B 率(rate)又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。计算公式为: ) 比例基数(单位总数 可能发生某现象的观察单位数 实际发生某现象的观察率K ?= 构成比(proportion) 又称构成指标,它说明一种事物内部各组成部分所占的比重或
第二章 1?答:在统计学中用来描述集中趋势的指标体系是平均数,包括算术均数,几何均数,中位数。 均数反映了一组观察值的平均水平,适用于单峰对称或近似单峰对称分布资料的平均水平的描述。 几何均数:有些医学资料,如抗体的滴度,细菌计数等,其频数分布呈明显偏态,各观察值之间呈倍数变化(等比关系),此时不宜用算术均数描述其集中位置,而应该使用几何均数(geometric mean)。几何均数一般用G表示,适用于各变量值之间成倍数关系,分布呈偏态,但经过对数变换后成单峰对称分布的资料。 中位数和百分位数: 中位数(median)就是将一组观察值按升序或降序排列,位次居中的数,常用M表 示。理论上数据集中有一半数比中位数小,另一半比中位数大。中位数既适用于资料呈偏态分布或不规则分布时集中位置的描述,也适用于开口资料的描述。所谓开口”资料, 是指数据的一端或者两端有不确定值。 百分位数(percentile)是一种位置指标,以P X表示,一个百分位数P X将全部观察值分为两个部分,理论上有X%的观察值比P X小,有(100-X)%观察值比P X大。故百分位数是一个界值,也是分布数列的一百等份分割值。显然,中位数即是P50分位数。 即中位数是一特定的百分位数。常用于制定偏态分布资料的正常值范围。 2?答:常用来描述数据离散程度的指标有:极差、四分位数间距、标准差、方差、及变异系数,尤以方差和标准差最为常用。 极差(range,记为R),又称全距,是指一组数据中最大值与最小值之差。极差大,说明资料的离散程度大。用极差反映离散程度的大小,简单明了,故得到广泛采用,如用以说明传染病、食物中毒等的最短、最长潜伏期等。其缺点是:1?不灵敏;2?不稳定。 四分位数间距(inter-quartile range)就是上四分位数与下四分位数之差,即:Q= Q u —Q L ,其间包含了全部观察值的一半。所以四分位数间距又可看成中间一半观察值的极差。其意义与极差相似,数值大,说明变异度大;反之,说明变异度小。常用于描述偏态分布资料的离散程度。 极差和四分位数间距均没有利用所研究资料的全部信息,因此仍然不足以完整地反 映资料的离散程度。 方差(variance)和标准差(standard deviation)由于利用了所有的信息,而得到了广泛应用,常用于描述正态分布资料的离散程度。 变异系数(coefficient of variance , CV)亦称离散系数(coefficient of dispersion ), 为标准差与均数之比,常用百分数表示。变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊的两组或多组资料的离散程度。 3?答:常用的相对数指标有:比,构成比和率。 比(ratio),又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百 分之几,它是对比的最简单形式。其计算公式为比二A/B 率(rate)又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分 率(%。)、万分率(1/万)、十万分率(1/10万)等表示。计算公式为: 率.= 实际发生某现象的观察单位数迸比例基数(K) 可能发生某现象的观察单位总数 构成比(proportion)又称构成指标,它说明一种事物内部各组成部分所占的比重或
医学统计学 第一章 绪论 答案 名词解释: (1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基 础上各观察单位(或个体)之间的差异。 (2) 总体和样本:总体是根据研究目的确定的同质观察单位的全体。样本 是从总体中随机抽取的部分观察单位。 (3) 参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称 为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为 样本统计量。 (4) 抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误 差。 (5) 概率:是描述随机事件发生的可能性大小的数值,用p 表示 (6) 计量资料:由一群个体的变量值构成的资料称为计量资料。 (7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称 为计数资料。。 (8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为 等级资料。 是非题: 1. × 2. × 3. × 4. × 5. √ 6. √ 7. × 单选题: 1. C 2. E 3. D 4. C 5. D 6. B 第二章 计量资料统计描述及正态分布 答案 名词解释: 1. 平均数 是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差 是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4. 参考值范围 参考值范围也称正常值范围,医学上常把把绝大多数的某指 标范围称为指标的正常值范围。 填空题: 1. 计量,计数,等级 2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± 68.27% 95% 99%
第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t r
医学统计学(第六版) 课后答案 第一章绪论 一、单项选择题 答案 1. D 2. E 3. D 4. B 5. A 6. D 7. A 8. C 9. E 10. D 二、简答题 1答由样本数据获得的结果,需要对其进行统计描述和统计推断,统计描述可以使数据更容易理解,统计推断则可以使用概率的方式给出结论,两者的重要作用在于能够透过偶然现象来探测具有变异性的医学规律,使研究结论具有科学性。 2答医学统计学的基本内容包括统计设计、数据整理、统计描述和统计推断。统计设计能够提高研究效率,并使结果更加准确和可靠,数据整理主要是对数据进行归类,检查数据质量,以及是否符合特定的统计分析方法要求等。统计描述用来描述及总结数据的重要特征,统计推断指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 3答统计描述结果的表达方式主要是通过统计指标、统计表和统计图,统计推断主要是计算参数估计的可信区间、假设检验的P 值得出相互比较是否有差别的结论。 4答统计量是描述样本特征的指标,由样本数据计算得到,参数是描述总体分布特征的指标可由“全体”数据算出。 5答系统误差、随机测量误差、抽样误差。系统误差由一些固定因素产生,随机测量误差是生物体的自然变异和各种不可预知因素产生的误差,抽样误差是由于抽样而引起的样本统计量与总体参数间的差异。 6答三个总体一是“心肌梗死患者”所属的总体二是接受尿激酶原治疗患者所属的总体三是接受瑞替普酶治疗患者所在的总体。 第二章定量数据的统计描述 一、单项选择题 答案 1. A 2. B 3. E 4. B 5. A 6. E 7. E 8. D 9. B 10. E 二、计算与分析 2 第三章正态分布与医学参考值范围 一、单项选择题 答案 1. A 2. B 3. B 4. C 5. D 6. D 7. C 8. E 9. B 10. A 二、计算与分析 1 2[参考答案] 题中所给资料属于正偏态分布资料,所以宜用百分位数法计算其参考值范围。又因血铅含量仅过大为异常,故应计算只有上限的单侧范围,即95P 。
第一章绪论 1.举例说明总体和样本的概念。 研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。 2.简述误差的概念。 误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。 某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能够根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。 当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。第二章调查研究设计 1.调查研究主要特点是什么? 调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。 2.简述调查设计的基本内容。 ①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。 3.试比较常用的四种概率抽样方法的优缺点。 (1)单纯随机抽样优点是:均数(或率)及标准误的计算简便。缺点是:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。 (2)系统抽样优点是:①易于理解,简便易行②容易得到一个按比例分配的样本,由于样本相应的顺序号在总体中是均匀散布的,其抽样误差小于单纯随机抽样。缺点是:①当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势,系统抽样将产生明显的偏性。但对于适合采用系统抽样的情形,一旦确定了抽样间隔,就必须严格遵守,不能随意更改,否则可能造成另外的系统误差②实际工作中一般按单纯随机抽样方法估计抽样误差,因此这样计算得到的抽样误差一般偏大。 (3)分层抽样优点是:①减少抽样误差:分层后增加了层内的同质性,因而观测值的变异度减小,各层的抽样误差减小,在样本含量先锋等的情况下其标准误一般小于单纯随机抽样、系统抽样和整群抽样的标准误②便于对不同的层采用不同的抽样方法,有利于调查组织工作的实施③还可对不同层进行独立分析。缺点是:当需要确定的分层数较多时,操作比较麻烦,实际工作中实施难度较大。 (4)整群抽样优点是:便于组织,节省经费,容易控制调查质量;缺点是:当样本含量一定时,其抽样误差一般大于单纯随机
第一章绪论习题 一、选择题 1.统计工作与统计研究得全过程可分为以下步骤:(D) A、调查、录入数据、分析资料、撰写论文 B、实验、录入数据、分析资料、撰写论文 C、调查或实验、整理资料、分析资料 D、设计、收集资料、整理资料、分析资料 E、收集资料、整理资料、分析资料 2、在统计学中,习惯上把(B )得事件称为小概率事件。 A、B、或C、 D、E、 3~8 A、计数资料 B、等级资料 C、计量资料 D、名义资料 E、角度资料 3、某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料得类型就是( A)。 4、分别用两种不同成分得培养基(A与B)培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长得活菌数如下,A:48、84、90、123、171;B:90、116、124、22 5、84。该资料得类型就是(C )。 5、空腹血糖测量值,属于( C)资料。 6、用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料得类型就是(B )。 7、某血库提供6094例ABO血型分布资料如下:O型1823、A型1598、B型2032、AB型641。该资料得类型就是(D )。 8、100名18岁男生得身高数据属于(C )。 二、问答题 1.举例说明总体与样本得概念、 答:统计学家用总体这个术语表示大同小异得对象全体,通常称为目标总体,而资料常来源于目标总体得一个较小总体,称为研究总体。实际中由于研究总体得个体众多,甚至无限多,因此科学得办法就是从中抽取一部分具有代表性得个体,称为样本。例如,关于吸烟与肺癌得研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取得一定量得个体则组成了研究得样本。 2.举例说明同质与变异得概念 答:同质与变异就是两个相对得概念。对于总体来说,同质就是指该总体得共同特征,即该总体区别于其她总体得特征;变异就是指该总体内部得差异,即个体得特异性。例如,某地同性别同年龄得小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析得关系 答:统计设计与统计分析就是科学研究中两个不可分割得重要方面。一般得,统计设计在前,然而一定得统计设计必
医学统计学 第一章绪论 答案 名词解释: (1)同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基础上各观察单位(或个体)之间的差异。 (2)总体和样本:总体是根据研究目的确定的同质观察单位的全体。样本是从总体中随机抽取的部分观察单位。 (3)参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为 样本统计量。 (4)抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误差。 (5)概率:是描述随机事件发生的可能性大小的数值,用p表示 (6)计量资料:由一群个体的变量值构成的资料称为计量资料。 (7)计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称为计数资料。。 (8)等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为等级资料。 是非题: 1.× 2.× 3.× 4.× 5.√ 6.√ 7.× 单选题: 1.C 2.E 3.D 4.C 5.D 6.B 第二章计量资料统计描述及正态分布 答案 名词解释: 1. 平均数是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4. 参考值范围参考值范围也称正常值范围,医学上常把把绝大多数的某指 标范围称为指标的正常值范围。 填空题: 1.计量,计数,等级
2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± 68.27% 95% 99% 5. 47.5% 6.均数、标准差 7. 全距、方差、标准差、变异系数 8. σμ96.1± σμ58.2± 9. 全距 R 10. 检验水准、显著性水准、0.05、 0.01 (0.1) 11. 80% 90% 95% 99% 95% 12. 95% 99% 13. 集中趋势、离散趋势 14. 中位数 15. 同质基础,合理分组 16. 均数,均数,μ,σ,规律性 17. 标准差 18. 单位不同,均数相差较大 是非题: 1. × 2. √ 3. × 4. × 5. × 6. √ 7. √ 8. √ 9. √ 10. √ 11. √ 12. √ 13. × 14. √ 15. √ 16. × 17. × 18. × 19. √ 20. √ 21. √ 单选题: 1. B 2. D 3. C 4. A 5. C 6. D 7. E 8. A 9. C 10. D 11. B 12. C 13. C 14. C 15. A 16. C 17. E 18. C 19. D 20. C 21. B 22. B 23. E 24. C 25. A 26. C 27. B 28. D 29. D 30. D 31. A 32. E 33. D 34. A 35. D 36. D 37. C 38. E 39. D 40. B 41. C 42. B 43. D 44. C 45. B 问答题: 1.均数﹑几何均数和中位数的适用范围有何异同? 答:相同点,均表示计量资料集中趋势的指标。 不同点:表2-5.
l.统计中所说的总体是指: A A根据研究目的确定的同质的研究对象的全体B随意想象的研究对象的全体 C根据地区划分的研究对象的全体 D根据时间划分的研究对象的全体 E根据人群划分的研究对象的全体 2.概率P=0,则表示 B A某事件必然发生 B某事件必然不发生 C某事件发生的可能性很小D某事件发生的可能性很大E以上均不对3.抽签的方法属于 D A分层抽样B系统抽样 C整群抽样 D单纯随机抽样 E二级抽样4.测量身高、体重等指标的原始资料叫: B A计数资料B计量资料 C等级资料 D分类资料 E有序分类资料5.某种新疗法治疗某病患者41人,治疗结果如下: 治疗结果治愈显效好转恶化死亡
治疗人数82363 1 该资料的类型是: D A计数资料 B计量资料 C无序分类资料 D有序分类资料 E数值变量资料6.样本是总体的 C A有价值的部分B有意义的部分C有代表性的部分D任意一部分E典型部分7.将计量资料制作成频数表的过程,属于统计工作哪个基本步骤:C A统计设计B收集资料C整理资料D分析资料E以上均不对8.统计工作的步骤正确的是 C A收集资料、设计、整理资料、分析资料 B收集资料、整理资料、设计、统计推断C设计、收集资料、整理资料、分析资料 D收集资料、整理资料、核对、分析资料E搜集资料、整理资料、分析资料、进行推断9.良好的实验设计,能减少人力、物力,提高实验效率;还有助于消除或减少: B
A抽样误差B系统误差C随机误差D责任事故E以上都不对 10.以下何者不是实验设计应遵循的原则 D A对照的原则B随机原则C重复原则D交叉的原则E以上都不对 第八章数值变量资料的统计描述11.表示血清学滴度资料平均水平最常计算 B A算术均数B几何均数C中位数D全距E率12.某计量资料的分布性质未明,要计算集中趋势指标,宜选择 C A X B G C M D S E C V 13.各观察值均加(或减)同一数后: B A均数不变,标准差改变B均数改变,标准差不变 C两者均不变D两者均改变E以上均不对14.某厂发生食物中毒,9名患者潜伏期分别为:16、2、6、3、30、2、l O、2、24+(小时),问该食物中毒的平均潜伏期为多少小时 C A5B5.5C6D10E1 2
医学统计学课后习题答案 Revised by Jack on December 14,2020
医学统计学 第一章 绪论 答案 名词解释: (1) 同质与变异:同质指被研究指标的影响因素相同,变异指在同质的基 础上各观察单位(或个体)之间的差异。 (2) 总体和样本:总体是根据研究目的确定的同质观察单位的全体。样本 是从总体中随机抽取的部分观察单位。 (3) 参数和统计量:根据总体个体值统计算出来的描述总体的特征量,称 为总体参数,根据样本个体值统计计算出来的描述样本的特征量称为 样本统计量。 (4) 抽样误差:由抽样造成的样本统计量和总体参数的差别称为抽样误 差。 (5) 概率:是描述随机事件发生的可能性大小的数值,用p 表示 (6) 计量资料:由一群个体的变量值构成的资料称为计量资料。 (7) 计数资料:由一群个体按定性因数或类别清点每类有多少个个体,称 为计数资料。。 (8) 等级资料:由一群个体按等级因数的级别清点每类有多少个体,称为 等级资料。 是非题: 1. × 2. × 3. × 4. × 5. √ 6. √ 7. × 单选题: 1. C 2. E 3. D 4. C 5. D 6. B 第二章 计量资料统计描述及正态分布 答案 名词解释: 1. 平均数 是描述数据分布集中趋势(中心位置)和平均水平的指标 2. 标准差 是描述数据分布离散程度(或变量变化的变异程度)的指标 3. 标准正态分布 以μ服从均数为0、标准差为1的正态分布,这种正态分布 称为标准状态分布。 4. 参考值范围 参考值范围也称正常值范围,医学上常把把绝 大多数的某指 标范围称为指标的正常值范围。 填空题: 1. 计量,计数,等级 2. 设计,收集资料,分析资料,整理资料。 3. σ μχ-=u (变量变换)标准正态分布、0、1 4. σ± σ96.1± σ58.2± % 95% 99%
第二章 1、答:在统计学中用来描述集中趋势得指标体系就是平均数,包括算术均数,几何均数,中位数。 均数反映了一组观察值得平均水平,适用于单峰对称或近似单峰对称分布资料得平均水平得描述。 几何均数:有些医学资料,如抗体得滴度,细菌计数等,其频数分布呈明显偏态,各观察值之间呈倍数变化(等比关系),此时不宜用算术均数描述其集中位置,而应该使用几何均数(geometric mean)。几何均数一般用G 表示,适用于各变量值之间成倍数关系,分布呈偏态,但经过对数变换后成单峰对称分布得资料。 中位数与百分位数: 中位数(median)就就是将一组观察值按升序或降序排列,位次居中得数,常用M 表示。理论上数据集中有一半数比中位数小,另一半比中位数大。中位数既适用于资料呈偏态分布或不规则分布时集中位置得描述,也适用于开口资料得描述。所谓“开口”资料,就是指数据得一端或者两端有不确定值。 百分位数(percentile)就是一种位置指标,以P X 表示,一个百分位数P X 将全部观察值分为两个部分,理论上有X %得观察值比P X 小,有(100-X )%观察值比P X 大。故百分位数就是一个界值,也就是分布数列得一百等份分割值。显然,中位数即就是P 50分位数。即中位数就是一特定得百分位数。常用于制定偏态分布资料得正常值范围。 2、答:常用来描述数据离散程度得指标有:极差、四分位数间距、标准差、方差、及变异系数,尤以方差与标准差最为常用。 极差(range,记为R ),又称全距,就是指一组数据中最大值与最小值之差。极差大,说明资料得离散程度大。用极差反映离散程度得大小,简单明了,故得到广泛采用,如用以说明传染病、食物中毒等得最短、最长潜伏期等。其缺点就是:1、不灵敏; 2、不稳定。 四分位数间距(inter-quartile range)就就是上四分位数与下四分位数之差,即:Q =Q U -Q L ,其间包含了全部观察值得一半。所以四分位数间距又可瞧成中间一半观察值得极差。其意义与极差相似,数值大,说明变异度大;反之,说明变异度小。常用于描述偏态分布资料得离散程度。 极差与四分位数间距均没有利用所研究资料得全部信息,因此仍然不足以完整地反映资料得离散程度。 方差(variance)与标准差(standard deviation)由于利用了所有得信息,而得到了广泛应用,常用于描述正态分布资料得离散程度。 变异系数(coefficient of variance,CV )亦称离散系数(coefficient of dispersion),为标准差与均数之比,常用百分数表示。变异系数没有度量衡单位,常用于比较度量单位不同或均数相差悬殊得两组或多组资料得离散程度。 3、答:常用得相对数指标有:比,构成比与率。 比(ratio),又称相对比,就是A 、B 两个有关指标之比,说明A 为B 得若干倍或百分之 几,它就是对比得最简单形式。其计算公式为 比=A /B 率(rate)又称频率指标,用以说明某现象发生得频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。计算公式为: ) 比例基数(单位总数 可能发生某现象的观察单位数 实际发生某现象的观察率K ?= 构成比(proportion) 又称构成指标,它说明一种事物内部各组成部分所占得比重或分布,常以百分数表示,其计算公式为:
第一章 绪论习题 一、选择题 1.统计工作和统计研究的全过程可分为以下步骤:(D ) A. 调查、录入数据、分析资料、撰写论文 B. 实验、录入数据、分析资料、撰写论文 C. 调查或实验、整理资料、分析资料 D. 设计、收集资料、整理资料、分析资料 E. 收集资料、整理资料、分析资料 2.在统计学中,习惯上把(B )的事件称为小概率事件。 A.10.0≤P B. 05.0≤P 或01.0≤P C. 005.0≤P D.05.0≤P E. 01.0≤P 3~8 A.计数资料 B.等级资料 C.计量资料 D.名义资料 E.角度资料 3.某偏僻农村144名妇女生育情况如下:0胎5人、1胎25人、2胎70人、3胎30人、4胎14人。该资料的类型是( A )。 4.分别用两种不同成分的培养基(A 与B )培养鼠疫杆菌,重复实验单元数均为5个,记录48小时各实验单元上生长的活菌数如下,A :48、84、90、123、171;B :90、116、124、225、84。该资料的类型是(C )。 5.空腹血糖测量值,属于( C )资料。 6.用某种新疗法治疗某病患者41人,治疗结果如下:治愈8人、显效23人、好转6人、恶化3人、死亡1人。该资料的类型是(B )。 7.某血库提供6094例ABO 血型分布资料如下:O 型1823、A 型1598、B 型2032、AB 型641。该资料的类型是(D )。 8. 100名18岁男生的身高数据属于(C )。 二、问答题 1.举例说明总体与样本的概念. 答:统计学家用总体这个术语表示小异的对象全体,通常称为目标总体,而资料常来源于目标总体的一个较小总体,称为研究总体。实际中由于研究总体的个体众多,甚至无限多,因此科学的办法是从中抽取一部分具有代表性的个体,称为样本。例如,关于吸烟与肺癌的研究以英国成年男子为总体目标,1951年英国全部注册医生作为研究总体,按照实验设计随机抽取的一定量的个体则组成了研究的样本。 2.举例说明同质与变异的概念 答:同质与变异是两个相对的概念。对于总体来说,同质是指该总体的共同特征,即该总体区别于其他总体的特征;变异是指该总体部的差异,即个体的特异性。例如,某地同性别同年龄的小学生具有同质性,其身高、体重等存在变异。 3.简要阐述统计设计与统计分析的关系 答:统计设计与统计分析是科学研究中两个不可分割的重要方面。一般的,统计设计在前,然而一定的统计设计
一、单向选择题 1. 医学统计学研究的对象是 E.有变异的医学事件 2. 用样本推论总体,具有代表性的样本指的是E.依照随机原则抽取总体中的部分个体 3. 下列观测结果属于等级资料的是 D.病情程度 4. 随机误差指的是 E. 由偶然因素引起的误差 5. 收集资料不可避免的误差是 A.随机误差 1.某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 2. 算术均数与中位数相比,其特点是 B.能充分利用数据的信息 3. 一组原始数据呈正偏态分布,其数据的特点是 D.数值分布偏向较小一侧 4. 将一组计量资料整理成频数表的主要目的是E.提供数据和描述数据的分布特征 1. 变异系数主要用于 A .比较不同计量指标的变异程度 2. 对于近似正态分布的资料,描述其变异程度应选用的指标是E. 标准差 3.某项指标95%医学参考值范围表示的是D.在“正常”总体中有95%的人在此范围 4.应用百分位数法估计参考值范围的条件是B .数据服从偏态分布 5.已知动脉硬化患者载脂蛋白B 的含量(mg/dl)呈明显偏态分布,描述其个体差异的统计指 标应使用 E .四分位数间距 1.样本均数的标准误越小说明 E.由样本均数估计总体均数的可靠性越大 2. 抽样误差产生的原因是D.个体差异 3.对于正偏态分布的的总体,当样本含量足够大时,样本均数的分布近似为C.正态分布 4. 假设检验的目的是 D.检验总体参数是否不同 5. 根据样本资料算得健康成人白细胞计数的95%可信区间为×109/L ~×109/L ,其含义是 E. 该区间包含总体均数的可能性为95% 1. 两样本均数比较,检验结果05.0 P 说明 D.不支持两总体有差别的结论 2. 由两样本均数的差别推断两总体均数的差别, 其差别有统计学意义是指 E. 有理由认为两总体均数有差别 3. 两样本均数比较,差别具有统计学意义时,P 值越小说明 D.越有理由认为两总体均数不同 4. 减少假设检验的Ⅱ类误差,应该使用的方法是 E.增加样本含量 5.两样本均数比较的t 检验和u 检验的主要差别是检验要求大样本资料
医学统计学课后习题答案(第2版高等教育出版社) 第一章绪论 1.举例说明总体和样本的概念。 研究人员通常需要了解和研究某一类个体,这个类就是总体。总体是根据研究目的所确定的所有同质观察单位某种观察值(即变量值)的集合,通常有无限总体和有限总体之分,前者指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体,后者指总体中的个体是有限的,它是指特定时间、空间中有限个研究个体。但是,研究整个总体一般并不实际,通常能研究的只是它的一部分,这个部分就是样本。例如在一项关于2007年西藏自治区正常成年男子的红细胞平均水平的调查研究中,该地2007年全部正常成年男子的红细胞数就构成一个总体,从此总体中随即抽取2000人,分别测的其红细胞数,组成样本,其样本含量为2000人。 2.简述误差的概念。 误差泛指实测值与真实值之差,一般分为随机误差和非随机误差。随机误差是使重复观测获得的实际观测值往往无方向性地围绕着某一个数值左右波动的误差;非随机误差中最常见的为系统误差,系统误差也叫偏倚,是使实际观测值系统的偏离真实值的误差。 3.举例说明参数和统计量的概念。 某项研究通常想知道关于总体的某些数值特征,这些数值特征称为参数,如整个城市的高血压患病率。根据样本算得的某些数值特征称为统计量,如根据几百人的抽样调查数据所算得的样本人群高血压患病。统计量是研究人员能够知道的,而参数是他们想知道的。一般情况下,这些参数是难以测定的,仅能够根据样本估计。显然,只有当样本代表了总体时,根据样本统计量估计的总体参数才是合理的。 4.简述小概率事件原理。
当某事件发生的概率小于或等于0.05时,统计学上习惯称该事件为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,这就是所谓的小概率事件原理,它是进行统计推断的重要基础。 第二章调查研究设计 1.调查研究主要特点是什么? 调查研究的主要特点是:①研究的对象及其相关因素(包括研究因素和非研究因素)是客观存在的,不能人为给予干预措施②不能用随机化分组来平衡混杂因素对调查结果的影响。 2.简述调查设计的基本内容。 ①明确调查目的和指标②确定调查对象和观察单位③确定调查方法④确定调查方式⑤确定调查项目和调查表⑥制定资料整理分析计划⑦制定调查的组织计划。 3.试比较常用的四种概率抽样方法的优缺点。 (1)单纯随机抽样优点是:均数(或率)及标准误的计算简便。缺点是:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。 (2)系统抽样优点是:①易于理解,简便易行②容易得到一个按比例分配的样本,由于样本相应的顺序号在总体中是均匀散布的,其抽样误差小于单纯随机抽样。缺点是:①当总体的观察单位按顺序有周期趋势或单调递增(或递减)趋势,系统抽样将产生明显的偏性。但对于适合采用系统抽样的情形,一旦确定了抽样间隔,就必须严格遵守,不能随意更改,否则可能造成另外的系统误差②实际工作中一般按单纯随机抽样方法估计抽样误差,因此这样计算得到的抽样误差一般偏大。 (3)分层抽样优点是:①减少抽样误差:分层后增加了层内的同质性,因而观测值的变异度减小,各层的抽样误差减小,在样本含量先锋等的情况下其标准误一般小于单纯随机抽样、系统抽样和整群抽样的标准误②便于对不同的层采用