卫生综合复习经验谈之医学统计学(一)
卫生综合五大科目中流行病学是最难复习的,而医学统计学是最基础的,只有学好医学统计,才能更深入的理解流行病学。这些话有些夸张,但医学统计学的基础地位却是毋庸置疑的。
医学统计学是一门工具学科,它是数理统计学在医学领域的具体应用。复习医学统计学的关键在于领会每一种统计学方法的原理,训练统计学思维;无论公式、定理背诵的多么熟练,spss软件操作的多么流畅,如果统计原理弄不清楚,那么还是相当于没学会统计学。去年旁听的一次研究生答辩会上,某同学选取某医院某科室2011年2月至2011年9月就诊的所有患者作为研究对象,按照医保类型、家庭经济状况等进行分组,采用t检验以及方差分析等方法,比较各组之间的差异,分析软件使用的是spss13.0,各组间默认正态、等方差。
大家觉得这个分析思路有没有问题?是不是很完备?方法应用的也符合统计学规范?表面上看来的确如此,实际情况呢?这个分析思路从根本上来讲就是立不住的。有一句话,叫做“无抽样,无检验”。上面的课题设计中,研究对象是某时间段内所有患者,这属于普查的一种,既然是普查就不存在抽样的问题,不抽样就没有假设检验的什么事了。
假设检验是用来干什么的?为什么要用假设检验?其目的是为了用
样本去推断总体,看一看样本的特性是否适用于总体。如果一个研究的研究对象本身就选用了总体,那么还用假设检验做什么?类似的例子,说透了可能大家都明白,但是在实际操作中却有很多人犯这种错误,根源还是没有透彻的理解统计学的原理和思路。
医学统计学说白了,包括两大部分,一是统计描述,二是统计推断;统计描述包括定量资料的描述和定性资料的描述;统计推断包括区间估计和假设检验,统计推断也涵盖定性和定量两种,但以定量资料为主。统计描述中的核心概念,均数、方差、变异系数、四分位数、率、构成比;统计推断中的核心知识点,t检验、单因素方差分析、卡方检验、二项分布和泊松分布、相关、回归。把握住这些核心知识点,其实医学统计学的复习已经完成了大半了
(二)
医学统计学复习中首先接触到的概念是总体和样本,这两个概念希望大家能够认真领会,虽然不会考察名词解释,但却是统计的基础所在。所要研究的对象的全体称为总体,包括有限总体和无限总体;无论是对于有限总体和无限总体,在实际研究中,我们或者受到资金、时间、技术等的限制,不能将所有的研究对象逐一研究,这就需要从总体中按照一定的方法抽取一部分对象进行研究,这一部分能够代表总体的研究对象就是样本。统计学中绝大多数的研究都属于抽样研究。这是我对于总体和样本的理解,希望和大家共同探讨。
接下来讲统计描述,首先是定量资料的统计描述,或者说是数值变量的统计描述。变量描述的二要素是集中趋势和离散趋势,就集中趋势而言,常用的指标是平均数,正态分布变量使用算数平均数,对数正态分布的变量使用几何平均数,偏态分布的变量使用中位数;就离散趋势而言,正态分布变量使用方差或者标准差,非正态分布变量使用四分位数间距,对于没有单位或者均数与标准差相差较大的变量,其离散趋势常用变异系数表示。
定性资料的统计描述,重点掌握率、构成比的概念,常犯的错误是以构成比代替率;教材中应用相对数的注意事项重点看一下;率的标准化是个比较重要的知识点,掌握标准化的目的、原理,两种标准化率的计算方法,使用标准化率的注意事项;动态数列的概念,常用的动态数列分析指标。
二项分布和泊松分布掌握一下,尤其是两者与正态分布的关系,在何种条件下二项分布和泊松分布能够近似看做正态分布,教材中相关计算的例题看一下。
下一次开始分享统计推断的知识点。
(三)
上一次统计学和大家分享了统计描述的一些内容,今天我们来回顾一下统计推断的相关内容。统计推断我将从参数估计和假设检验两个部
分来进行概述,可能大家看的教材不同,这一部分的组织结构也有差异,但我还是觉得分成这两部分比较容易理解。
参数估计,首先区分两个概念,什么是参数,什么是统计量。统计量是针对样本而言的,参数是针对总体而言的,以中国所有的6岁儿童为总体,以随机抽取的10000名6岁儿童为样本,前者的身高均值称为参数,后者的平均身高称为统计量。
由于总体的无限性,或者不可及等其他原因,参数无法直接获得,只能由统计量通过一定的方法来估计参数,这就是参数估计。参数估计有两种方法,一是点估计,二是区间估计。点估计属于较为粗糙的估计,它的原理很简单,直接以统计量的数值作为参数的数值。区间估计则是将统计量与标准误,得出一个具有较大置信度的包含参数的范围,这个范围称为参数的置信区间。
这一块内容,可能置信区间的概念比较难以理解,教材上一般这样阐述,以95%的置信区间为例,重复100次抽样,每次抽取的样本量都是n,每个样本都按照“均数±1.96*标准误”构建置信区间,这样就有100个置信区间出来,其中95个置信区间包含总体均数,5个置信区间不包含总体均数。大家耐心的领会一下吧。
看到上面置信区间的计算公式,有没有觉得和参考值范围很相像?这是经常会混淆的两个概念,因此区分置信区间与参考值范围也是本章
的一个重点;捎带着区分一下标准差与标准误这两个概念吧,也是常常考察的东西。
罗嗦了这么多参数估计,下面进入假设检验。假设检验的目的、核心原理希望大家能领悟;好像前面我已经提过了,就是什么时候需要假设检验,什么时候不需要假设检验,这个要搞搞清楚。不要看到数据就检验,看到p<0.05就欢喜。p值的概念或者说内涵重点把握,还有检验水准,也就是α的内涵,α与p的区别和联系,这些小知识点多思考一下。假设检验的基本步骤,无效假设和备选假设的设定,也需要看一下。
第一种假设检验方法,t检验,首先知道进行t检验的前提条件,即正态性、方差齐,不满足这两个条件就不能做t检验。t检验的三种方法,单样本t检验、两独立样本t检验和配对t检验,怎么计算不是重点,重点是要学会识别资料,什么样的资料可以用单样本t检验,什么样的资料可以用两独立样本t检验,什么样的资料可以用配对t 检验;掌握了这些,t检验就算是过关了。
(四)
上次讲到t检验,这次我们继续回顾其他的假设检验方法,当然以服从正态分布且方差齐的数据为前提,非正态或者方差不齐的数据,其假设检验要使用非参数方法,即秩和检验;秩和检验不是我们复习的重点,至少在考研过程中极少考察秩和检验。
首先是方差分析,教材上涉及多种实验设计的方差分析,个人经验是掌握完全随机设计方差分析和随机区组设计方差分析即可,其他的仅作了解,极少作为考试要求。
方差分析的基本思想要掌握,将总变异分解成两个或者多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分变异是否具有统计学意义。书上就是这么说的,大家需要仔细体会一下。完全随机设计的方差分析,个人习惯也将它称为单因素方差分析,因为分组因素只有一个;单因素方差分析和两独立样本t检验具有相似性,只不过两独立样本t检验只有两组数据进行比较,而单因素方差分析是多组数据进行比较,这两种方法对数据的要求都是一样的,即数据正态分布,各组之间满足方差齐性。对于单因素方差分析的结果解读,若最后p值小于设定的检验水准,应解释为“尚不能认为各处理组之间是相同的,或者各处理组间总体上看差异具有统计学意义”,如果为了进一步证明处理组两两之间的差异是否具有统计学意义,需进行两两比较的假设检验,常用的方法是q检验,需要掌握具体计算步骤。
随机区组设计的方差分析,这个比单因素方差分析稍微复杂一点,就是分组因素有两个,一是按照处理因素分组,另一个是按照其他特征分组,大家可以参看教材上的例题来领会。随机区组在计算的时候,与单因素方差分析相比,只不过是将总变异分成了三份,其他的没什么差异。
方差分析中总变异和自由度的分解,希望大家能掌握教材中表格里面的公式
(五)
闲话不说了,上次回顾到方差分析了,这回该看卡方检验了。首先需要知道卡方检验是用来干什么的。我们讲卡方检验是针对计数资料的一种假设检验方法,什么是计数资料?就是样本不需要进行一般意义上的测量,只需要计数不同分类样本的数目的资料。举个简单的例子,从某医院随机抽取两组胃溃疡患者,假定各组均为40人,现有两种治疗胃溃疡的药物A和B,分别给各组服用不用的药物,然后分别计数各组中的药物有效与无效的患者例数,所获得的资料就是计数资料,也有人成为分类计数资料。那么,这两种溃疡药物在治疗胃溃疡方面的效果是否有差异呢?这个时候就需要使用卡方检验了。不知道我这样讲,大家是否理解了。
卡方检验针对的计数资料类型,教材中一般涉及以下几种类型,2×2四格表(普通四格表,如上面的例子;还有一类是配对四格表,具体例子参见教材),多个构成比或者率的比较,一般意义的RxC列联表。对于普通四格表,需要掌握其计算公式,包括一般公式,四格表专用公式及四格表校正公式;当然核心是掌握在满足什么条件的时候,才能用一般公式,什么条件下需要进行校正,教材上这些都有提及;对于fisher精确概率法,知道应用的条件即可,具体计算较少考察;
配对四格表与普通四格表要求相同,什么时候不用校正,什么时候需要校正以及应用何种校正方法。
多个构成比或者率的比较的列联表资料分析,可以按照一般意义的RxC列联表进行分析,首先观察数据的分类变量是否是有顺序的;举个最简单的例子,还是本文开头那个胃溃疡药物,若患者计数的时候按照痊愈、好转、无效三个标准进行,此种情况下再用卡方检验比较两种药物的疗效是否有差异,就是不恰当的了。当然卡方检验仍然会运算出结果来,但是结果的解释并不能说明药物疗效是否有差异,仅能解释为两种药物在治疗胃溃疡方面,表现在效果标度的构成比是有差异的;若检验疗效的差异性,需进行秩和检验。这一块儿比较难以理解,我也只能解释到这种程度,大家仔细领会一下,同时参看秩和检验中的相关内容,理解原理即可,不需要掌握秩和检验的计算公式。这种计数资料,称为单向有序计数资料,即药物维度是没有顺序的,而疗效维度是有顺序的。
上面提到了单向有序计数资料,那么双向有序计数资料怎么分析?比如一份关于高中生吸烟的统计数据,纵标目是年级,从高一到高三共三个维度,横标目是每天的吸烟量,0-1为一个维度,2-5为一个维度,6及以上为一个维度,也是分了三个维度;这就是一个较为简单的双向有序列联表资料。这种资料的分析,一般是使用列联系数分析两个维度之间的相关性,即是否随着年级的增高吸烟量也越来越大?
列联系数的概念和计算方法希望大家掌握,双向有序分类变量资料需要大家能够识别。
(六)
到这一次,医学统计学的回顾就差不多快结束了,大家可以从本教程的第一讲数一下,重要的章节基本上都提到了,当然,要算上这一次的相关和回归。再次吐槽一下人卫六方积乾主编的卫生统计学教材,眉毛胡子一把抓,内容庞杂繁芜,什么东西都往里面塞;这本教材我的感觉是看起来非常费劲,不推荐大家用,我一直推荐的统计教材是高教出版社李晓松主编的那本。
闲话不说,首先来看相关,为了与研究生阶段要学习的偏相关、多元相关区分,我把本科阶段需要掌握的这种相关称作简单相关分析;通俗的说,就是两个变量,分析其协同变化趋势,是否随着A变量的增大,B变量也随着增大;或者是否随着A变量的增大,B变量却随之减小;在这种两个变量协同变化的过程中,协同变化的趋势强弱或者程度高低一般会用相关系数来表示。
简单相关分析教材中一般会提到两种,即pearson积矩相关分析和秩相关分析,两种方法针对不同分布的数据资料,这个大家必须要明白;因为两种分析方法在操作上大同小异,我们就以pearson积矩相关分析为例来重点讲解。
pearson积矩相关分析,对数据的要求是,A、B两组变量均满足正态分布,即我们经常说的双变量正态分布或者二元正态分布,如果不满足该条件,就需要使用秩相关分析。pearson积矩相关分析步骤很简单,先做散点图,看有无相关趋势,若有相关趋势就用spss计算其相关系数,同时对相关系数进行假设检验。相关系数的解释看一下,r的绝对值越大说明两变量关联越密切,等等。
秩相关分析,两变量不满足正态分布,或者分布未知或者数据资料采用等级表示,这时候就该秩相关分析上场了,其实操作步骤就比上面的多了一步,相对两个变量进行编秩,通俗的讲就是按照大小排队,以在队伍中的序号作为相关分析的变量。
分类变量的相关分析,其实我们在上一次卡方检验已经提到过一句,就是使用列联系数的概念进行相关分析。
我不知道大家有没有相关,做相关分析有什么意义,即使知道了两个变量具有密切的相关性又有什么用处?教材中明确提到,相关并不代表因果,即我们不能认为是A变量的变化引起了B变量的变化,反之也不能;相关也不能向回归那样进行预测。大家有没有与我同样的感受?闲唠几句,但有一句希望大家记住,相关关系不能解释因果关系,这个很重要,也是经常迈入的误区。
(七)
今天该分享简单线性回归这一章节了,这一次医学统计学复习笔记是真的到了该结束的时候。以前有几句话忘记说了,我写的这个医学统计学系列复习笔记,仅仅是从宏观上对教材的重要知识点进行回顾,不可能做到面面俱到,面面俱到是抄书的行为,也没什么意义;因此,请大家在对照笔记复习的同时,还要从历年真题中拾遗补漏,把我没讲到但是常常考到的知识点也要照顾到。比如,拟合优度检验的名解,去死因寿命表的原理等。
既然有简单线性回归,肯定有复杂的回归,比如多元线性回归,比如logistic回归等,但就本科阶段而言,尤其是为了备考研究生入学考试,掌握好简单线性回归就足够了。
首先还是对数据资料的要求,两个变量,一个因变量,常常用y来表示,一个自变量,常常用x来表示;对于x和y应该符合什么条件才适用简单回归模型,教材上应该都会逐条解释,我不在这里重复,记住了就行了,实在理解不了我也没办法。
数据符合条件了,然后就可以用spss进行回归分析了。第一步还是散点图,先看两个变量间有没有直线关系,有则做回归分析,没有则不用继续往下做了,即使spss能运算出相关系数来也是没有统计学意义的。
回归这一章节,总变异的分解这部分需要重点掌握,常常考到。即 SS (总)= SS(回归)+ SS(残差),教材上有一个关于总变异分解的
线段图,认真领会一下,其实也不难理解。SS(回归)代表y的总变异中能够用x解释的部分,这一部分越大,回归的效果越好,SS(残差)代表y的总变异中不能用x解释的部分,这一部分越大,回归的效果越差。
样本回归系数的标准误,这个名词解释曾经考察过。决定系数的名词解释一定要掌握,常常考察,计算公式也需要理解,即回归平方和与总变异平方和之比。对总体回归系数的两种假设检验,即方差分析和t检验是等价的,t值与对应的方差分析F值的换算公式大家掌握起来。
然后教材上讲到的简单线性相关的预测功能等,了解就行了,考研较少涉及,不过有一点需要大家注意,就是用相关模型对y进行预测,不能超出建立模型的时候所用的x的取值范围,简单来说,就是相关模型不可外推,或者外推需要慎重。
最后最后,简单相关分析与简单回归分析的区别与联系,这个超级重要的知识点务必掌握,常考论述题。不知道人卫六教材上有没有总结出来,没有的话,看高教李晓松的医学统计学,这一部分有一个大大的表格,总结的非常详细。
好了,我的医学统计学复习笔记就到这里结束了,啰啰嗦嗦讲了很多东西,看似有什么都没讲。总的来说,就我个人的复习经验而言,在
卫生综合五门科目中,统计是最好复习的,知识点也是最少的,速度快的话,一至两天就可以把统计复习一遍。祝大家成功!
SPSS
“记录生活点滴,分享学习经验”,作为一名公卫研究生,虽然不是专业学习医学统计学的,但统计学的知识却不能放下,它可是做公卫、搞科研的重要武器。基本上可以这么说,无统计,不科研。而spss 软件又是医学统计学中最常用的数据分析软件,更应该引起每一名公卫学生的重视。
今天来和大家分享的是,如何利用spss计算加权平均数的问题。这个问题我以前从来没有遇到过,昨天有个朋友向我咨询一个医院数据分析的事情,我才第一次考虑到。首先说说加权,这个概念以及在spss中的操作应该不陌生,如果你还记得,我们在做四格表资料的卡方检验的时候,第一步就是对数据进行加权,只有加权后才能对数据进行卡方检验。加权过程中一般是用某一种情况的例数作为权数,对数据库进行处理。如果你忘记了,还是再温习一下卡方检验的spss 操作吧,否则下面的操作你可能也看不太明白。
先给大家展示一下我们这次要用到的数据库。
用spss计算加权平均数范例数据库
上面是一个数据库的简化范例,朋友要我分析的数据库大致结构与上面这个相同,但是数据记录量极大,病种高达数百种。id表示疾病编号,每一种疾病对应一个独立、唯一的疾病编号;num表示病例数;charge表示每治疗一次的费用。数据分析的要求是,计算出每种疾病的次均治疗总费用。看上去是不是很简单?以白内障为例,它的次均治疗总费用=(6×2+8×4+3×4)÷(2+4+4)=5.6,白血病类似的计算可以得到其次均治疗总费用是5.4。
当数据量很小的时候,手算就可以了。但现在我们面临的是一个超级大的数据库,问题就是,如何通过spss计算出我们要的结果来?根据上面的范例计算公式,理一下思路,就是分别计算出上述公式中的每一个括号里的和,然后再让他们相除就可以了;然后考虑到各病种分别输出结果的问题,可以使用split files命令,分组输出结果就行了;至于求和也不是难事,首先添加一个新的字段,字段值为num 与charge的乘积,然后运用descriptives命令里面的sum功能,就可以将上述算式中除号两侧括号里的和分别计算出来了。
接下来怎么办?很简单,两个括号里的和都求出来了,做商不就出来次均总费用了吗?恰恰这是解决问题的另一个关键,怎么做商?上面的spss操作只能在output界面给你分病种输出除号两侧的和,这两个和做商需要你去手算…… 想想吧,面对几百种疾病,你就要手算几百次除法,是的,总有算完的时候,毕竟只需要除一下就行了;但是我们非得去做这种笨功夫么?
纠结了一会儿,我想到了卡方检验中的加权,上述数据库中的num不就相当于权数吗?说干就干,首先,单击data菜单,选择weight cases 命令,在对话框中将num变量拖到右侧,选择weight cases by num,点击ok,加权步骤完成;其次,再次单击data菜单,选择split files 命令,在对话框中将id变量拖到右侧,选择organize output by groups,点击ok,分组输出结果设置完成;最后一步,点选analyze 菜单,选择descriptive statistics,继续选择descriptives命令,将charge变量拖到右侧,在options选项卡里面仅勾选mean一项,单击ok,运行程序。下面就是见证奇迹的时刻,spss精准的将你需要的结果演算出来了,和上面我们用手算的结果完全一致,哦也,成功了!
朋友最后问了句,能不能把这个最终结果给输入到spss数据库中去,我告诉他,你还是拿刀捅死我吧,算到这一步已经到spss的极致了,开玩笑啦。
over,如果你遇到类似的数据分析问题,请大胆的使用上述方法吧。
说一句题外话,如果你现在还在使用汉化版的spss软件,请你立马卸载掉,换上英文原版的spss源程序。不要问我为什么,理由你懂的。
一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n
限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。2.随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个 观 察单位都有同等的机会被选入到样本中),从总 一、名词解释 1.概率:在重复试验中,事件A的频率,随着试验次数的不断增加将愈来愈接近一个常数p,这个常数p就称为事件A出现的概率(probability),记作P(A)或P。 2.抽样误差:由于抽样造成的统计量与参数之间的差别,特点是不能避免的,可用标准误描述其大小。 3.医学参考值范围:是指绝大多数正常人的某指标值都在一定的范围内,其中最常用的是95% 4.总体:是指根据研究目的确定的、同质的全部研究的观测值,即某个随机变量X可能取的值得全体。 4.总体:根据研究目的所确定的同质观察单位的全体。 5.线性回归系数:直线回归方程y=a+bX的系数b称为回归系数,也就是回归直线的斜率(slope),表示X 每增加一个单位,Y 平均改变 b 个单位。 二、填空题1.统计资料的类型分: 2.统计工作的步骤分为资料。 3.统计表的结构为:标 4.可信区间的两个要素 5.方差分析的应用条件来自正态总体③各组总 6.描述正态分布曲线形标是ν。 7.从集中趋势、离散趋 三、单项选择题(请把共20分) 1.将90名高血压病人 治疗,以服药前后血
限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample )。样 本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 2.随机抽样:随机抽样(random sampling )是指按照随机化的原则(总体中每一个 观 察单位都有同等的机会被选入到样本中),从总 是否相同,正确的是 C A 作三个差值样本比较的 t 检验 B 作三个差值样本比较的方差分析 C 作配伍组设计资料的方差分析 D 作两两比较的 t 检验 2.某地1952和1998年三种死因别死亡率绘制成统计图,宜用 B A 直条图 B 百分条图 C 圆图 D 直方图 3.下列哪个变量为标准正态变量 B A s x μ- B σ μ-x C x s x μ- D x x σμ- 4.某医院对30名麻疹易感儿童经气溶胶免疫一个月后,测得其血凝抑制抗体滴度,最合适描述其集中趋势的指标是 B A 均数 B 几何均数 C 标准差 D 中位数 5.配对设计的目的 D A 提高测量精度 B 操作方便 C 为了可以使用t 检验 D 提 高组间可比性 6.测定尿铅含量有甲乙 品,要比较两法测得的 A 配对设计t 检验 方差分析 7.应变量Y 的离均差平 A SS 剩=SS 回 B 上均可 8.相关系数r 与决定系数 确的是 C A r 值的大小反映了两 B r 值接近于零,表明 C 2 r 值接近于零,表明
医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。
(一)单项选择题 3.抽样的目的是(b )。 A.研究样本统计量 B. 由样本统计量推断总体参数 C.研究典型案例研究误差 D. 研究总体统计量 4.参数是指(b )。 A.参与个体数 B. 总体的统计指标 C.样本的统计指标 D. 样本的总和 5.关于随机抽样,下列那一项说法是正确的( a )。 A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽取个体 D.为确保样本具有更好的代表性,样本量应越大越好 6.各观察值均加(或减)同一数后( b )。 A.均数不变,标准差改变 B.均数改变,标准差不变 C.两者均不变 D.两者均改变 7.比较身高和体重两组数据变异度大小宜采用( a )。 A.变异系数 B.差 C.极差 D.标准差 8.以下指标中(d)可用来描述计量资料的离散程度。 A.算术均数 B.几何均数 C.中位数 D.标准差 9.偏态分布宜用(c)描述其分布的集中趋势。 A.算术均数 B.标准差 C.中位数 D.四分位数间距 10.各观察值同乘以一个不等于0的常数后,(b)不变。 A.算术均数 B.标准差 C.几何均数 D.中位数 11.( a )分布的资料,均数等于中位数。 A.对称 B.左偏态 C.右偏态 D.偏态 12.对数正态分布是一种( c )分布。 A.正态 B.近似正态 C.左偏态 D.右偏态 13.最小组段无下限或最大组段无上限的频数分布资料,可用( c )描述其集中趋势。 A.均数 B.标准差 C.中位数 D.四分位数间距 14.( c )小,表示用该样本均数估计总体均数的可靠性大。 A. 变异系数 B.标准差 C. 标准误 D.极差 15.血清学滴度资料最常用来表示其平均水平的指标是( c )。 A. 算术平均数 B.中位数 C.几何均数 D. 平均数
1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为
统计设计:调查设计、实验设计 第一章绪论 1.基本概念: 总体——根据研究目的确定,所有同质观察单位某种观察值的全体。 样本——总体中抽取的一部分具有代表性的个体组成的集合。 参数——刻画总体特征的统计指标。一般用希腊字母表示、、π 统计量——刻画样本特征的统计指标。抽取的样本不同,统计量会变化;一般用拉丁字母或英文字母表示X、S、p 抽样误差:个体变异所致,抽样研究中样本信息与总体特征间的差异。抽样误差是不可避免的。属于随机误差,无方向性,重复抽样可以呈现一定的规律性。 小概率事件 P≤ 2.*统计工作的四个步骤:设计、收集资料、整理资料、分析资料。(用工作实例解释) 第二章调查研究设计 第三章实验研究设计 1.调查研究 (观察性研究): 特点:无人为施加处理因素 调查研究的分类:按调查涉及的对象划分:全面调查(普查)、抽样调查、典型调查 注意:收集的资料要有可比性 *随机抽样方法(做统计推断有意义):单纯随机抽样、系统抽样、分层抽样、整群抽样 非随机抽样方法(不能做统计推断,可能有偏差):偶遇抽样、判断抽样、滚雪球抽样等 2.实验研究 特点:与调查研究最本质的区别:根据研究目的主动施加干预措施 实验设计的三个基本要素:受试对象、处理因素、实验效应 实验设计的基本原则:对照原则、随机化原则、重复原则 第四章定量资料的统计描述 第五章定性资料的统计描述 1.定量资料 (1)定量资料——*频数分布表、直方图、箱式图——判断分布类型—— 集中位置离散趋势(变异程度)*对称分布 (正态分布) X±S均数X标准差S *偏态分布M(P 25~P 75 )中位数M=P 50 四分位数间距Q=P 25 ~P 75 对数正态分布几何均数G对数标准差S lgX (2)描述离散趋势的统计指标: 极差R=最大值-最小值、 四分位数间距Q:常用于描述*偏态分布资料的离散趋势、一端或两端无确切值的资料、分布不明确资料 方差(总体、样本S2)&标准差(、S):*正态或近似正态分布
第一章健康管理概论 健康管理是以现代健康概念(生理、心理和社会适应能力)和新的医学模式(生理、心理、社会)以及中医治未病为指导,通过采用现代医学和现代管理学的理论、技术、方法和手段,对个体或群体整体健康状况及其影响健康的危险因素进行全面检测、评估、有效干预与连续跟踪服务的医学行为及过程。 其目的是以最小投入获取最大健康效益。 健康管理的八大目标: 1.完善健康和福利 2.减少健康危险因素 3.预防疾病高危人群患病 4.易化疾病的早期诊断 5.增加临床效用、效率 6.避免可预防的疾病相关并发症的发生 7.消除或减少无效或不必要的医疗服务 8.对疾病结局作出度量并提供持续的评估和改进 健康管理的特点: 标准化足量化个体化系统化 健康管理的三个基本步骤: 1.了解和掌握健康,开展健康信息收集和健康检查 2.关心和评价健康,开展健康风险评价和健康评估 3.干预和促进健康,开展健康风险干预和健康促进 健康风险评估是手段,健康干预是关键,健康促进是目的 健康管理的五个服务流程: 1.健康调查与健康体检 2.健康评估 3.个人健康咨询 4.个人健康管理后续服务 5.专项的健康和疾病管理服务 健康管理的六个基本策略: 1.生活方式管理 2.需求管理 3.疾病管理 4.灾难性病伤管理 5.残疾管理 6.综合群体健康管理 生活方式管理的特点: 1.以个体为中心,强调个体的健康责任和作用
2.以预防为主,有效整合三级预防 生活方式的四大干预技术: 教育激励训练营销 影响需求管理的四大主要因素: 1.患病率 2.感知到的需要 3.消费者选择偏好 4.健康因素以外的动机(残疾补贴、请病假的能力等) 需求管理的策略: 1.小时电话就诊和健康咨询 2.转诊服务 3.基于互联网的卫生信息数据库 4.健康课堂 5.服务预约 疾病管理的三个特点: 1.目标人群是患有特定疾病的个体 2.不以单个病例和(或)其单次就诊事件为中心,而关注个体或群体连续性的健康状况与 生活质量 3.医疗卫生服务以及干预措施的综合协调至关重要 灾难性病伤管理的五大特点: 1.转诊及时 2.综合考虑各方面因素,制订出适宜的医疗服务计划 3.具备一支包含多种医学专科及综合业务能力的服务队伍,能够有效应对可能出现的多种 医疗服务需要 4.最大程度地帮助病人进行自我管理 5.尽可能使患者及其家人满意 残疾管理的八大目标: 1.防止残疾恶化 2.注重功能性能力 3.设定实际康复和返工的期望值 4.详细说明限制事项和可行事项 5.评估医学和社会心理学因素 6.与病人和雇主进行有效沟通 7.有需要时要考虑复职情况 8.实行循环管理 《健康中国2030规划纲要》 1.强调预防为主,防患未然
考试题型: 名词解释10个 选择20个 填空题20个 简答4-5个 讨论分析1-2题 计算1-2题 绪论 2选1 总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总 体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代 表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 3选1 小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件 P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义 小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。 资料的类型(3选1) (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为 计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表 现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、 脉搏(次/分)、血压(KPa)等。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的 类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效 的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察 单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治 愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别 却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。 等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。 等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。 2选1 抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情 况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。 系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是
《医学统计学》复习提纲 第二章 统计描述 公式:几何均数 (1)直接法: n n X X X G ...21= 或 )lg (lg )lg ...lg lg ( lg 1211 n X n X X X G n ∑--=+++= (2)加权法: )lg (lg ....lg ...lg lg (lg 12122111 ∑ ∑--=++++++=f X f f f f X f X f X f G k k k 中位数(median ) (1) 直接法: n 为奇数 , 2 ) 1(+=n X M n 为偶数,)(21 12 2 ++= n n X X M (2)频数表法:用于频数表资料。 ∑-+ =)2 (L M f n f i L M 标准差(standard deviation ): n X ∑-= 2 ) (μσ 1 ) (2 --= ∑n X X S 离均差平方和 2 ) (∑-X X 常用SS 或l XX 表示。∑∑∑- =-= =N X X X X l SS XX 2 22 )() ( 直接法: 1 )(2 2 --= ∑∑n n X X S 加权法: 1 )(2 2 -- =∑∑ ∑∑f f fX fX S 1. 常用的相对数指标有哪些?它们的意义和计算上有何不同? 2. 为什么不能以构成比代率?请联系实际加以说明。 率和构成比所说明的问题不同,绝不能以构成比代率。构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。例如:以男性各年龄组高血压分布为例,50~60岁年龄组的高血压病例占52.24%,所占比重最大,60~岁组则只占到6.74%。这是因为60~岁以上受检人数少,造成患病数低于50~60岁组,因而构成比相对较低。但不能认为年龄在50~60岁组的高血压患病率最严重,而60岁以上反而有所减轻。若要比较高血压的患病率,应该计算患病率指标。 3. 应用相对数时应注意哪些问题? 4.简述医学中参考值范围的涵义及制定参考值范围的一般步骤。 医学中常把绝大多数正常人的某指标范围称为该指标的参考值范围,也叫正常值范围。所谓“正常人”不是指完全健康的人,而是指排除了所研究指标的疾病和有关因素的同质人群。 制定参考值范围的一般步骤: (1)定义“正常人”,不同的指标“正常人”的定义也不同。 (2)选定足够数量的正常人作为研究对象。
总复习 一、统计工作的基本步骤: 四个步骤:设计(最关键的一步)、搜集资料(统计分析的前提)、整理资料、分析资料。 二、三种资料类型: 1. 计量资料(定量资料) 2. 计数资料(分类资料) 3. 等级资料 三、几个基本概念 1. 总体与样本 2. 概率 四、计量资料的统计描述 1. 集中趋势:X、G、M(Px):适用条件、计算 2. 离散趋势:R、Q、S、CV:意义及适用条件 五、集中趋势离散趋势指标的选择判断步骤: 资料 是 抗体滴度 G、S 否是 偏态、开口 M、Q
否 X、S 六、正态分布 1.正态分布的特征 2.正态曲线下分布面积的规律 3.u变换(见下) 七、抽样误差的概念 1. 抽样误差(概念) 2. 抽样误差的特点: ⑴客观存在,可控制但不能消除; ⑵它是反映抽样误差大小的指标:用Sx来说明均数的抽样误差大小;用Sp 来说明率的抽样误差大小; ⑶均数抽样误差的大小与标准差成正比,与√n成反比; ⑷减少抽样误差最切实可行的办法为:增加样本含量。 3. 总体均数的估计方法 ⑴点(值)估计: ⑵区间估计:①95%可信区间:X±1.96Sx ②99%可信区间:X±2.58Sx 附:①正常参考值范围估计:
①95%正常值范围:X±1.96S ②99%正常值范围:X±2.58S ②可信区间与正常值范围的区别 4. u变换与t变换: X-μ X-μ u变换: u=──── u=──── σσx t变换: X-μ t=──── Sx 八、假设检验的一般步骤: ⑴建立假设①H0:无效假设;H1:备择假设 ②单双侧检验:根据专业知识来定。 ⑵确定检验水准:α=0.05 ⑶选定检验方法并计算检验统计量 ⑷确定P值:直接计算、查表法 ⑸作出推断结论:统计结论:是否拒绝H0 专业结论:谁高谁低?(有无效果) 九、常用t检验(重点是掌握根据资料的性质、分析的目的来选择假设检验方法)
医学统计学重点复习试题集 1、样本是总体中:DA 、按照研究者要求抽取总体中有意义的部分B 、随意抽 取总A 、任意一部分B 、典型部分C 、有愆义的部分D 、有代表性的体中任意部分 部分E 、有价值的部分C 、有童识的抽取总体中有典型部分D 、按照随机原则 抽取总体中2、参数是指:C 有代表性部分E 、总体中的每一个个体A 、参与个体 数B 、研究个体数C19、总体的统计指标D 、样本的、以舒张压?12. 7KPa 为高血 圧,测量1000人,结果有990名总和E 、样本的统计指标 非高血压患者,有10 名高血压患者,该资料属()资料。B 3、抽样的U 的是:E A 、计算B 、计数C 、 计量D 、等级E 、都对A 、研究样本统计量B 、研究总体统计量C 、研究典型案例 20、红细胞数(1012L-1)是:B E 、样本推断总体参数A 、观察单位B 、数值变量C 、名义变量 D 、等级变量 B 、数值变量 C 、名义变量 D ?等级变量E.21、某次研究进行随 机抽样,测量得到该市120名健康成年男子的研究个体血红蛋口数,则本次研究 总体为:C 5、疗效是:D A.所有成年男子B (该市所有成年男子C (该市A 、观察单 位B 、数值变量C 、名义变量D 、等级变量 E 、研所有健康成年男子 究个体D (120名该市成年男子E (120名该市健康成年男子6、抽签的方法属 于D 22、某地区抽样调査1000名成年人的血压值,此资料属于:A 分层抽样B 系 统抽样C 整群抽样D 单纯随机抽A 、集中型资料B 、数值变量资料C 、无序分类 资样E 二级抽样料 1、统计工作的步骤正确的是C D 、有序分类资料E 、离散型资料A 收集资 料、设计.整理资料、分析资料B 收集资料、整理资料、23、抽样调査的U 的是: 设计、统计推断A 、研究样本统计量B 、研究总体统i|?量C 、研究典型案C 设 计、收集资料、整理资料、分析资料D 收集资料、整理资料、例 核对、分析资料D 、研究误差E 、样本推断总体参数E 搜集资料、整理资料、 D 、研究误差 次/分)是:B 、研究个体4、脉搏数(E A 、观察单位
医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数
预 防 医 学 医学统计学 第一章医学统计学中的基本概念 1医学统计学中的基本概念 3选1 变异:由众多的、偶然的、次要的因素造成的个体之间的差异称为变异。 总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总 体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代 表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。 样本特性代表性随机性可靠性可比性 3选1 小概率事件:我们把概率很接近于0(即在大量中出现的频率非常低)的事件称为小概率事件。 P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义。 小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
资料的类型(3选1) (1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为 计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表 现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、 脉搏(次/分)、血压(KPa)等。 (2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料 (count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的 类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效 的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。 (3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察 单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治 愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别 却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为+、++、+++等。 等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。 等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。 3选1 抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情 况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。 系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。 随机测量误差:在收集原始资料时,仪器由于各种偶然因素造成同一对象多次测定的结果不一致。 统计的步骤(考填空题,四个空) 医学统计工作的内容 1.实验设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研 究中最关键的一环,是今后工作应遵循的依据。 2.收集资料:应采取措施使能取得准确可靠的原始数据。 3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。 4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分 析资料包括统计描述和统计推断。 实验设计的基本原则(考填空题,三个空) 随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。 对照的类型空白对照实验对照标准对照 自身对照相互对照历史对照安慰剂对照 2选1 参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数 是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样 本,用算得的样本统计量估计未知的总体参数。 统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本 统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机 变量。 完全随机设计常用的几种实验设计方法:配对设计和完全随机设计(名解2选1) 完全随机设计:完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。 配对设计:是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。 第二章集中趋势的统计描述 频数表的制作步骤以及频数分布表的用途(问答题) 频数分布表的编制步骤: 例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。 114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1
旗开得胜一、最佳选择题 1.卫生统计工作的步骤为 A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有 A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括 A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指 A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 1
5.统计学中所说的总体是指 A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用 A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差7.用均数与标准差可全面描述其资料分布特点的是 A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用 A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是 A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有 A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 1
抽样研究的目的是( B ) A 研究样本统计量 B 由样本统计量推断总体参数 C 研究总体统计量 D 研究典型案例 医学统计学所说的样本是( A ) A 按照随机抽样原则抽取总体中有代表性的一部分 B 有意识的选择总体典型部分 C 依照研究者要求选取总体中有意义的一部分 D 随意抽取的总体中任意部分 在成组资料均数t 检验中:α=0.05, ν,05.0t t >, 则认为( D )。 A 两样本均数相同 B 两样本均数不同 C 两总体均数相同 D 两总体均数不同 完全随机设计方差分析中的组间变异表示( D ) A 处理因素效应大小 B 抽样误差大小 C 全部数据离散程度大小 D 处理因素效应和抽样误差综合作用大小 描述一组偏态分布资料的分布特征,以下哪个较好( D )。? A 几何均数结合全距 B 均数结合标准差 C 均数结合变异系数 D 中位数结合四分位数间距 配对设计的目的( C ) A 为了可以使用t 检验 B 为了可以使用F 检验 C 提高组间均衡可比性 D 提高测量精度 统计分析的主要内容是( C ) A 统计图表和假设检验 B 统计描述和计算统计指标 C 统计描述和统计推断 D 统计推断和参数估计 下面的变量中,属于计数资料的是( A ) A 性别 B 体重指数 C 收缩压和舒张压 D 肺活量 在成对资料均数t检验中,无效假设为( D ) A 两总体均数相等 B 两样本均数相等 C 两总体均数均为0 D 差数的总体均数为0 在下面哪种情况下四格表2χ检验需计算校正2χ值( B )。 A 1< E < 5或n > 40 B 1 ≤ E < 5且n ≥ 40 C E >5且n ≤ 40 D E < 1且n < 40 统计描述的主要内容是( B ) a 统计图表和假设检验 b 统计图表和统计指标 c 统计描述和统计推断 d 统计推断和参数估计 描述一组正态分布资料的分布特征,以下哪个较好( B )。? a 几何均数结合全距 b 均数结合标准差 c 均数结合变异系数 d 中位数结合四分位数间距 血清学滴度资料最常用计算( C )以表示其平均水平。 a 、算术均数 b、中位数 c 、几何均数 d 、全距
描述内容 指 标 意 义 适 用 场 合 平均水平 均 数 个体的平均值 对称分布 几何均数 平均倍数 取对数后对称分布 中 位 数 位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 众 数 频数最多的观察值 不拘分布形式,概略分析 调和均数 基于倒数变换的平均值 正偏峰分布资料 变 异 度 全 距 观察值取值范围 不拘分布形式,概略分析 标 准 差 (方 差) 观察值平均离开均数的程度 对称分布,特别是正态分布资料 四分位数间距 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开口资料;④分布不明 变异系数 标准差与均数的相对比 ①不同量纲的变量间比较;②量纲相同但数量级相差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 图 形 适 用 资 料 实 施 方 法 条 图 组间数量对比 用直条高度表示数量大小 直 方 图 定量资料的分布 用直条的面积表示各组段的频数或频率 百分条图 构成比 用直条分段的长度表示全体中各部分的构成比 饼 图 构成比 用圆饼的扇形面积表示全体中各部分的构成比 线 图 定量资料数值变动 线条位于横、纵坐标均为算术尺度的坐标系 半对数线图 定量资料发展速度 线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范 围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97.5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99.5 P 1 P 99
医学统计学考试重点 The latest revision on November 22, 2020
一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 真实情况拒绝H 不拒绝H
H 正确Ⅰ型错误(ɑ) 推断正确(1ɑ) 不正确推断正确(1β) H Ⅱ型错误(β) 为真时却被拒绝,弃真错误 Ⅰ型错误(ɑ错误): H 为假时却被接受,取伪错误 Ⅱ型错误(β错误): H 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义: ①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上)安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数)
一、最佳选择题 1.卫生统计工作的步骤为C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指B
A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差 7.用均数与标准差可全面描述其资料分布特点的是C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为D
误差:观测值与真实值、样本计量与总体参数之间的差别。 相对数:两个有关的绝对数之比,也可以是两个有关联统计指标之比。 相对比:相对比是A、B两个有关联指标值之比,用以描述两者的对比水平,说明A是B 的若干倍或百分之几。 统计描述:描述及总结一组数据的重要特征,目的是使实验或观察得到的数据表达清楚并便于分析。 统计推断:指由样本数据的特征推断总体特征的方法,包括参数估计和假设检验。 同质:指根据研究目的所确定的观察单位其性质应大致相同。 变量:反映实验或观察对象生理、生化、解剖等特征的指标,变量的观测值称为数据。 定量数据:也称计量资料。变量的观测值是定量的,其特点是能够用数值大小衡量其水平的高低,一般有计量单位。根据变量的取值特征可分为连续型数据和离散型数据。 有序数据:也称半定量数据或等级资料。变量的观测值是定性的,但各类别(属性)之间有程度或顺序上的差别。 总体:根据研究目的确定的所有同质观察单位的全体,它包括所有定义范围内的个体变量值。样本:从研究总体中抽取部分有代表性的观察单位,对变量进行观测得到的数据。 参数:描述总体特征的指标称为参数。 统计量:描述样本特征的指标称为统计量。 概率:描述某事件发生可能性大小的度量。 小概率事件:习惯上将P≤0.05的事件称为小概率事件。 平均数:是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。 率:率表示在一定空间或时间范围内某现象的发生数与可能发生的总数之比。 构成比:表示某事物内部各组成部分在整体中所占的比重,常以百分数表示,计算公式为区间估计:是指按预先给定的概率,计算出一个区间,使它能够包含未知的总体均数。 线性相关的概念:研究两个变量之间是否具有直线相关关系。 相关系数:是说明具有线性相关关系的两个数值变量间相关的密切程度与相关方向的统计量。 研究对象:根据研究目的而确定的观察总体,也可称为受试对象或实验对象。 处理因素:根据研究目而欲施研究对象的干预措施。 处理水平:处理因素在实验中所处的状态称为因素的水平(level),亦称处理水平。 对照:指在实验中应设立对照组,其目的是通过与对照组效应对比鉴别出实验组的效应大小。随机化:是指每个受试对象有相同的概率或机会被分配到不同的处理组。 重复:是指在相同实验条件下重复进行多次观察。 统计学的基本内容:统计设计,数据整理,统计描述,统计判断 数据类型:定量数据,定性数据,有序数据 误差的类型:系统误差,随机测量误差,抽样误差 配对样本t检验配对设计:同源配对,异源配对,自身配对 方差分析的基本思想:将全部观测值的总变异按影响因素分解为相应的若干部分变异,在此基础上,计算假设检验的统计量F 值,实现对总体均数是否有差别的推断。 非参数检验的适用范围:①总体分布类型未知或非正态分布数据;②有序或半定量资料;③数据两端无确定的数值。 标准差与标准误的区别与联系:区别:标准差:意义,描述个体观察值变异程度的大小,标准差越小,均数对一组观察值的代表性越好。应用,与X拔结合,用以描述个体观察值的