文档库 最新最全的文档下载
当前位置:文档库 › 预防医学整理2 ----医学统计学方法的基本概念和步骤

预防医学整理2 ----医学统计学方法的基本概念和步骤

预防医学整理2  ----医学统计学方法的基本概念和步骤
预防医学整理2  ----医学统计学方法的基本概念和步骤

医学统计学方法的基本概念和步骤

目的要求:

1.掌握掌握医学统计的基本概念(变量、同质与变异、总体与样本、参数与统计量、抽

样误差、概率);

2.领会统计资料的类型;

3.理解统计工作的四个基本步骤(设计、资料的搜集、整理和分析)。

数值变量资料的统计描述

目的要求:

1.掌握频数分布的特征和频数分布的类型;

2.领会数值变量资料描述性指标的适用条件和计算;

3.理解频数分布表的编制步骤、正态分布曲线下面积的分布规律、医学参考值范围的估计; 4.了解公式来源。

数值变量资料的统计推断

目的要求:

1.掌握标准差与标准误的联系与区别、假设检验的基本步骤、t检验与u检验计算的应用

条件、方差分析的用途及应用条件、总体均数置信区间及其估计方法; 2.理解方差分析的计算、假设检验中的两类错误; 3.了解分布的特点。

分类变量资料的统计描述

目的要求:

1.掌握常用的相对指标的意义、计算和应用;

2.领会相对数应用的注意事项; 3.了解标准化的意义和计算方法。

分类变量资料的统计推断

目的要求:

1.掌握率的标准误及可信区间的估计方法、U检验、卡方检验的用途和各种公式适用条件; 2.了解公式来源

直线相关和直线回归

目的要求:

1.掌握直线相关和直线回归分析的意义及用途,相关系数的假设检验,相关与回归分析的区别和联系;

2.理解直线相关和直线回归的分析计算方法; 3.了解相关与回归分析中应注意的问题。统计表和统计图

目的要求:

1.掌握统计表的基本结构和要求、统计图制图通则和医学常用统计图的选择;

2.理解各种图形的绘制方法;

3.了解统计表、图的种类。

15、16章小结:

统计描述

统计推断

数值变量资料

分类变量资料

一、计量资料

集中趋势:X、G、M

离散趋势: R 、QU-QL、 S 2 、 S、CV

参数估计:μ的可信区间的估计

假设检验:样本与总体

t检验配对样本

两独立样本

u检验:样本与总体、两独立样本

二、计数资料

率、构成比、相对比

参数估计:π的可信区间估计

u检验:样本与总体、两样本

四格表资料

配对设计资料

R×C表资料

选择检验方法的步骤:

一、分清资料类型:计量资料 or 计数资料?

二、判断资料分布及设计

1 、计量资料:

a、两个独立样本均数比较:

n较大:u检验

n较小:t检验

b、配对设计两样本均数比较:配对t检验

c、样本均数与总体均数比较:

n足够大或σ已知时:u检验

n不够大且σ未知时: t检验

d、多个(≥3)样本均数比较:进一步两两比较:

ANOVA :q检验

2、计数资料

a、两个独立样本率比较

n较大:u检验或四格表X2检验

n较小:四格表X2检验、 Fisher确切概率法

b、配对设计两样本率比较:配对X2检验

c、样本率与总体率比较:u检验

d、多个(≥3)样本率比较-----进一步两两比较

R×C表 -----X2检验

直线相关(linear correlation)是研究两个变量之间是否存在直线关系及相关密切程度与方向的统计分析方法,用于双变量正态分布资料。

三、直线相关分析中的注意事项

(1) 进行相关分析要有实际意义;

(2) 相关分析前首先绘制散点图;

(3) Pearson相关分析适用双变量正态分布资料;

(4) 据公式计算出的r 仅是样本相关系数,它是总体相关系数ρ的估计值,必须作假设检验;

(5) r 接近 0 并不意味着两变量间一定无关;

(6) 不要把相关系数的假设检验结果误认为两事物或现象间相关的密切程度;

(7) 相关分析是用相关系数来描述两个变量间相关关系的密切程度和方向,决不可因为两事物间的相关系数有统

计学意义,就认为二者之间存在着因果关系,要证明两事物之间确定存在因果关系,必须凭借专业知识加以阐明。

直线回归(linear regression)是通过两个变量的数据资料求得两个变量间关系的直线回归方程,确定一条回

归直线,用以描述两个变量间变化的数量关系。

直线回归分析的注意事项

2两变量间的关系要有实际意义

2因变量必须服从正态分布

2回归方程的适用范围仅限于自变量的取值范围

2当两变量变化趋势为非线性时,应考虑拟合非线性回归方程

2判断总体是否存在直线回归关系,必须对回归

系数作假设检验;

直线相关与回归分析的关系

区别

1. 对资料的要求

相关分析:要求双变量正态分布

回归分析:因变量 Y 正态分布

自变量X 正态或控制

2. 分析内容

相关:反映两变量是否有直线关系

回归:反映两变量有什么样的直线关系

联系

1. 同一组资料的r 与b的正负符号一致,

且r =0时b =0;

2. 同一组资料的r和b的假设检验结果一致,

即t r = t b ;

统计表( statistical table )

从整理表中选出需要的资料,经过统计加工为各种指标后,列成对比分析的表格,包括研究对象及其统计指标两

部分。

1. 普通线图 ( line chart )

用线段的升降表示统计指标的变化趋势,或某现象随另一现象的变迁情况,适用于描述连续性资料。

2. 半对数线图(semi-logarithmic line chart)

?用于表示事物的发展速度,横轴为算术尺度,纵轴为对数尺度。

?当比较几组数据变化速度,尤其是两组数据相差悬殊时用半对数线图。

3. 直条图(bar chart)

用等宽直条的长短表示各统计量的大小,有单式和复式两种,适用于指标为各自独立的分类资料。

4. 直方图(histogram)

又称频数分布图,用各矩形的面积表示各组段的频数,各矩形面积的总和为总频数,用于连续

型资料的频数分布。

5. 百分条图(percentage bar chart)

用一个长条的面积表示事物全部,条内各段面积为相应部分所占的百分比,用于表示事物各组成部分的构

成比,用于构成比资料。

圆图(pie chart)

用圆的面积表示事物的全部,各扇形面积表示相应部分所占的百分比,用于表示事物各组成部分的构成比,用于构成比资料。

6. 散点图

适用于连续性双变量资料

7. 箱式图

用于比较两组或多组资料的集中趋势和离散趋势。

8.统计地图

表示某现象的数量在地域上的分布,根据指标大小和分级,采用不同密度的线条或不同的颜色,绘在地图上有助

于分析疾病的地理分布特征。

图形选择

比较相互独立资料数据的大小,选直条图;

反映构成比资料,选圆图或百分比条图;

连续性资料,研究动态变化趋势,选线图;比较变化发展速度,选半对数线图;

反映连续性资料的频数分布,选直方图;

双变量连续性资料,观察两个变量的变化趋势和相互关系,选散点图;

探索数据分布和比较分布,选箱式图。

医学统计学(来自百度文库)

第一章医学统计学中的基本概念

1医学统计学中的基本概念

变异:由众多的、偶然的、次要的因素造成的个体之间的差异称为变异。

总体:总体(population)指特定研究对象中所有观察单位的测量值。可分为有限总体和无限总

体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。

样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代

表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。

样本特性代表性随机性可靠性可比性

小概率事件:我们把概率很接近于0(即在大量重复试验中出现的频率非常低)的事件称为小概率事件。

P值:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。p值是将观察结果认为有效即具有总体代表性的犯错概率。一般结果≤0.05被认为是有统计学意义。

小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实验中是不会发生的,数学上称之小概率原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。

资料的类型

(1)计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为

计量资料(measurement data)。计量资料亦称定量资料、测量资料。.其变量值是定量的,表

现为数值大小,一般有度量衡单位。如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、

脉搏(次/分)、血压(KPa)等。

(2)计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料

(count data)。计数资料亦称定性资料或分类资料。其观察值是定性的,表现为互不相容的

类别或属性。如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效

的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。

(3)等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察

单位数,称为等级资料(ordinal data)。等级资料又称有序变量。如患者的治疗结果可分为治

愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别

却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等。

等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。

等级资料与计量资料不同:每个观察单位未确切定量,故亦称为半计量资料。

抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情

况下,总体参数是固定的常数,统计量是在总体参数附近波动的随机变量。

系统误差:由于测量仪器结构本身的问题、刻度不准确或测量环境改变等原因,在多次测量时所产生的,总是偏大或总是偏小的误差,称为系统误差。它带有规律性,经过校正和处理,通常可以减少或消除。

随机测量误差:在收集原始资料时,仪器由于各种偶然因素造成同一对象多次测定的结果不一致。

统计的步骤

医学统计工作的内容

1.实验设计:设计内容包括资料收集、整理和分析全过程总的设想和安排。设计是整个研

究中最关键的一环,是今后工作应遵循的依据。

2.收集资料:应采取措施使能取得准确可靠的原始数据。

3.整理资料:简化数据,使其系统化、条理化,便于进一步分析计算。

4.分析资料:计算有关指标,反映事物的综合特征,阐明事物的内在联系和规律。分

析资料包括统计描述和统计推断。

实验设计的基本原则

随机化原则、对照的原则(对照的类型,对照的设置)、重复的原则。

对照的类型空白对照实验对照标准对照

自身对照相互对照历史对照安慰剂对照

参数:参数(paramater)是指总体的统计指标,如总体均数、总体率等。总体参数

是固定的常数。多数情况下,总体参数是不易知道的,但可通过随机抽样抽取有代表性的样

本,用算得的样本统计量估计未知的总体参数。

统计量:统计量(statistic)是指样本的统计指标,如样本均数、样本率等。样本

统计量可用来估计总体参数。总体参数是固定的常数,统计量是在总体参数附近波动的随机

变量。

完全随机设计常用的几种实验设计方法:配对设计和完全随机设计

完全随机设计:完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。

配对设计:是将受试对象按一定条件配成对子,再随机分配每对中的两个受试对象到不同处理组。配对的因素是影响实验效应的主要非处理凶素。

第二章集中趋势的统计描述

频数表的制作步骤以及频数分布表的用途(问答题)

频数分布表的编制步骤:

例:某市1982年50名7岁男童的身高(cm)资料如下,试编制频数表。

114.4117.2122.7124.0114.0110.8118.2116.7118.9118.1

123.5118.3120.3116.2114.7119.7114.8119.6113.2120.0

119.8116.8119.8122.5119.7120.7114.3122.0117.0122.5

119.7124.9126.1120.0124.6120.0121.5114.3124.1117.2

120.2120.8126.6121.5126.1117.7124.1128.3121.8118.7

1、找出观察值中的最大值(largest value)、最小值(smallest value),求极差(range)。

极差等于最大值减最小值。本例最大值=128.3,最小值=110.8,则极差=128.3-110.8=17.5(cm )

2、确定分组数和组距(class interval)。

组数的多少是根据例数的多少来确定的,以能够反映出频数分布的特征为原则,一般分10—15组。组距为相邻两组的间隔,组距=极差/组数。本例拟分10组,则组距=17.5/10=1.75≈2,为划记方便,可取稍大或稍小的数(当然本例组距也可取1.5)。

3、确定组段。

第一组段包括要最小值,取较最小值稍小且划分方便的数,本例取“110~”。最后组段包括最大值并写出其上限值。

4、划记。

将各观察值以划“正”字的方法,一笔代表一例,划在相应组段中。例如第一个数l14.4应在组段“114~”处划,第二个数117.2应在“116~”处划,以此类推。

5、统计各组段的频数。全部数据划记完后,清点各组段的人数。

根据编制出的频数表即可了解该数值变量资料的频数分布特征。

频数分布表的用途

1、描述资料的分布特征和分布类型。

频数分布有两个重要特征:集中趋势和离散趋势。大部分观察值向某一数值集中的趋势称为集中趋势,常用平均

数指标来表示,各观察值之间大小参差不齐。频数由中央位置向两侧逐渐减少,称离散趋势,是个体差异所致,

可用一系列的变异指标来反映。

2、便于进一步计算有关指标或进行统计分析。当数据较多且需手工计算时,常先编制频数表,再进行统计计算。

3、发现特大、特小的可疑值。

如果频数表的一端或两端出现连续几个组段的频数为零后,又出现少数几个特大值或特小值,使人怀疑其是否准确,需进一步检查和核对并做相应处理。

4、据此绘制频数分布图。

描述数据分布集中趋势的指标和描述数据分布离散程度的指标

2.描述数据分布集中趋势的指标

掌握其意义、用途及计算方法。

算术均数

意义即均数,用于说明一组观察值的平均水平或集中趋势,是描述计量资料的常用方法。

计算方法直接法加权法

用途适用对称分布或偏度不大的资料,尤其适合正态分布资料。

几何均数、

描述按倍数关系变化的观察值这一类特殊资料。

计算方法

中位数。

百分位数(Px)只在一组数据中找到这样一个值,全部观察值得x%小于Px,其余的大于它。

用途描述资料的观察值序列在某百分位置的水平,中位数为其特例。

1.描述数据分布离散程度的指标

掌握其意义、用途及计算方法。

极差、(全距)观察值中最大值和最小值之差,

四分位数间距、把所有的观察值排序后,分成四个数目相等的段落,每个段落的观察值各占0.25,去两端的0。25,取中间的0.5的数据范围。

方差、

平均偏差,每个观察值与均数之差的绝对值相加然后取平均。

离均差平方和,每个观察值与均数之差的平方和。

方差离均差平方和再取平均,s 2=(x-x)|2(n-1)

标准差、方差取平方根,还原成与原始观察值单位相同的变异量度。

变异系数。相对指标,对均数相差较大或单位不同的几组观察值的变异程度进行比较。

正态分布的特征(考选择题υ、σ对图形的影响)

服从正态分布的变量的频数分布由υ、σ完全决定。

(1) υ 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以x =υ为对

称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ。

(2) σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数

据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲

线越瘦高。

标准正态分布

1.标准正态分布是一种特殊的正态分布,标准正态分布的υ 0 ,σ2 1 ,通常用u(或Z)表示服从标准正态分布的变量,记为υ~N(0,12)。

正态分布的应用

某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,

呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量

可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。

1. 估计频数分布一个服从正态分布的变量只要知道其均数与标准差就可根据公式

(3-2)估计任意取值(X1 ,X2 )范围内频数比例。

2. 制定参考值范围

(1)正态分布法适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态

分布的指标。

(2)百分位数法常用于偏态分布的指标。表3-1 中两种方法的单双侧界值都应熟练掌握。

3. 质量控制:为了控制实验中的测量(或实验)误差,常以X 2S作为上、下警戒值,

以X 3S 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。

4. 正态分布是许多统计方法的理论基础。t 检验、方差分析、相关和回归分析等多种统

计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,

但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布

为理论基础的。

医学参考值范围的制定(计算题)

概念(正常值范围)指正常人的解剖生理生化免疫及组织代谢产物的含量等各种数据的波动范围。制定方法

(1)从足够数量的正常人总体中抽样

(2)控制测量误差

(3)判定是否需要分组确定参考值范围

(4)决定单侧还是双侧

(5)选择合适的百分上限,最常用95%

(6)对资料的分布进行正态性检验

(7)根据资料的分配类型选定恰当的方法进行参考值范围的估计。

确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。

确定百分位点:一般取95%或99%。

抽样误差与假设检验

标准误的概念,计算公式。

标准误及σX:通常将样本统计量的标准差称为标准误。许多样本均数的标准差σX

称为均数的标准误(standard error of mean,SEM),它反映了样本均数间的离散程度,也反

映了样本均数与总体均数的差异,说明均数抽样误差的大小。

标准差与标准误不同:

(1)二者描述内容不同:前者个体变异;后者群体变异。

(2)二者与n样本含量关系不同:n很小时S不稳定,n足够大时S接近总体标准差;而S不变时,n接近无穷大时,标准误接近0。

(3)二者用途不同:S:描述观察值的离散程度/计算CV即变异系数/估计医学参考值范围/计算标准误;标准误:反映均数抽样误差大小/估计总体均数可信区间/用于假设检验。

t分布的图形特征及其与正态分布的区别

1.以0为中心,左右对称的单峰分布;

2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。

t分布

对应于每一个自由度ν,就有一条t分布曲线,每条曲线都有其曲线下统计量t的分布规律,计算较复杂。

t 分布与正态分布

t 分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t 分布峰值较低,而

尾部较高;③随自由度增大,t 分布趋近与标准正态分布;当n ? ¥时,t 分布的极限分布

是标准正态分布。

置信区间和参数估计(名解2选1)

置信区间,定义:是指由样本统计量所构造的总体参数的估计区间。

1、对于具有特定的发生概率的随机变量,其特定的价值区间------一个确定的数值范围(“一个区间”)。

2、在一定置信水平时,以测量结果为中心,包括总体均值在内的可信范围。

3、该区间包含了参数θ真值的可信程度。

4、参数的置信区间可以通过点估计量构造,也可以通过假设检验构造。

参数估计:指用样本指标值(统计量)估计总体指标值(参数)。参数估计有两种

方法:点估计和区间估计。

可信区间与参考值范围的不同点(简答)

假设检验的基本求解步骤及其注意事项。(两个考一个问答)

假设检验的基本步骤:

1.建立假设,确定检验水准α

假设有零假设(H0)和备择假设(H1)两个,零假设又叫作无效假设或检验假设。H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。

检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。

2.根据研究目的和设计类型选择适合的检验方法

这里的检验方法,是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。对双样本资料,要注意区分成组设计和配对设计的资料类型。如果资料里有"配成对子"字样,或者是对同一对象用两种方法来处理,一般就可以判定是配对设计资料。

3.确定P值并作出统计结论

u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。方差分析得到的是F统计量或称F值。将求得的统计量绝对值与界值相比,可以确定P值。

当α=0.05时,u值要和u界值1.96相比较,确定P值。如果u<1.96,则P>0.05.反之,如u>1.96,则P<0.05.t值要和某自由度的t界值相比较,确定P值。如果t值<t界值,故P>0.05.反之,如t>t界值,则P<0.05.

相同自由度的情况下,单侧检验的t界值要小于双侧检验的t界值,因此有可能出现算得的t值大于单侧t界值,

而小于双侧t界值的情况,即单侧检验显著,双侧检验未必就显著,反之,双侧检验显著,单侧检验必然会显著。即单侧检验更容易出现阳性结论。

当P>0.05时,接受零假设,认为差异无统计学意义,或者说二者不存在质的区别。当P<0.05时,拒绝零假设,接受备择假设,认为差异有统计学意义,也可以理解为二者存在质的区别。但即使检验结果是P<0.01甚至P <0.001,都不说明差异相差很大,只表示更有把握认为二者存在差异。

假设检验时应注意的事项

(一)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡性和资料的可比性。(二)根据现有的资料的性质、设计类型、样本含量大小正确选用检验方法。

(三)对差别有无统计学意义的判断不能绝对化,因检验水准只是人为规定的界限,是相对的。差别有统计学意

义时,是指无效假设h0被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒h0,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;同样,若不拒绝h0,可能产生第二类错误。(四)统计学上差别显著与否,与实际意义是有区别的。如应用某药治疗高血压,平均降低舒张压0.5kpa,并得

出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kpa是无临床意义。

因此要结合专业作出恰如其分的结论。

t检验

t分布特征

自由度ν越大,t分布越接近于正态分布;

当自由度ν逼近∞时,t分布趋向于标准正态分布。

自由度ν不同,曲线形态不同, t分布是一簇曲线。

t检验的应用条件和类型(填空)

t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。

t检验的类型:

单样本t检验,又称单样本均数t检验(one sample t test),适用于样本均数与已知总体均数μ0的比较,其比较

目的是检验样本均数所代表的总体均数μ是否与已知总体均数μ0有差别。

已知总体均数μ0一般为标准值、理论值或经大量观察得到的较稳定的指标值。

单样t检验的应用条件是总体标准σ未知的小样本资料( 如n<50),且服从正态分布。

检验步骤

1. 建立检验假设,确定检验水准

H0:μ=μ0,该地难产儿与一般新生儿平均出生体重相同;

H1:μ≠μ0,该地难产儿与一般新生儿平均出生体重不同;

α=0.05。

2. 计算检验统计量

在μ=μ0成立的前提条件下,计算统计量为:

3. 确定P值,做出推断结论

本例自由度=νn-1=35-1=34,查附表2,得t0.05/2,34=2.032。

因为t < t0.05/2,34,故P>0.05,表明差异无统计学意义,按α=0.05水准不拒绝H0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。,

配对t检验, 又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。

配对设计是将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理。

检验步骤

建立检验假设,确定检验水准

H0:μd=0,两种结核菌素的皮肤浸润反应总体平均直径差异为0;

H1:μd≠0,两种结核菌素的皮肤浸润反应总体平均直径差异不为0;

α=0.05。

计算检验统计量

先计算差值d及d2如上表第四、五列所示,本例∑d = 39,∑d 2 = 195。

先计算差数的标准差

计算差值的标准误

按公式计算,得:

配对t检验确定 P 值,作出推断结论

自由度计算为ν=n-1=n-1=12-1=11,查附表2,得t0.05(11) = 2.201,

t0.01(11) = 3.106,本例t > t0.01(11),

P < 0.01,差别有统计学意义,拒绝H0,接受H1,可认为两种方法皮肤浸润反应结果的差别有统计学意义。

两独立样本t 检验,又称成组 t 检验。

适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。

完全随机设计是将受试对象随机地分配到两组中,每组患者分别接受不同的处理,分析比较处理的效应。

两独立样本t检验要求两样本所代表的总体服从正态分布N(μ1,σ12)和N(μ2,σ22),且两总体方差σ12、σ22相等,即方差齐性。

建立检验假设,确定检验水准

H0:μ1=μ2,两种疗法治疗后患者血糖值的总体均数相同;H1:μ1≠μ2,两种疗法治疗后患者血糖值的总体均数不同;=α0.05。

计算检验统计

量 :

:

按公式计算,算得

代入公式,得

确定P值,作出推断结论

两独立样本t检验自由度为ν =n1+n2-2=12+13-2=23 查t界值表,t0.05(23)=2.069,t0.01(23)=2.807. 由于 t0.01(23)> t > t0.05(23),0.01 < P < 0.05,按α=0.05的水准拒绝H0,接受H1,差异有统计学意义。

故可认为该地两种疗法治疗糖尿病患者二个月后测得的空腹血糖值的均数不同。

第一类错误与第二类错误(名解考一个)

第七章相对数及其应用

分类资料的统计描述(几个常用相对数指标填空题)

率(强度相对数,频率相对数)、构成比、相对比

应用相对数时应注意的问题(问答题六条)

⑴计算相对数的分母一般不宜过小。

⑵分析时不能以构成比代替率。

⑶不能用构成比的动态分析代替率的动态分析。

⑷对观察单位数不等的几个率,不能直接相加求其总率。

⑸在比较相对数时应注意可比性。

⑹对样本率(或构成比)的比较应随机抽样,并做假设检验。

率的标准化的基本思想,应注意的问题(分析题)

率的标准化的基本思想:

要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。

标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调

整率),然后再进行比较。

二、直接标准化法的计算方法

当已知所比较资料各组率Pi,可选用直接法计算标化率。

三、间接标准化死亡比的计算方法

当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。

第八章 x2检验

配对与完全随机设计下的四格表的计算(考计算题)

四格表

公式选择

实例

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

预防医学 医学统计学部分选择题及答案

1.预防医学的对象(D ) A.个体 B.病人 C.健康人 D.确定的群体 E.个体和确定的群体 2.预防医学是(C ) A.独立于医学以外的学科 B.医学的基础学科 C.医学的一门应用学科 D.又综合又独立的学科 E.预防系列为主的学科 3.生态健康模式是( E ) A.环境-健康 B.环境-人群 C.环境-生物 D.环境-人群-健康 E.环境-生物-健康 4.预防医学经历了( C ) A.个体医学—群体—预防医学的阶段 B.个体—群体—生态大众健康的阶段 C.个体—群体—社区医学阶段 D.群体—大卫生—社会医学阶段 E.个体—群体—社会医学阶段 5.在疾病三级预防中,健康促进的重点在( A ) A.第一级预防甚至更早阶段 B.第二级预防 C.第三级预防 D.第二和第三级预防 E.第一和第二级预防 6.以下哪一项不是预防医学有别于临床医学的特点(A ) A.具有临床医学更大的人群健康效益 B.预防医学更具有积极的人群健康效益 C.预防医学研究重点为环境的特点 D.工作对象包括个体和群体 E.研究方法上注重微观和宏观结合 7.第一次卫生革命的主要任务是预防( A ) A.传染病 B.急性病 C.常见病 D.慢性病 E.血吸虫病 8.个体的免疫接种(A ) A.仅起到保护个体的作用 B.仅起到保护家庭的作用 C.仅起到保护群体的作用 D.既能保护个体也能保护群体 E.以上均不是 9.以下各项中不适合采取第一级预防的是(C ) A.职业病 B.心血管疾病 C.病因不明,难以觉察预料的疾病 D.脑卒中 E.糖尿病 10.健康促进的核心策略是(C ) A.制定健康的公共政策 B.创造支持性环境 C.强化社区行动 D.发展个人技能 E.调整社会消费

医学统计学最佳选择题

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学最佳选择题 医学统计学最佳选择题一、绪论医学统计学最佳选择题一、绪论 1.下面的变量中,属于分类变量的是 A.脉搏 B.血型C.肺活量 D.红细胞计数 E.血压 2.下面的变量中,属于数值变量的是 A.性别 B.体重 C.血型 D.职业 E.民族 3.下列有关个人基本信息的指标,其中属于有序分类变量的是 A.学历 B.民族 C.职业 D.血型 E.身高 4.若要通过样本作统计推断,样本应是 A.总体中典型的一部分 B.总体中任意部分C.总体中随机抽取的一部分 D.总体中选取的有意义的一部分E.总体中信息明确的一部分 5. 统计量是指 A.是统计总体数据得到的量 B.反映总体统计特征的量 C.是根据总体中的全部数据计算出的统计指标 D.是用参数估计出来的量 E.是由样本数据计算出来的统计指标 6.下列关于概率的说法,错误的是 A.通常用 P 表示 B.大小在 0~1 之间 C.某事件发生的频率即概率 D.在实际工作中,概率是难以获得的 E.某事件发生的概率 P0.05 时,称为小概率事件。 7.减少抽样误差的有效途径是 A.避免系统误差 B.控制随机测量误差 C.增大样本含量 D.减少样本含量 E.以上都不对二、定量资料的统计描述 1.用均数和标准差能用于全面描述下列哪种资料的特征 A.正偏态分布 B.负偏态分布 C.正态分布 D.对数正态分布 E.任意分布 2.当各观察值呈倍数变 1 / 13

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学基本概念

习题-医学统计学基本概念 选择题: 1. 若以舒张期血压大于等于1 2.7kPa 为为高血压,调查某地1000 人,记录每人是否患有高血压。最后清点结果,其中有10 名高血压患者,有990 名非高血压患者。() A.这是计量数据 B.这是等级数据 C.还看不出是记数还是计量数据 D.这是连续型数据 E.这是计数数据 2、统计学中所说的样本是指() A.随意抽取的总体中任意的部分 B.有意识的选择总体中的典型部分 C.依照研究者要求选取总体中有意义的一部分 D.依照随机原则抽取总体中有代表性的一部分 E.按研究目的随意抽取有代表性的一部分 3、下列资料属等级资料的是() A.白细胞计数 B.住院天数 C.门、急症就诊人数 D.病人的病情分级(轻、中、重) E.疾病疗效(有效、无效) 4、总体是由() A.个体组成 B.研究对象组成 C.同质个体组成 D.研究指标组成 E.观察单位组成 5、抽样的目的是() A.研究样本统计量 B.由样本统计量推断总体参数 C.研究典型案例研究误差 D.研究总体参数 E.研究样本特征 6、参数是() A.参与个体数 B.总体的统计指标 C.样本的统计指标 D.样本的总和 E.参考值范围 7、关于随机抽样,下列哪一项说法是正确的() A.抽样时应使得总体中的每一个个体都有同等的机会被抽取 B.研究者在抽样时应精心挑选个体,以使样本更能代表总体 C.随机抽样即随意抽样个体 D.为确保样本具有更好的代表性,样本量应越大越好 E.以上均不对 8、统计工作各个步骤的首要基础是() A.收集资料 B.整理资料 C.核对资料 D.分析资料 E.医学研究设计 9、统计工作的基本步骤是:() A.调查资料、核对资料、整理资料 B调查资料、归纳资料、整理资料 C收集资料、核对资料、整理资料

预防医学 医学统计学部分选择题及答案

1.预防医学的对象(D ) A.个体B.病人C.健康人 D.确定的群体E.个体和确定的群体 2.预防医学是(C ) A.独立于医学以外的学科B.医学的基础学科 C.医学的一门应用学科D.又综合又独立的学科E.预防系列为主的学科 3.生态健康模式是( E ) A.环境-健康B.环境-人群C.环境-生物 D.环境-人群-健康E.环境-生物-健康 4.预防医学经历了( C ) A.个体医学—群体—预防医学的阶段 B.个体—群体—生态大众健康的阶段C.个体—群体—社区医学阶段 D.群体—大卫生—社会医学阶段E.个体—群体—社会医学阶段 5.在疾病三级预防中,健康促进的重点在( A ) A.第一级预防甚至更早阶段B.第二级预防C.第三级预防 D.第二和第三级预防E.第一和第二级预防 6.以下哪一项不是预防医学有别于临床医学的特点(A ) A.具有临床医学更大的人群健康效益B.预防医学更具有积极的人群健康效益C.预防医学研究重点为环境的特点D.工作对象包括个体和群体 E.研究方法上注重微观和宏观结合 7.第一次卫生革命的主要任务是预防( A ) A.传染病B.急性病C.常见病 D.慢性病E.血吸虫病 8.个体的免疫接种(A ) A.仅起到保护个体的作用B.仅起到保护家庭的作用 C.仅起到保护群体的作用D.既能保护个体也能保护群体 E.以上均不是 9.以下各项中不适合采取第一级预防的是(C ) A.职业病B.心血管疾病C.病因不明,难以觉察预料的疾病 D.脑卒中E.糖尿病 10.健康促进的核心策略是(C ) A.制定健康的公共政策B.创造支持性环境 C.强化社区行动D.发展个人技能E.调整社会消费

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

预防医学 医学统计学部分选择题及答案

1.预防医学的对象(D ) A.个体B.病人 C.健康人 D.确定的群体E.个体和确定的群体 2.预防医学是(C ) A.独立于医学以外的学科 B. 医学的基础学科 C.医学的一门应用学科 D.又综合又独立的学科 E.预防系列为主的学科 3.生态健康模式是(E) A.环境-健康 B.环境-人群 C.环境-生物 D.环境-人群-健康 E.环境-生物-健康 4.预防医学经历了( C ) A.个体医学—群体—预防医学的阶段 B.个体—群体—生态大众健康的阶段 C.个体—群体—社区医学阶段 D.群体—大卫生—社会医学阶段E.个体—群体—社会医学阶段 5.在疾病三级预防中,健康促进的重点在( A ) A.第一级预防甚至更早阶段 B.第二级预防C.第三级预防 D.第二和第三级预防E.第一和第二级预防 6.以下哪一项不是预防医学有别于临床医学的特点(A ) A.具有临床医学更大的人群健康效益 B.预防医学更具有积极的人群健康效益C.预防医学研究重点为环境的特点 D.工作对象包括个体和群体 E.研究方法上注重微观和宏观结合 7.第一次卫生革命的主要任务是预防( A ) A.传染病 B.急性病 C.常见病 D.慢性病 E.血吸虫病 8.个体的免疫接种(A ) A.仅起到保护个体的作用 B.仅起到保护家庭的作用 C.仅起到保护群体的作用 D.既能保护个体也能保护群体 E.以上均不是 9.以下各项中不适合采取第一级预防的是(C ) A.职业病 B.心血管疾病 C.病因不明,难以觉察预料的疾病 D.脑卒中 E.糖尿病 10.健康促进的核心策略是(C ) A.制定健康的公共政策 B.创造支持性环境 C.强化社区行动 D.发展个人技能 E.调整社会消费

医学统计学最佳选择题

医学统计学最佳选择题 一、绪论 1、下面的变量中,属于分类变量的就是 A、脉搏 B、血型 C、肺活量 D、红细胞计数 E、血压 2、下面的变量中,属于数值变量的就是 A、性别 B、体重 C、血型 D、职业 E、民族 3、下列有关个人基本信息的指标,其中属于有序分类变量的就是 A、学历 B、民族 C、职业 D、血型 E、身高 4、若要通过样本作统计推断,样本应就是 A、总体中典型的一部分 B、总体中任意部分 C、总体中随机抽取的一部分 D、总体中选取的有意义的一部分 E、总体中信息明确的一部分 5、统计量就是指 A、就是统计总体数据得到的量 B、反映总体统计特征的量 C、就是根据总体中的全部数据计算出的统计指标 D、就是用参数估计出来的量 E、就是由样本数据计算出来的统计指标 6、下列关于概率的说法,错误的就是 A、通常用P表示

B、大小在0~1之间 C、某事件发生的频率即概率 D、在实际工作中,概率就是难以获得的 E、某事件发生的概率P≤0、05时,称为小概率事件。 7、减少抽样误差的有效途径就是 A、避免系统误差 B、控制随机测量误差 C、增大样本含量 D、减少样本含量 E、以上都不对 二、定量资料的统计描述 1.用均数与标准差能用于全面描述下列哪种资料的特征 A、正偏态分布 B、负偏态分布 C、正态分布 D、对数正态分布 E、任意分布 2.当各观察值呈倍数变化(等比关系)时,平均数宜用 A、均数 B、几何均数 C、中位数 D、相对数 E、四分位数间距 3、某医学资料数据大的一端没有确定数值,描述其集中趋势适用的 统计指标就是 A、M B、G C、X D、P95 E、CV 4、对于正态分布的资料 ,理论上 A、均数比中位数大

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

预防医学与医学统计学总结

绪论 一.预防医学:是医学的一门应用学科,它以个体和确定的群体为对象,目的是保护、促 进和维护健康,预防疾病、失能和早逝 二.预防医学特点: 1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系; 3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境 3.个人因素。 4 卫生服务。 四.三级预防策略: 1.第一级预防:又称病因预防,即防止疾病的发生。 2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发 展和恶化。 3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化, 预防并发症和伤残,延长生命。 第一章流行病学概论 一.流行病学:是研究人群中疾病与健康状况的分布及其影响因素,并研究防治疾病及促 进健康的策略和措施的科学。 流行病学定义内涵: 1.流行病学的研究对象时人群。 2.流行病学关注的事件包括疾病与健康 状况。 3.流行病学主要研究内容是:(1)揭示现象(2)找出原因(3)评价效果。 4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理: 1.分布论。 2.病因论。3.健康-疾病连续带。4预防控制理论(三级 预防理论) 5.数理模型。 6.流行病学的几个基本原则:(1)群体原则(2)现场原则( 3)对比原则(核心)( 4)代表性原则 三.流行病学的用途: 1.描述疾病及健康状况的分布。 2.探讨疾病的病因。 3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。 4.疾病的预防控制及其效果评价。 5.流行病学分支。 第二章疾病分布 一.疾病的分布:即疾病的群体现象或称疾病的三间分布,是指疾病在时间、空间和人间 的存在方式及其发生、发展规律。 1 年)特定群中某病新病例二.疾病分布的测量指标:1.发病率:指在一定期间内(一般为 出现的频率。 2.罹患率:与发病率一样,也是测量人群新病例发生频率的指标。使用与小范围、短时间内 疾病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 3 患病率:也称现患率,指某特定时间内,总人口中现患某病者(包括新、旧病例)所占的 比例。患病率 =发病率 * 病程。 4 续发率:也称二代发病率,指某传染病易感接触者中,在最短潜伏期与最长潜伏期之间 发病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年)内,某人群中死于某病(或死于所有原因)的频 率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期内,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布” ) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入, 只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访 观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:( 1)该病在当地居住的各群组中

医学统计学最佳选择题

医学统计学最佳选择 一、绪论 1. 下面的变量中,属于分类变量的是 A. 脉搏 B. 血型 C. 肺活量 D. 红细胞计数 E. 血压 2. 下面的变量中,属于数值变量的是 A. 性别 B. 体重 C. 血型 D. 职业 E. 民族 3. 下列有关个人基本信息的指标,其中属于有序分类变量的是 A. 学历 B. 民族 C. 职业 D. 血型 E. 身高 4. 若要通过样本作统计推断,样本应是 A. 总体中典型的一部分 B. 总体中任意部分 C. 总体中随机抽取的一部分 D. 总体中选取的有意义的一部分 E. 总体中信息明确的一部分 5. 统计量是指

A. 是统计总体数据得到的量 B. 反映总体统计特征的量 C. 是根据总体中的全部数据计算出的统计指标 D. 是用参数估计出来的量 E. 是由样本数据计算出来的统计指标 6. 下列关于概率的说法,错误的是 A. 通常用P 表示 B. 大小在0?1之间 C .某事件发生的频率即概率 D. 在实际工作中,概率是难以获得的 E. 某事件发生的概率P< 0.05时,称为小概率事件。 7. 减少抽样误差的有效途径是 A. 避免系统误差 B. 控制随机测量误差 C. 增大样本含量 D. 减少样本含量

E. 以上都不对 二、定量资料的统计描述 1用均数和标准差能用于全面描述下列哪种资料的特征 A. 正偏态分布 B. 负偏态分布 C. 正态分布 D.对数正态分布 E. 任意分布 2. 当各观察值呈倍数变化(等比关系)时,平均数宜用 A.均数 B.几何均数 C.中位数 D.相对数 E.四分位数间距 3. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. M B. G C. X D. P95 E. CV 4. 对于正态分布的资料,理论上 A.均数比中位数大 B. 均数比中位数小 C. 均数等于中位数 D. 均数与中位数无法确定孰大孰小 E. 以上说法均不准确 5. 当资料两端含有不确定值时,描述其变异度宜采用

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

预防医学及医学统计学总结

绪论 一?预防医学:是医学的一门应用学科,它以个体和确定的群体为对象,目的是保护、促进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1?工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3?采取的对策 更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质 环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2?第二级预防:在 疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发 展和恶化。3?第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 一?流行病学]:是研究人群中疾病与健康状况的分布及其影响因素,并研究防治疾病及促进健康的策略和措施的科学。流行病学定义内涵:1.流行病学的研究对象时人群。2?流行病学关注的事件包括疾病与健康 状况。3?流行病学主要研究内容是:(1)揭示现象(2)找出原因(3)评价效果。4?流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1?分布论。2.病因论。3?健康-疾病连续带。4预防控制理论(三级预防理论)5?数理模型。6?流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2?探讨疾病的病因。3?研究疾病自然史,提高临床诊断、治疗水平和预后评估。4?疾病的预防控制及其效果评价。5?流行病学分支。 第二章疾病分布 一.疾病的分布即疾病的群体现象或称疾病的三间分布,是指疾病在时间、空间和人间的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间内(一般为1年)特定群中某病新病例 出现的频率。 2?罹患率|:与发病率一样,也是测量人群新病例发生频率的指标。使用与小范围、短时间内疾病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 3患病率|:也称现患率,指某特定时间内,总人口中现患某病者(包括新、旧病例)所占的比例。患病率=发病率*病程。 4续发率I:也称二代发病率,指某传染病易感接触者中,在最短潜伏期与最长潜伏期之间发病的人数占所有易感接触者总数的百分率。 5?死亡率:指在一定时间期间(通常为1年)内,某人群中死于某病(或死于所有原因)的 频率。死亡率是测量入群死亡危险最常用的指标。 6?病死率:表示一定时期内,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1?地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2?时间分布 3?人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组中 发病率均高,并随年龄增长而上升。(2)在其他地区居住的相似的人群组中,该病的发病率 均低,甚至不发病(3)外来的健康人,到达当地一定时间后发病,其发病率逐渐与当地具名接近(4)迁出该地区的

医学统计学试题及答案

第一套试卷及参考答案 一、选择题(40分) 1、根据某医院对急性白血病患者构成调查所获得的资料应绘制( B ) A 条图 B 百分条图或圆图C线图D直方图 2、均数和标准差可全面描述 D 资料的特征 A 所有分布形式B负偏态分布C正偏态分布D正态分布和近似正态分布 3、要评价某市一名5岁男孩的身高是否偏高或偏矮,其统计方法是(A ) A 用该市五岁男孩的身高的95%或99%正常值范围来评价 B 用身高差别的假设检验来评价 C 用身高均数的95%或99%的可信区间来评价 D 不能作评价 4、比较身高与体重两组数据变异大小宜采用(A ) A 变异系数 B 方差 C 标准差 D 四分位间距 5、产生均数有抽样误差的根本原因是( A ) A.个体差异 B. 群体差异 C. 样本均数不同 D. 总体均数不同 6. 男性吸烟率是女性的10倍,该指标为(A ) (A)相对比(B)构成比(C)定基比(D)率 7、统计推断的内容为( D ) A.用样本指标估计相应的总体指标 B.检验统计上的“检验假设” C. A和B均不是 D. A和B均是 8、两样本均数比较用t检验,其目的是检验( C ) A两样本均数是否不同B两总体均数是否不同C两个总体均数是否相同D两个样本均数是否相同 9、有两个独立随机的样本,样本含量分别为n1和n2,在进行成组设计资料的t检验时,自由度是(D ) (A)n1+ n2(B)n1+ n2–1 (C)n1+ n2 +1 (D)n1+ n2 -2 10、标准误反映(A ) A 抽样误差的大小 B总体参数的波动大小 C 重复实验准确度的高低 D 数据的离散程度 11、最小二乘法是指各实测点到回归直线的(C) A垂直距离的平方和最小B垂直距离最小C纵向距离的平方和最小D纵向距离最小 12、对含有两个随机变量的同一批资料,既作直线回归分析,又作直线相关分析。令对相关系数检验的t值为t r,对回归系数检验的t值为t b,二者之间具有什么关系?(C) A t r>t b B t rχ20.05,ν可认为(A ) A各总体率不同或不全相同 B各总体率均不相同C各样本率均不相同 D各样本率不同或不全相同 15、某学院抽样调查两个年级学生的乙型肝炎表面抗原,其中甲年级调查35人,阳性人数4人;乙年级调查40人,阳性人数8人。该资料宜选用的统计方法为( A ) A.四格表检验 B. 四格表校正检验 C t检验 D U检验 16、为调查我国城市女婴出生体重:北方n1=5385,均数为3.08kg,标准差为0.53kg;南方n2=4896,均数为3.10kg,标准差为0.34kg,经统计学检验,p=0.0034<0.01,这意味着(D ) A 南方和北方女婴出生体重的差别无统计学意义 B 南方和北方女婴出生体重差别很大

医学统计学总复习练习题(含答案)

一、最佳选择题 1.卫生统计工作的步骤为C A.统计研究调查、搜集资料、整理资料、分析资料 B.统计资料收集、整理资料、统计描述、统计推断 C.统计研究设计、搜集资料、整理资料、分析资料 D.统计研究调查、统计描述、统计推断、统计图表 E.统计研究设计、统计描述、统计推断、统计图表 2.统计分析的主要内容有D A.统计描述和统计学检验 B.区间估计与假设检验 C.统计图表和统计报告 D.统计描述和统计推断 E.统计描述和统计图表 3.统计资料的类型包括E A.频数分布资料和等级分类资料 B.多项分类资料和二项分类资料 C.正态分布资料和频数分布资料 D.数值变量资料和等级资料 E.数值变量资料和分类变量资料 4.抽样误差是指B A.不同样本指标之间的差别 B.样本指标与总体指标之间由于抽样产生的差别 C.样本中每个体之间的差别 D.由于抽样产生的观测值之间的差别 E.测量误差与过失误差的总称 5.统计学中所说的总体是指B

A.任意想象的研究对象的全体 B.根据研究目的确定的研究对象的全体 C.根据地区划分的研究对象的全体 D.根据时间划分的研究对象的全体 E.根据人群划分的研究对象的全体 6.描述一组偏态分布资料的变异度,宜用D A.全距 B.标准差 C.变异系数 D.四分位数间距 E.方差 7.用均数与标准差可全面描述其资料分布特点的是C A.正偏态分布 B.负偏态分布 C.正态分布和近似正态分布 D.对称分布 E.任何分布 8.比较身高和体重两组数据变异度大小宜采用A A.变异系数 B.方差 C.极差 D.标准差 E.四分位数间距 9.频数分布的两个重要特征是C A.统计量与参数 B.样本均数与总体均数 C.集中趋势与离散趋势 D.样本标准差与总体标准差 E.样本与总体 10.正态分布的特点有B A.算术均数=几何均数 B.算术均数=中位数 C.几何均数=中位数 D.算术均数=几何均数=中位数 E.以上都没有 11.正态分布曲线下右侧5%对应的分位点为D

常用医学统计学方法的选择

常用医学统计学方法的选择 1. 多组率的比较用卡方检验(χ2检验,chi-square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。 2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<0.05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验(适用于k-1个实验组与一个对比组均数差别的多重比较)。 3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和Friedman 检验) 4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。 ②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t 检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

医学统计学基本概念[资料]

医学统计学基本概念 1.医学统计学是以医学理论为指导,应用概率论与数理统计的有关原理和方法,研究医学资料的搜集、整理、分析和推断的一门应用科学。 2.统计工作的步骤:(1)设计(2)收集资料(3)整理资料(4)分析资料;或者分三步:(1)研究设计(2)资料分析(3)结论。 3.定量资料:又称为数值变量资料,特点:(1)各观察值之间有量的差别;(2)数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo) 上的一切值。 4.定性资料:又称为分类资料、分类变量资料(包括二项分类、多项分类资料),特点:(1)各观察值之间有质的差别;(2)数据间有离散性。它是指变量的取值有 限的,至多是可列多个。附:无序分类:二项分类、多项分类 5.等级资料:又称为半定量资料,有序分类,指各类之间有程度的差别。特点:()各观察单位间或者相同,或者存在质的差别;(2)各等级间只有顺序,而无数值 大小,故等级之间不可度量。 6.个体individual:即每个观察单位。 7.总体population:根据研究目的确定的同质观察单位的全体。 8.样本:是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。 9.参数parameters:描述某总体特征的统计指标称为总体参数,简称参数。如总体均数、总体标准差等。特点:参数是未知的,固有的,不变的! 10.统计量:描述某样本特征的的统计指标称为样本统计量,简称统计量。特点:统计量是已知的,变化的,有误差的! 11.概率probability:是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间。 12.随机事件:(1)可重复性:相同条件下可重复进行;(2)随机性:出现两种机两种以上结果;(3)偶然性:实验前不能肯定将出现哪种结果。 13.频率的稳定性:在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。 14.概率的统计定义:频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概 率(probability),记作P(A) 或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。 15.小概率原理:当某事件发生的概率小于或等于0.05时,统计学通常称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能 发生,此即为小概率原理。 16.同质(homogeneity):性质相同的事物称为同质的。 17.变异(variation):同质的事物内个体之间或同一个体重复测量间的差别称为变异。 18.参考值范围(reference interval)又称正常值范围(normal range)。由于正常人的形态、功能、生化等各种指标的数据因人而异,而且同一个人的某些指标还会随着时间、 机体内外环境的改变而变化,因此需要确定其波动范围,即正常值范围,简称正常值(normal value)。 19.正常值范围(normal ranges),是指绝大多数正常人的某指标范围。 20.抽样误差(sampling error):由于抽样造成的样本统计量和总体参数之间的差异。 21.标准误(standard error):样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。 22.参数估计:由样本信息估计总体参数称为参数估计,包括点估计和区间估计。 23.点估计(point estimation) :直接用样本统计量作为总体参数的估计值。这种估计方法简单,但未考虑抽样误差的大小。 24.区间估计(interval estimation) :按一定的概率或可信度(1-α)用一个区间估计总体参数所在范围,这个范围称作可信度为1-α的可信区间(confidence interval, CI),又 称置信区间。这种估计方法称为区间估计。 25.可信度为1-α的可信区间的确切涵义是:每100个样本所算得的100(1-α)%可信区间,平均有100(1-α)个包含了总体参数。如取α=0.05,则每100个样本所算得 的100个95%可信区间,平均有95个包含总体参数在内,有5个不包含总体参数。 26.可信区间的两个要素:第一个要素是可靠性,常用可信度1-α的大小表示;第二个要素是精确性,常用可信区间的长度CU-CL衡量。 27.均数95%可信区间,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按(见课本P42)构建可信区间,则在此100个可信区间内, 理论上有95个包含总体均数,而有5个不包含总体均数。 28.可信度为95%的CI的涵义:每100个样本,按同样方法计算95%的CI,平均有95%的CI包含了总体参数。这里的95%,指的是方法本身!而不是某个区间! 29.第一类错误(I型错误):拒绝了实际上成立的H0假设,称为“假阳性”, 用α来表示。 30.第二类错误(II型错误):不拒绝实际上不成立的H0,称为“假阴性”,用β来表示。 31.检验效能(power of a test)或检验功效:1-β称检验效能(power of a test),过去称把握度。为当两总体确有差异,按检验水准α所能发现该差异的能力。1-β只取单 尾。 32.完全随机设计:根据某一试验因素,将试验对象完全按随机设计分为若干个组,每个组的样本例数可以相等,也可以不等,分别求出各组试验结果的均数,即为 单因素多个样本均数,单个因素可以有多个水平,R>2 33.随机区组设计又称配伍组设计(Random Block Design):即两因素多个样本均数的比较(或称两因素方差分析,two way analysis of variance)。 34.绝对数:在计数资料中,各组的观察数称绝对数。 35.相对数:是两个有联系的指标的比,计数资料的统计描述主要是相对数(relative number)。 36.率(rate):说明某现象发生的频率或强度,常用%、‰、1/万、1/10万等作单位,表示在一定范围内,某现象的发生数与可能发生某现象的总数之比。率的结果常 以保留1-2位整数为宜。

相关文档
相关文档 最新文档