文档库 最新最全的文档下载
当前位置:文档库 › 定性资料的统计描述

定性资料的统计描述

定性资料的统计描述
定性资料的统计描述

第五章 定性资料的统计描述

在医学研究与实践中,大量资料都是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。如性别、HIV 感染情况、病情轻重等都属于分类资料。对于这类资料,其绝对数往往不便于进行相互比较。例如甲医院某年因某病死亡105人,同年乙医院因该病死亡185人。但不能据此认为乙医院该病的死亡情况比甲医院严重,因为两医院因该病住院的人数不一定相等,此时需要采用相对数指标进行统计描述。

第一节 常用相对数及其应用

相对数是两个有关联的数值之比,常用的相对数指标有率、构成比和相对比三种。

一、率

率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。根据计算公式中分母的观察单位总数是否引入时间因素,率包括频率和速率两类指标。

频率(frequency)计算中,分母没有引入时间因素,无时间量纲,分子是分母的一部分,其取值在0~1之间,如常见的发病率、患病率、病死率、治愈率等指标,都属于频率型指标,其实质是比例,在流行病学中也常称为累积发生率。其计算公式可表达为:

K =

?同时期实际发生某现象的观察单位数

频率某时期可能发生某现象的观察单位总数

(5.1)

式中,K 为比例基数,可以是100%、1000‰、100000/10万等。比例基数的选择主要根据习惯用法或使计算结果保留1~2位整数,以便阅读。

例5.1 为研究吸烟与肺癌的关系,某医生收集了2003~2005年286例住院肺癌患者的吸烟史,吸烟的肺癌患者有166例,而同时期同年龄段的1855名非肺癌患者中,吸烟的有407例。试计算该资料中肺癌患者与非肺癌患者的吸烟率。

由式(5.1),肺癌患者的吸烟率=166/286100%=58.04%?,非肺癌患者吸烟率

=407/1855100%=21.94%?,肺癌患者的吸烟率比非肺癌患者的吸烟率高36.1%。

速率(rate)是带有时间因素的频率,根据数理统计的定义是指随时间变化而

改变的速度,此处取其某现象在单位时间内的发生频率之意。如肿瘤患者的5年生存率;根据追踪随访资料计算的死亡率;年(月、季)发病率等指标,都包含有时间因素,在流行病学中也称为发生密度。速率具有量纲,取值范围是[+∞,0),其计算公式可表达为:

K =

?观察时段内某现象的发生数

速率可能发生某现象的观察人时数

(5.2)

式中的比例基数K 与式(5.1)相同。

例5.2 在一项随访研究中,对125人追踪随访了2年,结果有2人发生了死亡,则由式(5.2)可得,

2

100%=0.8%1252

??年死亡率=

二、构成比

构成比(proportion)即比例,是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,用以说明事物内部各组成部分所占的比重,常用百分数表示。计算公式为:

%100?=

观察单位总数

同一事物各组成部分的位数

某一组成部分的观察单构成比 (5.3)

例5.3 某医院2003年各科室收治住院患者的构成情况如表5.1所示。外科患者的构成比为1133/2826×100% = 40.09%,在各科室中所占比重最大;其次是内科患者,其构成比为850/2826×100% = 30.08%;接下来依次是妇科和儿科,分别占了15.04%和14.79%,各科室合计构成比为100%。

表5.1 某医院2003年各科室收治住院患者的构成情况 内 科 850 30.08 外 科 1133 40.09 妇 科 425 15.04 儿 科 418 14.79 合 计

2826

100.00

构成比具有以下特点:① 分子是分母的一部分,各组成部分构成比数值在0~1之间波动,各组成部分的构成比数值之和等于1或100%。② 事物内部各组成部分之间呈此消彼长,当其中某一组成部分构成比数值增大,其他组成部分构

成比数值必然会减少。例如在一定数量的人口性别构成中,若男性比例增加,则女性比例减少。

三、相对比

相对比简称比(ratio),是两个有关联的指标之比值,用以说明一个指标是另一个指标的几倍或几分之几。如前面讲到的变异系数、流行病学中常用的相对危险度、人口学研究中常用到的性别比等都属于相对比。相对比的分子和分母可以是绝对数、相对数或平均数,计算公式为:

%)100(?=

或乙指标

甲指标

相对比 (5.4)

根据其分子与分母的关系,相对比也可取分为:① 关系指标:指两个有关的非同类事物的指标,如医护人员与病床数之比,住院日数与床位数之比等。②对比指标:指同类事物的两个指标之比,以达到比较的目的。如2000年我国出生性别比为116.9,说明2000年我国男性出生人数比女性高,男、女性别比有所失衡。又如同时期不同人群的某病发病率之比,以说明该时期不同人群的发病情况。

例5.4 为了解新生儿的锌的营养状况,分别测量某医院足月儿以及早产儿的脐血血清锌含量,结果显示足月儿及早产儿的脐血血清锌含量的均数分别为1.85 mg/L 和1.41 mg/L ,则该医院足月儿与早产儿的脐血血清锌含量之比为1.85/1.41=1.31,即该医院足月儿脐血血清锌含量是早产儿的1.31倍。

在流行病学研究中,常用的相对危险度(RR )和比值比(OR )都属于相对比指标。

相对危险度(relative risk, RR ) 是指暴露于某种危险因素的观察对象的发病危险度与低暴露或非暴露的观察对象的发病危险度之间的比值。相对危险度常用于流行病学队列研究中,用来度量暴露的危险性大小。其计算可用暴露与低暴露(或非暴露)于危险因素的累积发病率或发病密度()p 估计:

12p RR p =

暴露组发病率()

相对危险度()低暴露(或非暴露)组发病率()

(5.5) 例5.5 某锡矿为了解一线作业对工人健康的影响,对1000名新参加工作的工人进行了20年的追踪随访,结果发现从事一线作业的680名工人有5人发生了肺癌,而从事非一线作业的320名工人仅1人发生了肺癌。试估计该锡矿一线

作业对肺癌的相对危险度。

一线作业工人肺癌的发病率1=5/680 =73.53/p 万;非一线作业工人肺癌的发病率2=1/320=31.25/p 万。

1273.53/ 2.3531.25/p RR p =

== 一线作业工人发病率()万

相对危险度()非一线作业工人发病率()万

可见,该锡矿一线作业工人发生肺癌的危险是非一线作业工人的2.35倍。

比值比(odds ratio, OR ),又称优势比,是指病例组有无暴露于某危险因素的比值与对照组有无暴露于同一危险因素的比值之比,常用于流行病学病例对照研究中,以度量暴露的危险性。计算公式:

//a c ad OR b d bc

=

==病例组暴露的比值比值比()对照组暴露的比值 (5.6)

式中,a 为病例组中暴露的人数;b 为对照组中暴露的人数;c 为病例组中未暴露的人数;d 为对照组中未暴露的人数。

例5.6 某中学发生一起因饮水引起的甲型肝炎(甲肝)爆发,经调查发现,该校部分学生有生饮自来水的习惯,34名甲肝患者中有22人生饮自来水;而1449名健康学生中,生饮自来水的有255人,结果见表5.2。试估计该中学甲肝发病与生饮自来水的比值比。

表5.2 甲肝与生饮自来水的病例对照研究结果

暴露或特征 病例组 对照组 合计 生饮自来水 22(a ) 255(b ) 277(a+b ) 未生饮自来水

12(c ) 1194(d ) 1206(c+d ) 合计

34(a+c )

1449(b+d )

1483(N )

22/12

8.58255/1194

ad OR bc =

===病例组暴露的比值比值比()对照组暴露的比值

由此可见,甲肝患者生饮自来水与未生饮自来水的比值是健康学生的8.58倍。

第二节 应用相对数的注意事项

一、计算相对数应有足够的观察单位数

计算相对数时,应注意观察的单位数不能太小。必须要有足够的观察单位数作为分母,计算的率才是稳定的。例如临床试验中用某种疗法治疗2例患者,1例有效,则认为有效率是50%;如果2例都有效,则有效率是100%,可见相差1例其有效率波动非常大。因此,观察单位数少时,建议采用绝对数表示结果,如果必须要用相对数表示,应同时列出率的置信区间。但通常认为,在设计周密、质量控制严格的动物实验中,观察数量相对较少时所得的相对数指标也较为稳定。

二、分析时不能以构成比代替率

构成比说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小。在实际应用中,错误地将构成比当成率来应用,常导致一些不合理的推论。例如在对某月交通事故的数据进行分析后发现,在发生交通事故的车辆中,高速行驶的占31%,中速行驶的占56%,低速行驶的占13%。据此认为,中速行驶的车辆最容易发生交通事故,这明显与常识不符。产生此错误的原因是将发生交通事故的车辆的不同速度构成当成不同速度行驶车辆的事故发生率,由于实际生活中以中速行驶的车辆较多,所以中速行驶车辆的事故发生数构成比较大。车辆事故发生率应该是事故发生数与行驶的车辆数之比。

在医学研究中这种情况也常出现,常见的错误是采用门诊患者或住院患者的资料来分析疾病与年龄、性别、职业等的关系,这种资料所计算的相对数指标通常是构成比,不能当作率来分析。例如,某医师根据门诊资料分析慢性支气管炎与年龄的关系,如表5.3所示:

表5.3 门诊慢性支气管炎患者的年龄构成

年龄组(岁) 患者人数患者构成比(%) 0~ 48 19.4

20~ 74 29.8

40~ 87 35.1

60~ 39 15.7

合计248 100.0 表中“患者构成比”一栏,仅说明各年龄组患者所占的比重,只能计算构成比指标,不能反映各年龄组的患病水平,不能由40~59岁组构成比最高而得出该年龄组最容易患慢性支气管炎的结论。因为各年龄组的人口数、就诊机会等因素

都会影响门诊患者的年龄构成,若要分析慢性支气管炎患病率与年龄的关系,只能通过对一般人群的调查才能了解各年龄组患病率的情况。

在构成比指标中,某一组成部分构成比的增减会影响到其他组成部分构成比的变化。某地2000年和2005年慢性疾病的发病情况如表5.4所示:

表5.4 某地2000年和2005年慢性疾病的发病情况

疾 病 2000年

2005年

病例数 构成比(%) 病例数 构成比(%) 呼吸系统疾病 1685 30.24 2577 28.88 循环系统疾病 1433 25.71 2671 29.93 恶性肿瘤 915 16.42 1711 19.18 其他 1540 27.63 1964 22.01 合 计

5573

100.00

8923

100.00

2005年与2000年相比,呼吸系统疾病的构成比明显下降,而循环系统疾病、恶性肿瘤的构成比均有所上升。如果据此作出呼吸系统疾病发病下降,循环系统疾病、恶性肿瘤发病上升的结论,就犯了以构成比的动态分析代替率的动态分析的错误。因为2005年与2000年相比,各类型慢性疾病发病的人数都在增加,若要反映各类型慢性疾病发病强度的变化,应对2000年和2005年各类型慢性疾病的发病率进行比较。

三、应分别将分子和分母合计求合计率

对分组资料计算合计率时,不能简单地把各组率取平均数,而应分别将分子和分母合计,再求出合计率。例如,某医院消化内科上半年收治250例胃溃疡患者,治愈200例,治愈率为80.0%;下半年收治280例胃溃疡患者,治愈238例,治愈率为85.0%。则该消化内科全年对胃溃疡的治愈率应该是

200238

100%82.6%250280

+?=+

而不是(80%+85%)/2=82.5%。

四、相对数的比较应注意其可比性

影响相对数高低的因素较多,在比较相对数时,除了欲对比的因素之外,其余的影响因素应尽可能相同或相近。例如比较各组患者的年龄、性别、病情轻重等构成是否相同,若构成不同,则应考虑进行分层(分年龄、性别、病情轻重)比

较,或者对合计率进行标准化后再作比较。例如,两种疗法治疗某病的病死率如表5.5所示:

表5.5 两种疗法治疗某病的病死率

病型

新疗法一般疗法

治疗人数死亡人数病死率(%) 治疗人数死亡人数病死率(%)

普通型75 15 20.0 25 5 20.0

重型合计

35 14 40.0 65 26 40.0 110 29 26.4 90 31 34.4

如果只比较合计病死率,似乎新疗法优于一般疗法,但当分别考察普通型病例和重型病例时,两种疗法的病死率是相同的。其原因在于:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病例少,一般疗法组却是普通型病例少而重型病例多。因此要正确比较两种疗法的病死率,可按病情轻重分层分析,或通过计算标准化病死率进行比较。

五、样本率或样本构成比的比较应作假设检验

由于样本率或样本构成比存在抽样误差,如果通过样本推断总体率或总体构成比有无差异,不能凭样本率或样本构成的差别作结论,而须进行差别的假设检验。

第三节动态数列及其应用

动态数列(dynamic series)是一系列按照时间顺序排列的统计指标(包括绝对数、相对数或平均数),用以反映事物或现象在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

例5.7 表5.6是某地区1999~2002年住院患者数的统计数据,试计算动态数列的分析指标。

表5.6 某地区1999~2002年住院患者数发展动态

年份符号患者数

累计逐年定基比环比定基比环比(1) (2) (3) (4) (5) (6) (7) (8) (9) 1999 a0 26694 ——————

2000 a 1 50175 23481 23481 1.88 1.88 0.88 0.88 2001 a 2 50600 23906 425 1.90 1.01 0.90 0.01 2002

a 3

54713

28019

4113

2.05

1.08

1.05

0.08

一、绝对增长量

绝对增长量是指事物现象在一定时期增长的绝对值,可分为两种: (一) 累计增长量

累计增长量(cumulative quantity of increase) 是指报告期的指标值与某一固定期(基期)指标值的差值,其计算公式为:

=-累计增长量报告期指标值某固定期指标值 (5.7)

本例中,该地区2002年患者数的累计增长量=5471326694=28019-人,见表5.6第(4)栏。

(二) 逐年增长量

指报告期的指标值与相邻的前期指标值之差,其计算公式为:

=-逐年增长量报告期指标值相邻前期指标值 (5.8)

本例中,该地区2002年较2001年患者数的逐年增长量=5471350600=4113-人,见表5.6第(5)栏。

二、发展速度与增长速度

发展速度(speed of development)与增长速度(speed of increase)都是相对比指标,用以说明事物现象在一定时期的速度变化。

发展速度说明报告期指标值水平与某一固定期指标值相比或与相邻的前期指标值相比,是其多少倍。根据其比较对象的不同,分为定基比发展速度和环比发展速度。

定基比发展速度:指报告期的指标值与某一固定期(基期)指标值之比,可表达为10/a a ,20/a a ,…,0/n a a 。0a 为某一固定期(基期)指标值,n a 为报告期指标值。 本例中,该地区2000年住院患者数的定基比发展速度=50175/26694=1.88,2001年住院患者数的定基比发展速度=50600/26694=1.90,…,以此类推,见表5.6第(6)栏。

环比发展速度:指报告期指标值与相邻前期指标值之比,可表达为

10/a a ,21/a a ,…,1/n n a a -。本例中,该地区2000年住院患者数的环比发展速度

=50175/26694=1.88,2001年住院患者数的环比发展速度=50600/50175=1.01,…,

以此类推,见表5.6第(7)栏。

增长速度是发展速度的净增长量,增长速度=发展速度-1,以说明报告期指标值与某一固定期指标值相比或与相邻的前期指标值相比,增长了多少倍。本例中,该地2001年住院患者数的定基比增长速度=1.901=0.90-,见表5.6第(8)栏;同年住院患者数的环比增长速度=1.011=0.01-,见表5.6第(9)栏。

二、平均发展速度与平均增长速度

平均发展速度(average speed of development)是指一定时期内各环比发展速度的平均值,用以说明事物现象在一定时期内逐年的平均发展程度,常用几何平均数来计算平均发展速度。计算公式为:

平均发展速度 (5.9)

式中,0a 为某一固定期(基期)指标值,n a 为报告期指标值。

平均增长速度(average speed of increase )是说明某事物在一定时期内逐年的平均增长程度。计算公式为:

平均增长速度=平均发展速度-1 (5.10)

根据表5.6的资料,该地区1999年有住院患者26694人,到2002年增加到54713人,相当于1999年的2.05倍,3年间共增加患者28019人,增加了1.05

倍。1999~2002 1.27=倍,平均增长速度

=1.271=0.27-倍,住院患者数总体呈增长趋势。从环比增长速度看,2000年增

长较快,增长了0.88倍,但2000年后增长速度明显放缓。

动态数列不仅可以分析过去一段时间的变化规律,也可根据其过去的变化规律预测未来发生情况,计算未来几年后指标所达到的水平。如根据表5.6资料,可预测到2004年该地区住院患者数规模,相当于按式(5.9)计算5a :

1.27=55 1.272669488193a =?=

即根据某地区1999~2002年住院患者数的平均发展速度,预计到2004年该地区的住院患者数将达到88193人。

第四节 率的标准化

一、标准化法的意义

在本章第二节中曾提到,当所比较的各组观察对象内部构成不同时,应考虑

进行分层比较,或者对合计率进行标准化后再作比较。

以表5.5资料为例,要比较新疗法和一般疗法的病死率,如果仅比较合计率,一般疗法的合计病死率是34.4%,而新疗法的合计病死率是26.4%,显然一般疗法比新疗法的病死率高。但当我们分别考察普通型病例和重型病例两组人群时,两种疗法的病死率均相同,普通型病例的病死率都是20%,而重型病例的病死率都是40%。那么,为什么一般疗法的合计病死率就比新疗法高呢?其原因就是:两种疗法治疗对象的病型构成不同,新疗法组普通型病例多而重型病例少,一般疗法组却是普通型病例少而重型病例多。要消除这种假象,可以采用率的标准化法进行比较。

标准化法(standardization)的基本思想就是采用统一的标准构成,以消除年龄、性别、病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率(standardized rate)具有可比性。标准化法的思想也可用于平均数的比较,如比较两个医院平均住院天数,需考虑不同科室住院患者的构成对平均住院天数的影响。总之,标准化的目的在于消除年龄、性别、病情轻重等混杂因素对研究结果的影响。在医学研究中,混杂因素(confounding factor)通常指与研究因素有关并对研究结果产生影响的非研究因素。在资料分析阶段有许多控制混杂因素的方法,标准化法是其中之一。

二、标准化率的计算

计算标准化率的常用方法有直接法和间接法两种。以表5.7为例说明两组观察对象的年龄构成不同时,其标准化死亡率的计算方法和计算公式。其它标准化率的计算与之类似。

表5.7 计算标准化率的数据符号

年龄组 标准组

被标化组 人口数

死亡数

死亡率

人口数

死亡数

死亡率

1 1N 1R 1P 1n 1r 1p

2 2N

2R

2P

2n

2r

2p

k

k N

k R k P

k n k r k p

合计

N

R P

n

r

p

(一) 直接法

当已知被标化组的年龄别死亡率i p 时,宜采用直接法计算标准化率,这里又分两种情况:

1. 已知标准组年龄别人口数时,

i i

N p p N

∑'=

(5.11) 式中,p '为标准化率;i i p N 为各年龄组的预期死亡数,是指用被标化组的年龄别死亡率i p 去预测在标准人口i N 中,可能会有多少人发生死亡。总的预期死亡数∑i i p N 除以标准组总人口数N 就得到标准化率。

2. 已知标准组年龄别人口构成比时,

(

)i

i N p p N

'=∑ (5.12) 式中,标准组的年龄构成比N

N i

乘以被标化组的年龄别死亡率i p 称为分配死亡率,分配死亡率的累计(

)i

i N p N

∑就是标准化率。 如果采用相同的标准组,式(5.11)和式(5.12)计算的结果是完全一致的。 (二) 间接法

当被标化组的年龄别死亡率i p 未知,只有年龄别人口数i n 和死亡总数r 时,可采用间接法。间接法必须有标准组的年龄别死亡率i P ,计算公式为:

i i

r

p P n P '=?

∑ (5.13) 式中,P 为标准组的合计死亡率,i i n P ∑是被标化组的预期死亡人数,i i

r

n P ∑是被标化组的实际死亡数与预期死亡数之比,称为标准化死亡率比 (standardized mortality ratio, SMR )。

若1SMR >,表示被标化组的死亡数高于标准组;若1SMR <,表示被标化组死亡数低于标准组。用标准化死亡比(SMR )乘以标准组的合计死亡率P ,即得到间接法标准化死亡率p '。

(三) 标准化率的计算步骤

1.根据被标化组的数据条件选择直接法或间接法 如对死亡率的年龄构成标准化,如果已知被标化组的年龄别死亡率,宜采用直接法计算标准化率;如果没有被标化组的年龄别死亡率,只有年龄别人口数和死亡总数,应采用间接法计算标准化率。

2.选择标准组 ①根据研究目的选择有代表性的、较稳定的、数量较大的人群,例如全国的、全省的或本地区的数据;②也可将欲比较的两地或两组的人口数合并作为标准组,或选择其中一组人口作为标准。

3.选择公式计算标准化率 根据所选方法和数据条件选择相应的公式。 现以表5.5为例,具体说明标准化率的计算,此处是对病死率进行标准化。 (1) 已知新疗法和一般疗法分别治疗普通型病例和重型病例的病死率,采用直接法计算标准化病死率。

(2) 选择新疗法和一般疗法两组的合并治疗例数作为标准人口数i N ,见表5.8第(2)栏。

(3) 按式(5.11)计算新疗法组和一般疗法组的标准化病死率。

表5.8 直接法计算两种疗法的标准化病死率(%)

病型 标准人口数 新疗法

一般疗法

(1)

i N

(2) 病死率 i p (3) 预期病死数

i i N p (4)=(2) (3) 病死率 i p (5) 预期病死数

i i N p (6)=(2) (5)

普通型 100 20.0 20 20.0 20

重型 100

40.0 40 40.0 40

合 计

200()N

26.4

60()i i N p ∑

34.4

60()i i N p ∑

新疗法组的标准化病死率160

100%30.0%200

p '=

?= 一般疗法组的标准化病死率2

60

100%30.0%200

p '=?= 可见,经标准化以后,新疗法和一般疗法两组的病死率是相同的,与分病型比较的结果一致。标准化法解决了由于患者病型构成不同而导致的合计病死率与分病型比较相矛盾的问题。

本例也可用式(5.12)计算标准化病死率,计算结果与式(5.11)完全一致,见表

5.9。

表5.9 利用标准患者病型构成比计算两种疗法的标准化病死率(%) 病 型 (1) 标准患者

病型构成比

/i N N

(2) 新疗法

一般疗法

原病死率

i p

(3) 分配病死率

(/)i i N N p

(4)=(2) (3) 原病死率

i p

(5) 分配病死率

(/)i i N N p

(6)=(2) (5) 普通型 0.5 20.0 10.0 20.0 10.0 重型 0.5

40.0

20.0

40.0

20.0

合 计

1.0 26.4 30.0()p '

34.4

30.0()p '

例5.8 已知某地2000年恶性肿瘤死亡总数23人,该地2000年各年龄组的平均人口数见表 5.10第(3)栏。试问该地恶性肿瘤死亡率是否高于全国平均水平?

(1) 由于知道该地恶性肿瘤死亡总数r 和各年龄组人口数i n ,未知该地各年龄组恶性肿瘤死亡率i p ,故选用间接法计算标准化死亡率。

(2) 选择全国同期各年龄组恶性肿瘤死亡率i P 作为标准,见表5.10第(2)栏。 (3) 按式(5.13)计算该地的恶性肿瘤标准化死亡率。

表5.10 间接法计算某地2000年恶性肿瘤标准化死亡率(1/10万)

年龄组

i (1) 标准死亡率

i P (2) 某 地

人口数 i n (3) 预期死亡数

i i

n P

(4)=(2) (3)

0~ 4.83

3066 0.148 20~ 25.73 2516 0.647 40~ 149.14 1440 2.148 60~ 341.48 1738 5.935

合 计

53.86

8760

8.878()

i i n P ∑ 某地2000年恶性肿瘤的标准化死亡比 59.2878

.823

==

SMR 标准化死亡率 53.86/10 2.59139.50/10p '=?=万万

注意:在本例中,标准化死亡比和标准化率的计算都是以同期全国平均水平作参照计算的。该地恶性肿瘤的标化死亡比为2.59,说明该地恶性肿瘤的死亡水

平是全国平均水平的2.59倍。通过计算标准化死亡率p 进行比较,其结论是一致的。

(三) 应用标准化法的注意事项

1. 标准化法的目的是为了消除混杂因素的影响,通过选择同一参照标准,使算得的标准化率具有可比性。但标准化率并不代表真实水平,选择的标准不同,计算出的标准化率也不相同。因此标准化率仅适用于相互间的比较,实际水平应采用未标化率来反映。

2. 样本的标准化率是样本指标值,亦存在抽样误差,若要比较其代表的总体标准化率是否不同,需作假设检验。

3. 注意标准化方法的选用。如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率。该法计算简便,易于理解,较为常用。但当被标化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。

4. 各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其它条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。

小结

1. 定性资料常用率、构成比、相对比等相对数指标进行描述。应根据研究目的选用相应的指标。使用相对数时要注意杜绝一些常见的错误。

2. 动态数列是一系列按照时间顺序排列起来的统计指标,用以反映事物或现象在时间上的变化和发展趋势。常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。

3. 在对合计率进行比较时,如果各组观察对象内部构成不同,应考虑对合计率(平均率)进行标准化。标准化法就是采用统一的标准构成,消除因混杂因素构成不同对总指标的影响。计算标准化率的常用方法有直接法和间接法两种。如果已知被标化组的年龄别死亡率,宜采用直接法计算标准化率;如果没有被标化组的年龄别死亡率,只有年龄别人口数和死亡总数,可采用间接法计算标准化率。

(贾红)

统计学

第一章总论 1、统计数据有哪些分类?不同类型的数据有什么不同特点?试举例说明。 (一)统计数据按照所采用的计量尺度不同,可以分为定性数据与定量数据两类。 一、定性数据是指只能用文字或数字代码来表现事物的品质特征或属性特征的数据,具体又分为定类 数据与定序数据两种。 (1)定类数据:按照事物的某种属性对其进行平行的分类或分组所形成的数据。特点:①定类数据只测度了事物之间的类别差,而对各类之间的其他差别却无法从中得知,因此各类地位相同, 顺序可以任意改变②对定类数据,可以且只能计算每一类别中各元素个体出现的频数。 人口的性别(男、女),为了便于统计处理,用数字代码来表示各个类别,例如分别用1、0表示男性与 女性,要注意的是,这时的数字没有任何程度上的差别或大小多少之分,只是符号而已。 (2)定序数据:对事物之间等级或顺序差别测度所形成的数据。特点:①不仅可以测度类别差(分类),还可以测度次序差(比较优劣或排序)②无法测出类别之间的准确差值,因此该尺度的 计量结果只能排序,不能进行算术运算。产品等级(一等品、二等品…)考试成绩(优、良、差) 二、定量数据是指用数值来表现事物数量特征的数据,具体又分为定距数据与定比数据两种。 (1)定距数据:对事物类别或次序之间间距的测度所形成的数据。特点:①不仅能将事物区分为不同类型并进行排序而且可准确指出类别之间的差距是多少②定距尺度通常以自然或物理单位为计量尺度,因此测量结果往往表现为数值③计量结果可以进行加减运算(加减运算有意义)④“0”是测量尺度上的一个测量点,并不代表“没有”。100分制考试成绩;摄氏温度对不同地区温度的测量。 (2)定比数据(比率尺度):是能够测算两个测度值之间比值的数据。特点:①与定距尺度属于同一层次,计量结果也表现为数值②除了具有其他三种计量尺度的全部特点外,还具有可计算两个测度值之间比值的特点③“0”表示“没有”,即它有一固定的绝对“零点”,因此它可进行加、减、乘、除运算(而定距尺度只可进行加减运算)职工月收入、企业产值、企业销售收入3亿元,人的身高176厘米、体重65公斤,物体的长度30厘米、面积600平方厘米、容积9000立方厘米,水稻的平均亩产400 公斤/亩,某地区的人均国内生产总值25000元/人、第三产业比重48%等,都是定比数据。 (二)统计数据按照其表现形式不同,可以分为绝对数、相对数和平均数三类 绝对数:反映现象或事物绝对数量特征的数据,它以最直观、最基本的形式体现现象或事物的外在数量特征,有明确的计量单位。 相对数:反映现象或事物相对数量特征的数据,它通过另外两个相关统计数据的对比来体现现象(事物)内部或现象(事物)之间的联系关系,其结果主要表现为没有明确计量单位的无名数,少部分表现为有明确计量单位的有名数(限于强度相对数)。 1.结构相对数。将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。居民食品支出 额占消费支出总额比重、产品合格率等。 2.比例相对数。将同一总体内不同部分的数值对比,表明总体内各部分的比例关系,如,人口性别比例、投资与消费比例等。 3.比较相对数。将同一时期两个性质相同的指标数值对比,说明同类现象在不同空间条件下的数量对比关系。如,不同地区 商品价格对比,不同行业、不同企业间某项指标对比等。 4.强度相对数,将两个性质不同但有一定联系的总量指标对比,用以说明现象的强度、密度和普遍程度。如,人均国内生产 总值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分数或千分数表示的,如,人口出生率用‰表示。 5.计划完成程度相对数,是某一时期实际完成数与计划数对比,用以说明计划完成程度。 6.动态相对数,将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度。如,发展速度、增长速度等。平均数:反映现象或事物平均数量特征的数据,体现现象某一方面的一般数量水平。 (三)统计数据按照其来源不同,可以分为观测数据与实验数据两类。 (四)统计数据按照其加工程度不同,可以分为原始数据与次级数据两类。 (五)统计数据按照其时间或空间状态不同,可以分为时序数据与截面数据两类。 2、总体、样本、个体三者关系如何?试举例说明。 总体:统计研究的客观对象的全体,是具有某种共同性质的事物所组成的集合体(也称为母体) 个体:构成统计总体的个别事物称为个体(也称总体单位)

定性数据分析第五章课后答案.doc

定性数据分析第五章课后答案 定性数据分析第五章课后作业 1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么?解:(1)数据压缩分析首先将上表中不同年龄段的数据合并在一起压缩成二维2X2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别X偏好饮料”列联表 二维2X2列联表独立检验的似然比检验统计量-2ln A的值为0.7032, P值为p=P(x2⑴m0.7032)=0.4017>0.05,不应拒绝原假设,即认为“偏好类型”与“性别”无关。(2)数据分层分析 其次,按年龄段分层,得到如下三维2X2X2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2三维2X2X2列联表 在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A占58. 73%,偏好饮料B占41.27%;女性中偏好饮料A占58. 73%,偏好饮料B占41.27%, 我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验

为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。即由题意,可令C表示年龄段,C1表示年青人,C2表示老年人;D表示性别,D1表示男性,D2表示女性;E表示偏好饮料的类型,E1表示偏好饮料A,E2表示偏好饮料B。欲检验的原假设为:C给定后D和E条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量-2ln A的值如下: C1层 C2层 -2ln A=6.248 -2ln A =11.822 条件独立性 检验问题的似然比检验统计量是这两个似然比检验统计量的和,其值为-2lnA=6.248+11.822=18.07 由于r=c=t=2,所以条件独立性检验的似然比检验统计量的渐近x 2分布的自由度为r(c-l)(t-l)=2,也就是上面这2个四格表的渐近x 2分布的自由度的和。由于p值P(x 2(2)318.07)=0.000119165很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 (4)产生偏差的原因 a、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在对两种类型的饮料的偏好上是没有差异的。但将数据以不同的年龄段

医学统计学定性统计描述思考与练习带答案

第五章定性资料的统计描述 【思考与练习】 一、思考题 1.应用相对数时需要注意哪些问题 2. 为什么不能以构成比代替率 3. 标准化率计算的直接法和间接法的应用有何区别 4. 常用动态数列分析指标有哪几种各有何用途 5. 率的标准化需要注意哪些问题 二、案例辨析题 某医生对98例女性生殖器溃疡患者的血清进行检测,发现杜克雷氏链杆菌、梅毒螺旋体和人类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医生得出结论:女性生殖器溃疡患者3种病原体的感染率分别为%(30/98)、%(51/98)和%(17/98)。该结论是否正确为什么 三、最佳选择题 1. 某地2006年肝炎发病人数占当年传染病发病人数的%,该指标为B A. 率 B. 构成比 C. 发病率 D. 相对比 E. 时点患病率 2. 标准化死亡比SMR是指A

A. 实际死亡数/预期死亡数 B. 预期死亡数/实际死亡数 C. 实际发病数/预期发病数 D. 预期发病数/实际发病数 E. 预期发病数/预期死亡数 3. 某地人口数:男性13,697,600人,女性13,194,142人;五种心血管疾病的死亡人数:男性16774人,女性23334人;其中肺心病死亡人数:男性13952人,女性19369人。可计算出这样一些相对数: 11395283.18%16774 p = =, 21395219369 83.08%1677423334p +==+, 313952 101.86/1013697600 p ==万, 416774122.46/1013697600p = =万,523334 176.85/1013194142 p = =万, 645p p p =+ 71395219369 123.91/101369760013194142 p += =+万 81677423334 149.15/101369760013194142 p += =+万 该地男性居民五种心血管疾病的死亡率为D A. 1p B. 2p C. 3p D. 4p E. 5p 4. 根据第3题资料,该地居民五种心血管病的总死亡率为E A. 1p

定性数据的统计分析理论与应用研究_刘洋

定性数据的统计分析理论与应用研究 刘 洋 西安财经学院 摘 要:定性数据的统计研究一直以来在统计研究方法中都起着十分重要的作用,尤其近几年更是成为统计学研究的重点之一。由于统计方法的逐步发展,定性数据的研究也正不断有新的突破和新的方法,以求找到更适合自身的理论方法。相应分析方法和结构方程模型方法都是较新的定性数据分析应用中的方法。 关键词:定型数据 相应分析 统计分析 一、定性数据的背景及发展 1.研究背景及意义。随着实际问题中愈来愈多定性数据的出现,学会使用定性数据来处理实际问题便成为了必要的技能之一,定性数据的统计方法也成为统计学研究的重点之一。定性研究方法是根据社会现象或事物所具有的属性和在运动中的矛盾变化,从事物的内在规律性来研究事物的一种方法或角度。它以普遍承认的公理、一套演绎逻辑和大量的历史事实为分析基础,从事物的矛盾性出发,描述、阐述所研究的事物。定性数据的性质间接决定了定性数据成为了统计研究中不可小觑的一部分,也为统计研究方法在实际中遇到的困难扫清了很多障碍。 2.定性数据的发展。定性研究起于19世纪,早期的定性研究是从社会调查运动中的实际问题引发的,但是很少有人能意识到它的价值所在。Pearson(1904)首次提出了列联表的概念,也就意味着开始了定性数据的研究。Bartlett(1935)定义了三维列联表三变量的交互作用,但仍不能进行结构复杂的大量数据的研究。随着科技的不断发展,统计学运用计算机处理数字的能力越来越强,使定性数据的研究更是有大幅的提高,现在对定性数据的研究方法更是多样的,例如相应分析、结构方程模型等。 二、定性数据相关的统计分析理论 1.定性数据。在统计学中,数据按照其取值分为四种类型,即计量数据、计数数据、名义数据和有序数据。其中,计量数据和计数数据称为定量数据。名义数据和有序数据称为定性数据,定性变量中包含了名义定性变量和有序定性变量。 2.相应分析。相应分析(correspondence analysis)也叫对应分析,其特点是它所研究的变量可以是定性的,通过分析由定性变量构成的交互汇总表来揭示变量间的联系。通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究,因而它的应用越来越广泛,现在这种方法已经成为常用的多元分析方法之一。相应分析的思想首先由Richardson和Kuder于1933年提出,后来法国统计学家Benzecri等对该方法进行了详细的论述而使其得到了发展。 3.结构方程模型。结构方程模型(Structural Equation Modeling)在20世纪80年代以来迅速发展,是可以处理多个原因、多个结果关系,或者处理不可直接观测变量即潜变量的好方法,解决了一些传统的统计方法不能很好解决的问题。结构方程模型可以假设潜变量的存在,即潜变量可以在结构方程模型中使用,而不是作为观测变量。使定性数据得到了更好更全面的分析,适用于新的统计方法。主要适用于数据较多的定性数据的调查问卷。 三、定性数据统计分析的实证研究 1.数据处理。 1.1数据来源。本文所采用数据来自于由朱建平主编的《应用多元统计分析》一书中相应分析章节举例。应用spss17.0做相关分析。 1.2定性数据数字化。每个定性数据都含有不可量化成分,所以,在分析定性数据之前需要把定性数据中所代表的不同含义或不同范围用简单整数表示,一种含义或范围只能用一个整数表示,这样就使得定性数据数字化。 2.定性数据的相应分析。 2.1相应分析原理。相应分析是在列联表的基础上通过交互汇总数据来解释变量之间的内在联系,用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上。一般情形,取两个公共因子,在一张二维平面图上绘出两个因素各个水平的情况,即可以直观地描述两个因素A和因素B以及各个水平之间的相关关系。同时揭示了同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。 2.2相应分析实证。研究数据为1992年美国总统大选的部分数据。对1847位选民的最高学历与所支持总统候选人进行相应分析。由于该分析通过了卡方检验,所以相应分析的分析结果是有效的。 从图1中可以发现大学本科(bachelor)层次的选民最支持Bush,其次是高中(high school)层次的选民。Clinton更受研究生(graduate degree)层次的选民的青睐,而Perot的支持者更多是专科学历者(junior college)。大学本科和高中学历的选民是普通选民所拥有的最普遍学历,也就是说得到的支持中这部分学历的选民最多的话,也就可以说明这个人得到了相对大多说人的支持。 相应的对选民的年龄与所支持的总统候选人间进行相应分析的结果可以看出,年龄在45-64岁之间的选民最支持Clinton,35-44岁的选民其次,这部分选民相对而言更多的选择了支持Bush。Clinton与Bush更多的赢得的是中年人的支持,其中Clinton赢得了相对较多的老年群体的票数支持。Perot与两名竞争对手在支持选民年龄上显示了很大不同,支持他的选民相对年轻化,且选民随之年龄的增长逐渐减少,超过65岁的选民几乎没有支持者。 3.模型结果分析。以上模型分析了该定性数据的显著特点与有趣的分类,知道了选民在最高学历与年龄的不同上对所支持政客不同的相对应分析,让我们从新认识了这组定性数据。通过以上实证分析模型证实利用相关分析的方法可以对定性数据进行有效合理的分析,使得我们更好的对定性数据进行理解。由于定性数据本身的特点,使得我们不能很好的直接通过定性数据本身观测、理解和使用定性数据,但是借助于相关分析,我们可以透过定性数据难以分析的数据特点来理解定性数据,使数据为研究服务。 四、结论与建议 1.结论。定性数据不应只通过数据表面的观测进行分析,由于定性数据自身性质会给相关研究带来误导性信息且不准确。所以定性数据的统计研究方法为统计研究做出了重要贡献。虽然定性数据在问卷调查的应用中还是相对突出的,但是了解和学会定性数据的分析方法可以使你在任何数据的面前不再担心它的种类,都能做到游刃有余。 定性数据的分析理论正在迅速发展,一些相关理论已经相当成熟,但要深入分析,仍需不断探索新理论与新方法。分析定性数据的对数线性模型、结构方程模型和相应分析方法都已相对成熟,而非线性主成分分析方法仍在起步,需要更多的研究与实证支持。 2.建议。由于定性数据的多样性,可以在分析定性数据时使用多种分析方法,以便正确数据所包含信息。定性数据和定量数据一般都是相互结合使用,互相融合,共同发展的,定性数据在数量化之后也属于定量数据,所以在发展定性数据统计研究方法的同时,定量数据的统计研究方法也会相应进步,相互取长补短。定性数据的分析方法仍然满足不了数字化的发展,对新方法的创新仍是耽误之急。希望完善以前好用的方法,不断创新新方法。 参考文献: [1]葛新锋.有序数据的多元分析模型及实证研究[D].山西财经大学,2009. [2]王静龙、梁小筠.定性数据统计分析[M].中国统计出版社,2008. [3]朱建平.应用多元统计分析[M].科学出版社,2013. [4]王济川,王小倩,姜宝法.结构方程模型:方法与应用[M].高等教育出版社,2011. [5]Donald J. Treiman.量化数据分析:通过社会研究检验想法[M].社会科学文献出版社,2012. 作者简介:刘洋(1989—),女,吉林东丰人,西安财经学院2013级统计学专业研究生,研究方向:经济统计。 2014年·8月·中期经营管理者 学 术 理 论 经营管理者 Manager' Journal 207

计数资料的统计学分析 (1)

[模拟] 计数资料的统计学分析 A型题题干在前,选项在后。有A、B、C、D、E五个备选答案其中只有一个为最佳答案。 第1题: 计数资料又称如下哪一种资料 A.数量资料 B.抽样资料 C.普查资料 D.调查资料 E.定性资料 参考答案:E 答案解析: 第2题: 计数资料是指将观察单位按下列哪一种分组计数所得的资料 A.数量 B.体重 C.含量 D.属性或类型或品质 E.放射性计数 参考答案:D 答案解析: 第3题: 计数资料的初步分析常常要用下列哪些相对数 A.频数 B.频数和频率指标 C.率、构成比和相对比 D.构成指标和相对比 E.比和构成比 参考答案:C 答案解析: 第4题: 频率指标,它说明某现象发生的如下哪一种

B.强度 C.比重大小 D.例数 E.各组的单位数 参考答案:B 答案解析: 第5题: 构成指标,它说明一事内部各组成部分所占的如下哪一种大小 A.比重 B.强度 C.频数 D.频率 E.例数 参考答案:A 答案解析: 第6题: 对480人进行老年性白内障普查,分60岁一、70岁一和80岁一三个年龄组受检人数分别为300、150和30人,白内障例数分别为150、90和24人。回答70岁一年龄组的患病率(%)是多少 A.5 B.50 C.60 D.80 E.20 参考答案:C 答案解析: 第7题: 对1000人进行老年性白内障普查,分50岁一和60岁一两个年龄组,受检人数分别为480人和520人,白内障例数分别为120人和280人。回答患者50岁一年龄构成比(%)是多少 A.53.9 B.12 C.30 D.28

参考答案:C 答案解析: 第8题: 在计数资料计算相对数时,应注意如下哪些问题 A.分母不宜过大 B.可比性 C.随机性 D.分母不宜过小 E.分母宜中 参考答案:D 答案解析: 第9题: 在计数资料进行相对数间比较时,应注意如下哪些问题 A.分母不宜太小 B.可比性 C.可用频率指标代替构成指标 D.随机性和正态分布 E.其可比性和遵循随机抽样 参考答案:E 答案解析: 第10题: X2检验是要计算检验统计量X2值、X2值是反应如下哪种情况 A.实际频数大于理论频数 B.理论频数大于实际频数 C.实际频率和理论频率的吻合程度 D.实际频数和理论频数的吻合程度 E.实际频率大于理论频率 参考答案:D 答案解析: 第11题: X2值愈大,则X2值的概率P值如下哪种情况

《统计学》重点归纳(20200625174335)

统计学》期末重点 1. 统计学的类型和不同类型的特点 统计数据;按所采用的计量尺度不同分; (1)(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述; (2)(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。它也是有类别的,但这些类别是有序的。 (3)(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。统计数据;按统计 数据都收集方法分; (4)观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。 (5)实验数据:在实验中控制实验对象而收集到的数据。统计数据;按被描述的现象与实践的关系分; (6)截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。 (7)时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。 2. 变量的题型 第10 页,习题1.1 (1)年龄:数值型变量 (2)性别:分类变量 (3)汽车产量:离散型变量 (4)员工对企业某项改革措施的态度(赞成、中立、反对):顺序变量 (5)购买商品时的支付方式(现金、信用卡、支票):分类变量 3.随机抽样(概率抽样)的抽样方式。 (1)简单随机抽样 (2)分层抽样:就是抽样单位按某种特征或者某种规则划分为不同的层,然后从不同的层中独立、随机地 抽取样本。将各层的样本结合起来,对总体目标量进行估计。 (3)整群抽样: (4)系统抽样 (5)多阶段抽样 分层抽样与整群抽样的区别:

分层抽样的层数就是样本容量;整群抽样的群中单位的个数就是样本容量 4.非概率抽样的几种类型 (1)方便抽样 (2)判断抽样 (3)自愿样本 (4)滚雪球抽样 滚雪球抽样往往用于对稀少群体的调查。在滚雪球抽样中,首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总特的调查对象,调查人员根据调查线索,进行此后的调查。这个过程持续下去,就会形成滚雪球效应。 优点:容易找到那些属于特定群体的被调查者,调查成本也比较低。 (5)配额抽样 比较概率抽样和非概率抽样的特点,指出各自适用情况概率抽样:抽样时按一定的概率以随机原则抽取样本。每个单位别抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽到的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征,得到总体参数的置信区间,就使用概率抽样。 非概率抽样:操作简单,时效快,成本低,而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。它同样使用市场调查中的概念测试(不需要调查结果投影到总体的情况)。 5.数据预处理内容 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 6.数据型数据的分组方法和步骤 分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分组步骤:(1)确定组数 (2)确定各组组距 3)根据分组整理成频数分布表 7.散点图与饼图的主要用途 饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。 散点图是描述变量之间关系的一种直观方法,从中可以大体上看出变量之间的关系形态及关系强度。

最新定性数据分析第五章课后答案

定性数据分析第五章课后作业 1、为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问 题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维 2X 2列联表1.1 ,合 起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表 1.1 “性别偏好饮料”列联表 二维2X 2列联表独立检验的似然比检验统计量 - 21 n 上的值为0.7032,p 值 为p =P( 2(1) -0.7032) =0.4017 ■ 0.05,不应拒绝原假设,即认为“偏好类型” 与“性别”无关。 (2) 数据分层分析 其次,按年龄段分层,得到如下三维 2X 2X 2列联表1.2,分开来看,男性 和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2X 2X 2列联表

在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调 查,在“年青人”年龄段,男性中偏好饮料A 占58. 73%偏好饮料B 占41.27%; 女性中偏好饮料A 占58. 73%偏好饮料B 占41.27%,我们可以得出在这个年 龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。 同理,在“老年人” 年龄段,也有一定的差异。 (3) 条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,0表示年青人,C 2表示老年人;D 表示性别,D ! 表示男性,D 2表示女性;E 表示偏好饮料的类型,E !表示偏好饮料A, E 2表示 偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量 -21 n 上的值 如下: 条件独立性检验问题的似然比检验统计量是这两个似然比检验统计量的和, 其值 -2ln 上=6.248 11.822 =18.07 由于r = c = t = 2,所以条件独立性检验的似然比检验统计量的渐近 2分布的自 由度为r(c-1)(t-1) =2,也就是上面这 2个四格表的渐近 2分布的自由 G 层 -2ln 上=6.248 C 2层 -2ln 上=11.822

2021年医学统计学定性资料统计描述思考与练习带答案

第五章定性资料的统计描述 欧阳光明(2021.03.07) 【思考与练习】 一、思考题 1.应用相对数时需要注意哪些问题? 2. 为什么不能以构成比代替率? 3. 标准化率计算的直接法和间接法的应用有何区别? 4. 常用动态数列分析指标有哪几种?各有何用途? 5. 率的标准化需要注意哪些问题? 二、案例辨析题 某医生对98例女性生殖器溃疡患者的血清进行检测,发现杜克雷氏链杆菌、梅毒螺旋体和人类单纯疱疹病毒2型病原体感染患者分别是30、51、17例,于是该医生得出结论:女性生殖器溃疡患者3种病原体的感染率分别为30.6%(30/98)、52.0%(51/98)和 17.4%(17/98)。该结论是否正确?为什么? 三、最佳选择题 1. 某地2006年肝炎发病人数占当年传染病发病人数的10.1%,该指标为B A. 率 B. 构成比 C. 发病率 D. 相对比

E. 时点患病率 2. 标准化死亡比SMR 是指A A. 实际死亡数/预期死亡数 B. 预期死亡数/实际死亡数 C. 实际发病数/预期发病数 D. 预期发病数/实际发病数 E. 预期发病数/预期死亡数 3. 某地人口数:男性13,697,600人,女性13,194,142人;五种心血管疾病的死亡人数:男性16774人,女性23334人;其中肺心病死亡人数:男性13952人,女性19369人。可计算出这样一些相对数: 11395283.18%16774p = =, 21395219369 83.08% 1677423334p +==+, 313952 101.86/1013697600p ==万 , 416774122.46/1013697600p ==万, 523334 176.85/1013194142p = =万 , 645p p p =+ 该地男性居民五种心血管疾病的死亡率为D A.1p B. 2p C.3p D.4p E. 5p 4. 根据第3题资料,该地居民五种心血管病的总死亡率为E

定性数据的图表描述分析

定性数据的图表描述分析 内容摘要:数据的整理是为下一步对数据描述和分析打好基础。实际上在企业管理中有很多问题和现象无法通过数值直接表示出来,因此人们经常使用定性数据来反映对应的定类或定序变量的值。下面我们介绍如何用图表对定类和定序变量的定性数据值进行整理和描述。本文通过对单变量和多变量定型数据的图形描述来实现对定性数据图表的全面分析。首先,我们简单介绍一下定性数据的整理;其次我们从单变量定性数据的图标描述着眼,具体可分为条形图、饼图、累积频数分布表和帕累托图。最后我们从多变量定性数据的图形描述着眼,具体可分为环形图、交叉表和多重条形图。这就是本文的全部内容介绍。 关键词:定性数据;单变量;多变量;图表描述 Content abstract: the data of the data for the next step is described and analyzed. Actually has a lot of problems and phenomena in the enterprise management can't directly by numerical representation, so people often use qualitative data to reflect the corresponding nominal or ordinal variable's value. We introduce how to use the chart below for nominal and ordinal variables in order and description about the qualitative data values. Based on univariate and multivariate finalize the design of the data graph description to achieve comprehensive analysis of the qualitative data chart. First, we make a brief introduction of qualitative data sorting; Secondly we from single variable on the basis of the icon description of qualitative data, the concrete can be divided into bar chart, pie chart, cumulative frequency distribution table and pareto chart. We finally on the basis of the graph description of qualitative data from multiple variables, concrete can be divided into circular diagram, cross table and multiple bar chart. This is the entire contents of the introduced in this paper. Keywords: qualitative data; Single variable; Many variables; The chart description

定性资料的统计描述

第五章 定性资料的统计描述 在医学研究与实践中,大量资料都是按照事物的特征或属性进行分类的,这类资料称为定性资料,也称分类资料或计数资料。如性别、HIV 感染情况、病情轻重等都属于分类资料。对于这类资料,其绝对数往往不便于进行相互比较。例如甲医院某年因某病死亡105人,同年乙医院因该病死亡185人。但不能据此认为乙医院该病的死亡情况比甲医院严重,因为两医院因该病住院的人数不一定相等,此时需要采用相对数指标进行统计描述。 第一节 常用相对数及其应用 相对数是两个有关联的数值之比,常用的相对数指标有率、构成比和相对比三种。 一、率 率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。根据计算公式中分母的观察单位总数是否引入时间因素,率包括频率和速率两类指标。 频率(frequency)计算中,分母没有引入时间因素,无时间量纲,分子是分母的一部分,其取值在0~1之间,如常见的发病率、患病率、病死率、治愈率等指标,都属于频率型指标,其实质是比例,在流行病学中也常称为累积发生率。其计算公式可表达为: K = ?同时期实际发生某现象的观察单位数 频率某时期可能发生某现象的观察单位总数 (5.1) 式中,K 为比例基数,可以是100%、1000‰、100000/10万等。比例基数的选择主要根据习惯用法或使计算结果保留1~2位整数,以便阅读。 例5.1 为研究吸烟与肺癌的关系,某医生收集了2003~2005年286例住院肺癌患者的吸烟史,吸烟的肺癌患者有166例,而同时期同年龄段的1855名非肺癌患者中,吸烟的有407例。试计算该资料中肺癌患者与非肺癌患者的吸烟率。 由式(5.1),肺癌患者的吸烟率=166/286100%=58.04%?,非肺癌患者吸烟率=407/1855100%=21.94%?,肺癌患者的吸烟率比非肺癌患者的吸烟率高36.1%。 速率(rate)是带有时间因素的频率,根据数理统计的定义是指随时间变化而

浅谈统计分析中的定量与定性

浅谈统计分析中的定量与定性 随着现代社会的发展,统计分析在具体的实践工作中得到广泛的应用,但将统计分析应用于工作实践中时,必须对定量分析与定性分析的关系问题有一个系统的认识和正确的把握,这样才能使统计分析在具体的工作中发挥其良好的作用,取得最佳的工作效果。 一、定量分析与定性分析的起源 作为社会实践发展产物的定量分析与定性分析是人们在认识事物过程中的两种理性思维分析方式。 定性分析的概念最早起源于古希腊,古希腊时代的一批著名的学者对定性分析的理念进行了很好的展开研究。早期古希腊的学者们在自己的研究领域中,都是给予自己所研究的自然世界以物理解释。例如著名的学者亚里士多德,在他的一生中研究过许许多多的自然现象,但在他的著作中对其发现的每个自然定理都是给出了一些性质定义,而没有用一个明确的数学公式,所进行的都是一些定性的研究。虽然这些定性分析的认识对人们认识感官世界发挥了极其重要的作用,但是这种认识只是感性的停留于事物表象的缺乏深入思考基础的一种认识方法。 在历史实践的发展过程中,定量分析出现于定性分析之后,其较之定性分析的优势是很明显的,它把事物定义在了人类能理解的范围,由量而定性。第一个将定量分析作为一种分析问题的基础思维方式的学者是伽利略,伽利略第一次在自己的研究领域中全面展开使用了定量分析的思维方法。在他研究的方方面面之中,他以实验、数学符号、公式等准确定量的东西取代了以前人们对事物原因和结果进行主观臆测成分居多的分析。可以这样说,“伽利略追求描述的决定是关于科学方法论的最深刻最有成效的变革。它的重要性,就在于把科学置于科学的保护之下。”数学本身是一门关于量的科学,只有当科学在成功地运用了数学的时候,才能称得上是一门科学。从整个理性发展的过程来看,伽利略提出的以定量代替定性的科学方法,是一个使人类的认识对象由模糊变得清晰起来,由抽象变得具体的过程,使得人类的理性在定性之上又增加了定量的特征,使得如空间、时间、重量、速度、加速度、能量等一些全新的量化概念,在一定的领域和范围内替代了那些与定量无关的概念,使理性思维进行了深刻的变革,上升到了另一个理性高度。 二、定量分析与定性分析的整体统一性 要想合理地运用定量分析与定性分析,就要准确全面地认识定量分析与定性

简介定性资料的统计分析

第十二章 简介定性资料的统计分析 本章不是全面的介绍这方面的理论、方法和应用,而是初步反映一下这方面的主要内容,目的是展示进一步可学的知识,以便更好地解决实际问题。 §12.1 定性变量数量化 前面几章所介绍的各种统计方法,主要是研究与定量变量(或称间隔尺度变量)有关的问题,但在实际应用中,往往不可避免地要涉及到定性变量(或称名义尺度变量),例如人的性别、职业、天气状态,经济工作中选择的政策以及地层的构成类型等等,这些变量都只有各种状态的区别,而没有数量之区别。若定性变量不进入数学关系式,则会丢失信息,若要进入,又难于直接参加运算,于是从20世纪五十年代起开始发展了数量化理论,首先应用于“计量社会学”,六十年代后,逐步应用于各种学科,随着电子计算机的普及和发展,数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。 如何对定性变量给以相应的数值描述,从而进行有关的统计分析,这就是数量化理论所研究的主要内容。 数量化理论已有专著出版,本节为了应用上的需要,仅介绍常用的0-1赋值法。 例如定性变量是性别,记为X ,如此赋值: ?? ?=???=当性别为男 当性别为女或当性别为女当性别为男 ,0 ,1X ,0 ,1X 如此赋值的理由是简单,并没有任何数量大小的意义,它仅仅用来说明观察单位的特征 或属性,因此不同特性或属性的观察单位应取不同的值。 例如:天气可取晴、阴、雨三类,则用两个变量(X 1,X 2)表示天气,如此赋值: ?? ? ??=当天气雨当天气阴当天气晴 ),1,0( ),0,1( ),0,0(),(21X X 例如:有多种有害物污染了大气,由于有害物的结构不同,将污染物分为五类地区;甲、 乙、丙、丁、成戊将地区用4个变量(X 1, X 2, X 3, X 4)来表示,如此赋值: ????? ?? ??=戊类地区丁类地区丙类地区乙类地区甲类地区 ),1,0,0,0( ),0,1,0,0( ),0,0,1,0( ),0,0,0,1( ),0,0,0,0(),,,(4321X X X X 综上所述,推广为一般的赋值法如下:若某定性变量可取K 类,则用K -1个变量表示, 如此赋值:

单元计数资料的统计描述和统计推断(部分)

第三单元计数资料的统计描述和统计推断 【习题】 分析计算题 3.1 某地某年循环系统疾病死亡资料如表18。 表18 某地某年循环系统疾病死亡资料 年龄组/岁平均人口数 循环系统 死亡人数 死亡人数构成比 /% 死亡率 (1/10万) 相对比 (各年龄组死亡率 /0~组死亡率) 0~745000 25 30~538760 236 40~400105 520 50~186537 648 60~52750 373 合计1923152 1802 (1) 请根据以上数据计算各年龄组死亡人数构成比、死亡率和相对比。 (2) 分析讨论各指标的含义。 3.2 请就表19资料比较甲、乙两个医院某传染病的治愈率/%。 表19 甲、乙两院某传染病治愈率(%)的比较 类型 甲医院乙医院 病人数治愈数治愈率/% 病人数治愈数治愈率/% 普通型414 248 59.9 138 90 65.2 重型138 55 39.9 414 186 44.9 暴发型126 25 19.8 126 32 25.4 合计678 328 48.4 678 308 45.4 3.3 传统疗法治疗某病,其病死率为30%,治愈率为70%。今用某种新药治疗该病10人,结果有1人死亡。问该新药的治疗效果是否优于传统疗法(单侧)。

3.4 甲、乙两地各抽样调查1万名妇女,结果甲地卵巢癌患病人数100人,乙地卵巢癌患病人数80人,请问甲乙两地妇女的卵巢癌患病率是否不同。 3.5 对甲地一个由40名新生儿组成的随机样本进行某病的基因检测,结果阳性2例。据此资料,估计该地此病的基因总体携带率的95%可信区间。 3.6 已知一般人群中慢性气管炎患病率为9.7%,现调查了300名吸烟者,发现其中有63人患有慢性气管炎,试推断吸烟人群慢性气管炎患病率是否高于一般人群。 3.7 研究者取4mL某饮料进行细菌培养,得细菌数60个,试估计平均每1mL 饮料中细菌数的均值和标准差,并估计平均每1mL饮料中细菌数的95%可信区间。 3.8 分别从两种饮料中各取10mL样品进行细菌培养,甲饮料培养细菌440个,乙饮料培养细菌300个,问两种饮料中细菌数有无差别。 3.9 若某地区1998年新生儿腭裂发生率为2.15‰ ,1999年在此地区抽样调查1000名新生儿,发现腭裂1例,问此地区1999年腭裂发生率是否比1998年低。 3.10 对某地区居民饮用水进行卫生学检测中,随机抽查1mL水样,经培养获大肠杆菌菌落2个,试估计该地区水中平均每毫升所含大肠杆菌菌落的95%可信区间。 3.11 将80例均为初治的乳腺癌患者随机分配到甲乙两种治疗方案中,每组各40例,甲方案31例有效,乙方案14例有效,问两种治疗方案的有效率有无差别? 3.12 为了解某中药治疗原发性高血压的疗效,将44名高血压患者随机分为两组。实验组用该药加辅助治疗,对照组用安慰剂加辅助治疗,观察结果如表20,问该药治疗原发性高血压是否有效? 表20 两种疗法治疗原发性高血压的疗效 分组例数有效有效率/% 实验组23 21 91.30 对照组21 5 23.81

相关文档
相关文档 最新文档