文档库 最新最全的文档下载
当前位置:文档库 › 医学统计学历年考题与答案解析

医学统计学历年考题与答案解析

试题】2010-01-05/山东大学/医学院/2009级/研究生/医学统计

简答

1 给了一张表,计算患病率,发病率,病死率,以及患者哪个年龄段最多,是多少,发病率哪个年龄段最多,是多少等等

2 一个单向有序资料(分组变量无序,指标变量有序),用了卡方检验,问你对不对?为什么?如果是你,用什么?

3 假设检验的基本思想和原则

4 给了多元线性回归的资料(列出了几个方程的校正决定系数,决定系数,剩余标准差等的数值),判断哪个方程回归效果最好,为什么?

5 给了甲流的例子,用某药治疗,用了自身对照(用药前后抗体浓度变化为指标),得出了药物有效。问你合不合理,为什么?你的设计是什么?

6一型错误和二型错误的区别和联系

7什么是抽样误差?举例说明分类资料和数量资料的抽样误差

计算

1 给了健康人的白天和晚上血压的相关数值(x和y各自的平均数,和,平方和,以及两者差值的均数等)注:计算时直接带入公式的相关数值

(1)比较白天晚上血压有无差别(配对t检验计算)

(2)白天和晚上血压有无相关(相关分析)

(3)如何用白天血压估计晚上血压(回归分析)

2 多个平均值进行总体假设检验。类如几种药的作用效果是否相同(方差分析)

(也有人说:一个大题,3问,第一问是配对t检验计算,第二问相关分析,第三问,回归分析,都是计算题15分)3 样本率与总体率的比较(u检验)(也有人说:配伍组方差分析)

2008

1. 列出样本标准误的估计值的公式,至少五个(包括两样本差值的标准误,两样本率差值的标准误等)

2. 医学统计中,将正态分布视为近似正态分布有哪几种情况?列出应用条件和公式

3. 数值资料的统计描述指标?公式?

4. 多元回归模型的基本形式?参数含义?回归效果的评价?

5. 什么叫截尾值?产生原因?举例说明

6. 一同学两样本率的比较用了卡方检验,你有什么建议?若不符合卡方检验的应用条件,你又有什么建议?他再比较三个样本率是否来自同一总体,也用了卡方检验,你又有什么建议?

7. 一个三因素的2X2X2的析因设计的实验设计及分析思路

8. 给了一个数值资料:

小鼠的饮食量X1,X2,X3,X4,X5,X6,X7,X8,X9共十个数值

小鼠的体重增加量也有十个值

(1)对体重增加量资料进行统计描述

(2)求饮食量和体重增加量的关系

(3)由体重增加量的样本估计其代表总体均数的可信区间

(4)求小鼠体重增加量为X5(就是从体重增加量的那十个値里取了一个)的95%的置信区间

(5)(3)和(4)中的可信区间有什么差别?

2006

1直线回归中的b与多元线性回归中的B有什么区别?多元线性回归中,是否可以用B来表示各自变量对因变量的影响?为什么?

2数值变量的完全随机设计的样本与总体的比较,配对设计的两样本的比较,成组设计两样本比较的统计分析思路

3统计分析中P.a,B以及1-B的意义

4给了一个单向有序资料,统计效应是有序的,他用了t检验,问你对不对,为什么?应该用什么统计方法,并写出统计思路

5有一个两样本的秩和检验的应用题,写思路,不要求计算

6生存分析中,有哪些非参数检验的方法?两个生存率的比较用什么检验?

7给了一个实验,测量抗体.

样本序列抗体滴度效应是否有效

1 1:40 + 是

2 1:160 ++ 是.

.

.

.就是几个表格,让你给每个列个表,并且应该用哪些指标来描述.

8正态分布,二项分布,poisson分布的可信区间

9有两个变量,让你说出分析它们相关的统计分析思路

10有个析因设计的题,让你写出检验的思路,好象是还要写出公式.

2005(研究生)

1.举例说明变量及变量类型。(10分)

答案:变量:在搜集资料时,首先要根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,该特征称为变量。如身高、体重、疗效等

变量按其性质可分为两种类型:(1)数值变量:其变量值是定量的,表现为数值的大小,通常是使用仪器或某种尺度测定出来的,多有度量衡单位。如身高(cm)、体重(kg)、心律(次/min)、血压(mmHg)等。(2)分类变量:表现为互不相容的类别或属性,它又分为无序与有序两类:a.无序分类变量:是指所分类别或属性之间无程度或顺序上的差别,如:性别(男、女)血型(A、B、O、AB)等。b.有序分类变量:是指所分类别或属性之间有程度或顺序上的差别。如尿糖化验结果按-、+-、+、++、+++分类,疗效按治愈、好转、无效、恶化分组。

2.在假设检验过程中,若设定a为0.05,算得统计量后,得p值为0.015,按a=0.05的检验水准拒绝无效假设。请对这一结论做出适当的评论,并为此写例假设检验中p值的含义,以及p与a的关系。(10分)

答案:P值为0.015小于检验水准a(0.05),依据“小概率事件在一次随机试验中认为不可能发生”的定理,拒绝H0,接受H1,尚可以认为现有样本所代表的总体与已知总体不相等。

P值的含义是指从H0所规定的总体中随机抽样时,获得等于及大于(负值为等于及小于)现有样本统计量的概率。若p>a,按a检验水准不拒绝H0,可认为现有样本所代表的总体与已知总体的差别是由抽样误差造成的。若p<=a,依据“小概率事件在一次随机试验中认为不可能发生”的定理,拒绝H0,接受H1;可认为从已知总体中抽到现有样本的可能性很小,该样本可能来自另一总体。

3.写出数值变量资料中完全随机设计的多个样本比较的统计分析思路(不必写出计算公式)。(15分)

答案:(1)统计描述:描述资料的类型:数值变量资料频数表

资料的分布:正态性检验服从正态分布:均数、标准差(方差);不服从正态分布,服从对数正态分布:几何均数、几何标准差;偏态分布:中位数、四分位数间距

(2)统计推断:资料的设计类型:完全随机设计的多个样本比较

分布:正态性检验和方差齐性检验:(1)如果样本服从正态分布且方差齐,就用完全随机设计的多个样本的方差分析来作统计推断;(2)如果样本不服从正态分布或者方差不齐,经变量变换转换为正态分布方差齐,再用方差分析推断;(3)如果变量变换不能使样本服从正态分布且方差齐,就用秩和检验来做统计推断。

4.写出两变量之间相关关系的分析思路。(15分)

答案:(1)绘制散点图:在直角坐标系内绘制散点图,看两变量之间有没有线性趋势,如果有就做相关分析。如果两变量都服从双变量正态分布,则做直线相关分析;如果不服从线性模型条件要求即不服从或总体未知的资料,则作Spearman等级相关分析。或者进行曲线拟合。

(2)计算直线相关系数r或者Spearman秩相关系数r s。

()()()()

yy

xx xy l l l y y x x y y x x r =

----=

∑∑∑2

2

(3)对相关系数作假设检验,由于抽样误差的存在,即使从p=0的总体中做随机抽样误差,所得的R 值也不一定等于零,应对样本相关系数做假设检验。根据检验目的,检验假设为: H0:P=0;H1=/0.常用t 检验

,2

12

--=

=

n r r s

r t r

v=n-2,拒绝H0认为两变量间存在直线相关。

(4)总体相关系数的可信区间估计,先对相关系数做Z 变换,估计Z 的可信区间,其分布服从正态分布原理,,按正态分布原理100(1-a )%可信区间(3,3/-+--n u z n u z a a ),再对Z 的可信区间上下限按r=tanh z 进行逆变换。

5.请利用下面的随机数字表将15只小白鼠完全随机的分配到甲、乙、丙3个实验组中,使各组例数相等。要求写出随机分配方案。(10分)

随机数字表(部分数据)

编号 1-10 11-20 21-30 31-40 41-50

1 2

2 17 68 65 81 68 95 2

3 92 35 87 02 22 57 51 61 09 43 95 06 58 2

4 82 03 47 2 19 36 27 59 46 13 79 93 37 5

5 39 77 32 77 09 85 52 05 30 62 47 83 51 62 74 3 1

6 7

7 23 02 77 09 61 87 25 21 2

8 06 24 25 93 16 71 13 5

9 78 23 05 47 47 25 4 78 43 76 71 61 20 44 90 32 64 97 67 63 99 61 46 38 03 93 22 69 81 21 99 21 5 03 28 28 26 08 73 37 32 04 05 69 30 16 09 05 88 69 58 28 99 35 07 44 75 47

答案:先把十五只动物按体重从小到大分别编号:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15;在随机数字表任意指定某行某列,如

取第三行的1列开始,向下录入不重复的二位随机数字:16 77 23 02 09 61 87 25 21 28 06 24 93 71 13;

对应于十五只动物的编号,对随机数字有小到大编秩得出序号R 如下:5 13 7 1 3 11 14 9 6 10 2 8 15 12 4;并规定:一到五号分到甲试验组,六到十号分到乙组,十一到十五号分到丙组;随机分配结果是:甲实验组动物有:1 4 5 11 15;乙组动物为:3 8 9 10 12 ;丙组动物有:2 6 7 13 14。

6. 某试验需在5%和15%两种氧浓度下进行,每种氧浓度下分别使用甲、乙、丙三种药物对K 562细胞进行抑制。此研究宜用何种试验设计,并写出设计方案;若每种实验条件下各观察4个独立的样品,共需多少样品(即样本含量)?(10分)

答案:此研究宜用析因试验设计,析因设计是一种多因素多水平交叉分组进行全面试验的设计方法,可以研究两个或两个以上因素多个水平的效应,也可以检验各因素间的交互作用;因本试验中有2个试验因素,即氧浓度和药物,一个因素有2个水平,另一个因素有3个水平,而且氧浓度和药物之间可能存在交互作用;因此选用析因试验设计。

设计方案:该试验是一个2X3的析因设计,共有2X3=6个试验组,用a1表示5%的氧浓度,a2表示15%的氧浓度;用b1表示甲药物。b2表示乙药物,b3表示丙药物。

先按随机分组的原则,将试验动物按随机化原则分配到各组,各组先进行不同试验因素的处理,间隔一段时间后,再把各组之间的处理方法交换,并统计处理的结果。分析两因素之间有无交互作用及其交互作用的性质。同时分析两个因素各个水平之间的效应来评价对细胞的抑制作用。 样本含量:2X3X4=24

7. 某研究者随机测定了某地100例健康成人血清NSE 酶(ug/l )含量,请你充分利用该资料所能提供的信息,写出全面的分析思路。(20分) 答案:(1)资料的类型,列频数表,观察分布类型和分布特征:经判断资料为数值变量资料,对该资料作正态性检验,如果资料服从正态分布,进行统计描述,用均数、标准差(方差)来描述资料;不服从正态分布,进行变量变换使其服从正态分布,若是服从对数正态分布,用几何均数、几何标准差来描述资料;若资料服从偏态分布,则用中位数、

四分位数间距对资料进行统计描述。

统计描述: (2)通过资料来估计制定医学参考值范围:比如估计该地健康成年人血清NSE 酶含量的上双侧95%(90%、99%)参考值范围,如果资料为正态分布资料,则95%医学参考值范围为(S X 96.1-,S X 96.1+);如果资料为对数正态分布资料,则95%医学参考值范围为1

lg -(X lgx -1.96x S lg ,X lgx +1.96x S lg );如果资料为偏态分布,则95%医学参考值范

围为(5.975.2~P P )。

(3)统计推断:参数估计包括均数的抽样误差即标准误:n

S

S x =

和总体均数的可信区间估计①σ未知且n 较小:可信区间为(X a X a S t X S t X νν,2/,2/,+-);②σ未知但n 足够大:(X a X a S u X S u X ,2/,2/,+-);③σ已知:(X a X a u X u X σσ,2/,2/,+-)。

8. 多元回归方程为:yhat=b0+b1x1+b2x2+…+bjxj+…+bpxp,其中bj 的名称是什么,它的意义是什么?若比较各自变量对因变量影响的大小,应通过什么统计量比较?判断多元线性回归分析的效果应看那些指标?(10分)

答案:bj 称为偏回归系数,意义是在其他自变量固定不变的条件下,自变量xi 每改变一个单位时所引起的因变量y 的平均改变量。

比较各自变量对因变量影响的大小,应通过bj 的大小来比较。

常用的多元线形回归分析的效果指标有决定系数R 2(是回归平方和占总平方和的比例,值越大,回归效果越好)、复相关系数(决定系数的算术平方根,反应应变量和自变量线性组合见得相关关系的密切程度R 越就接近1,线性关系越密切)、校正决定系数(越大回归效果越好)、剩余标准差(不能有m 个自变量的变化解释的Y 的变异,越小回归效果越好)等。

2001级七年制临床医学专业考试试题答案

1、同质:对研究指标影响较大的、可以控制得主要因素尽可能相同。 变异:同质基础上各观察单位的某变量值得差异称为变异。

2、均数的抽样误差:由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。

3、假设检验P 值含义:P 值是指从所规定得总体中随机抽样时,获得等于及大(负值时为等于及小于)现有样本统计量的概率。

若,按检验水准不拒绝,可认为现有样本所代表的总体与已知总体的差别是由抽样误差造成的。若,依据“小概率事件在一次随机试验中认为不可能发生”的定理,拒绝,接受;可认为从已知总体抽到现有样本得可能性很小,该样本可能来自另一总体。

4、变量及其变量类型:

变量:在搜集资料时,对每个观察单位得某项特征进行测量或观察,该特征称为变量。 变量类型:

1.数值变量其变量值是定量的,表现为数值得大小,通常用仪器或某种尺度测定出来,多有度量衡单位。由数值变量的测定值组成的资料称为数值变量资料或计数资料。如:身高、体重、心律、住院天数、血压等。

2.分类变量亦称定性变量,表现为互不相容的类别或属性。分类变量可分为无序与有序两类:

(1)无序分类分类是指所分类别或属性之间无程序或顺序上的差别。分析无序分类变量时,应先按类别分组,计各组的观察单位数,所得资料称为无序分类变量资料或计数资料。如:性别(男、女),血型(O 、A 、B 、AB )等。

(2)有序分类变量是指所分类别或属性之间无程序或顺序上的差别。分析有序分类变量时,应先按等级顺序分组,计各组的观察单位数,所得资料称为有序分类变量资料或等级资料。如:尿糖化验结果按-、±、+、++、+++分类,疗效按治愈、好转、无效、恶化分组。 二、

标准差:计算公式:()1

n s —∑-=

X X

(1) 表示观察值的变异程度 (2) 计算变异系数%100s

?=

X

CV (3) 确定医学参考值范围 (4) 计算标准误

(5) 与样本含量没有关系 标准误:计算公式:n

s s x

=

(1) 估计均数的抽样误差的大小 (2) 估计总体均数可信区间 :

),(,,x 2x 2s t s t ν

αν

α+-X X

(3) 进行假设检验 (4) 与样本含量成反比

三、1、t 分布,均数的区间估计:

1)δ未知且n 小:()

x 2x 2s t s t νανα,,,+-X X 2)δ未知,但n 足够大时(n>100),t 分布逼近u 分布:()

x 2x 2s u s u αα+-X X ,

3)δ已知:()

x 2x 2u u σσαα+-X X ,

2、二项分布:当样本含量n 足够大,且样本率p 或1-p 均不太小,如np 与n (1-p )均大于5时,样本率p 的抽样分布近似正态分布,总体率π的可信区间:()

p 2p 2s u p s u p αα+-,

3、Poisson 分布:当样本阳性数X>50时,可按正态近似原理先求总体平均数μ的95%或99%可信区间:

()

X u X X u

X 22

αα+-,

四、方差分析的应用条件:

1)各样本是相互独立的随机样本;2)个样本来自正态分布总体;3)各总体方差相等,即方差齐。

应用:1)两个或多个样本的均数间的比较;2)分析两个或多个因素间的交互作用;3)回归方程的线性假设检验;4)多元线性回归分析中偏回归系数的假设检验等。 五、该设计是2*4析因设计

设计方案如下,如图所示,可将八个样品随机分为下面的八组: A1 A2 A3 A4 B1 A1B1 A2B1 A3B1 A4B1 B2 A1B2 A2B2 A3B2 A4B2

先为八个样品按取样先后标上1、2、3、4、5、6、7、8,再用随机数字表将其标上随机数字,(随机数字表略去)将随机数字排秩,按秩次的1到8,分别取从A1B1、A1B2、A2B1、...、A4B2。进行实验。

六、先将受试对象编号,再利用随机列表或随机数字表或计算机软件产生的随机数字,按某一行将受试对象编上随机数字,然后将其随机数字编秩,秩次为奇数的分为一组,秩次为偶数的分为一组进行实验。这就是完全随机设计两样本比较的分析思路。 其检验统计量t值是:

2

2

1s s t 1X X X X --=

, 2n n 21-+=ν

七、

非条件logisti 回归模型:

()

(m m 22110m m 22110ex p 1ex p X X X X X X P ββββββββ+++++++++=

其中0β是常数项,m 21βββ 、为偏回归系数。

2002级临床医学七年制《医学统计学》期末考试题(A 卷)

一、试述标准差与标准误的联系与区别。

二、请以完全随机设计资料为例说明方差分析的基本思想。

三、在某次假设检验中, =α0.05,所得的概率为

四、研究人员调查了2005年某社区全部居民的全死因死亡及恶性肿瘤死亡人数(见表1),根据该资料可以得出哪些统计信息? (10分)

表1 某社区居民2005年死亡人口调查 年龄

人口数

全死因

死亡人数 恶性肿瘤 死亡人数 0~ 82920 138 4 20~ 46639 63 12 40~ 28161 172 42 60~ 9370 342 32 合计 167090

715

90

五、请解释多元线性回归分析中R 2和m y s 123?的统计学意义。 六、什么是随访资料中的截尾值?出现截尾值的原因有哪些?

七、中国人民解放军总后卫生部军需装备研究所研究五种类型的军装在两种环境、两种活动状态下着装战士的主观热感觉(用评分表示),且需要进行全搭配实验,应采用何种设计?需安排几个实验组?请写出设计方案。

八、今测得101名30~49岁的正常成年男子的血清总胆固醇(表2)。试根据此资料进行全面的统计分析。(10分) 血清胆固醇(mmol/L) 频数

2.5~ 1

3.0~ 8 3.5~ 9

4.0~ 23 4.5~ 25

5.0~ 17 5.5~ 9

6.0~ 6 6.5~ 2

7.0~7.5 1

合 计

101 九、为了比较工人和农民的高血压患病率,随机调查了50~59岁的男性工人1281人,其中高血压患者386人;又随机调查了50~59岁的男性农民387人,其中高血压患者65人。问工人与农民的高血压患病率是否相同?

十、今测得10名男20岁男青年的身高与前臂长(表3),问二者有无线性相关关系,若有相关关系,其相关关系的密切程度及方向如何。(10分)

表3 10名男20岁男青年的身高与前臂长

编号 1 2 3 4 5 6 7 8 9 10 身高(cm) 170 173 160 155 173 188 178 183 180 165 前臂长(cm)

45 42 44 41 47 50 47 46 49 43

可能用到的界值: 860.18,05.0=t , 833.19,05.0=t ,306.28

,205

.0=t , 262.29

,205.0=t 。

2002级临床医学七年制《医学统计学》期末考试试题(A )参考答案

一、试述标准差与标准误的区别和联系 答:区别:

⑴意义:标准差是描述数据分布离散程度的指标;标准误是样本统计量的标准差。 ⑵公式:1

)(2--=

∑n X X

S ;n

S S

X

=

(2分)

⑶用途:标准差①用于表示数据离散程度的大小;②也可用于计算变异系数、估计频数分布、制定参考值范围、进行质量控制;③

很多统计处理方法中要用到标准差。

标准误①用于反映抽样误差的大小;②计算总体均数的可信区间;③统计处理方法的基础,如t 检验。

联系:标准误与标准差成正比;若标准差固定不变,可通过增加样本含量来减少抽样误差。 二、请以完全随机设计为例说明方差分析的基本思想

答:方差分析的基本思想就是把全部观察值间的变异----总变异按设计和需要分解成两个或多个组成部分,产生每部分变异的来源可能不同,比较各部分变异的大小。在完全随机设计资料的方差分析中,是把总变异分解为组间变异和和组内变异:总SS 分解为组间SS 和组内SS ;

总ν分解为组间ν和组内ν,得组间变异和组内变异分别为组间MS =

组间

组间

νSS 和组内MS =

组内

组内

νSS ,若各组的来自同一总体,则各组间的变

异与组内变异一样,均由随机误差所致,组间MS =组内MS ,F 值(组内

组间MS MS F

=

)服从F 分布,查F 界值表得到相应的P 值,然后根

据所取的检验水准α做出推断结论。答案难以统一,只要基本意思表达正确,均应给分,阅卷时需灵活掌握,注意把握尺度。 三、在某次假设检验中,检验水准为=α

0.05,所得的概率为

答:α称检验水准,是预先给定的概率值,它确定了小概率事件的标准;P 的含义是指从0H 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率,即抽样误差的概率。将获得的概率P 与检验水准α进行比较可得出结论。本例=α

0.05,

四、研究人员调查了2005年某社区全部居民的全死因死亡及恶性肿瘤死亡人数(见表1),根据该资料可以得出哪些统计信息? 答:可以得到以下统计信息:各年龄组人口构成比、各年龄组全死因构成比、恶性肿瘤死因构成比和各年龄组恶性肿瘤死亡构成比、粗死

亡率和年龄别死亡率、恶性肿瘤死亡率和年龄别恶性肿瘤死亡率。(不要求:肿瘤后的死亡人数占全死因死亡人数的比例、全死因寿命表死亡概率、全死因寿命表生存概率、去肿瘤死亡后的生存概率、去肿瘤死亡后的尚存人数、去肿瘤死亡后的死亡人数、去肿瘤死亡后的生存人年数、去肿瘤死亡后的生存总人年数、去肿瘤死亡后各年龄尚存者的平均预期寿命。) 五、请解释多元线性回归分析中R 2

和m y s 123?的统计学意义。

答:R 2

为决定系数,其意义是回归平方和回归SS 占总离均差平方和总SS 的比例,用R 2

可定量评价在

y 的总变异中,由x 变量组建立的

线性回归方程所能解释的比例。m y s 123?为剩余标准差,可以说明估计值的精确度,剩余标准差越小,表示回归方程的估计精度越高。 六、什么是随访资料中的截尾值?出现的原因有哪些?

答:由于某种原因使得部分病人不能随访到底,称之为截尾,从起点至截尾点所经历的时间称为截尾值。出现截尾值的原因主要有随访对象失访、治疗措施改变、研究工作结束时事件尚未发生等情况。

七、研究五种类型的军装在两种环境、两种活动状态下着装战士的主观热感觉(用评分表示),且需要进行全搭配实验,应采用何种设计?需安排几个实验组?请写出设计方案。

答:应采用2×2析因设计,需安排4个实验组。具体设计方案如下:

状态1 状态2 环境1

1 2 3 4 5

1 2 3 4 5

环境2

1 2 3 4 5

1 2 3 4 5

八、今测得101名30~49岁正常成年男子的血清总胆固醇(表2)。据此资料进行全面的统计分析。(10分) 答:⑴由频数表可看出,资料近似服从正态分布,可用均数和标准差描述其集中趋势和离散趋势。

74.4==∑∑f

fX X ,8816.01

)(2

2

=--

=

∑∑∑∑f

f

fX fX

S

⑵制定95%参考值范围:

),(4631.60071.38816.0*96.174.496.1=±=±S X ⑶估计总体均数的可信区间:n=101>50

)9071.4,5632.4(101

8816.096

.174.42

=±=±n

S u X α

九、为了比较工人和农民的高血压患病率,随机调查了50~59岁的男性工人1281人,其中高血压患者386人;又随机调查了50~59岁的男性农民387人,其中高血压患者65人。问工人与农民的高血压患病率是否相同? 答:首先将资料整理成下表形式:

是否患高血压 是 否 合计 工人 386 895 1281 农民 65 322 387 合计

451

1217

1668

1.建立检验假设,确定检验水准

,:210ππ=H 工人与农民的高血压患病率相同 ,:210ππ≠H 工人与农民的高血压患病率不同

05.0=α

2.选定检验方法,计算检验统计量(可选用下列两种方法之一): (1)2

χ检验:

80

.261217

*451*387*12811668*)65*895322*386())()()(()222=-=++++?-=

d b c a d c b a n bc ad (χ (2)u 检验:

17

.5)

387

1

12811)(2704.01(2704.01680.03013.0)1

1)(

1(2

12

1=+--=

+--=

n n p p p p u c c

⑶确定P 值,作出推断结论

84.380.262>=χ,(或96.117.5>=u ),所以P <0.05。拒绝0H ,接受1H ,可以认为工人和农民的高血压患病率不同。

十、今测得10名男20岁男青年的身高与前臂长(表3),问二者有无线性相关关系,若有相关关系,其相关关系的密切程度及方向如何。(10分) ⑴作散点图(略) ⑵求相关系数

∑∑∑∑∑=====2069029852578541454172522

Y X

XY Y X ,,,,

22610

1725

*45478541=-

=xy l ,

5.9621017252985252=-=xx

l , 4.7810

454206902

=-=yy l

8227.05

.962*4.78226==

=

yy

xx xy l l l r

⑶相关系数的假设检验 ①,0:0

=ρH 两变量间无线性相关关系

,:01≠ρH 两变量间有线性相关关系

05.0=α

05.48

82.0182.02

12

2

=-=

--=

n r r t

③,860.1>t

所以P <0.05,拒绝0H ,接受1H ,可以认为两变量间存在线性相关关系,并且呈正相关,即身高越长,前臂长越长。

2002级临床医学七年制《医学统计学》期末考试题(B 卷)

一、 试述t 分布与u 分布的联系与区别。 二、 请以完全随机设计资料为例说明方差分析的基本思想。 三、 什么是假设检验的检验效能?其大小与哪些因素有关系?

四、某医师对一组高血压病人在治疗过程中作追踪观察,记录其死因,并与未作治疗的高血压病人组作比较,两组死因构成比见表1。有人据此提出:“高血压患者经过治疗虽然可以降低充血性心力衰竭等的病死率,但却使因冠状动脉硬化性心脏病和心脏病猝死的死亡危险性增加了。”这样的认识是否正确,为什么?

死 亡 原 因

治疗组 未治疗组 充血性心力衰竭

4.3 23.2 脑血管病 23.2 39.6 尿毒症

9.8 12.2 冠状动脉病和心脏病猝死 48.7 17.1 其它原因

14.0 7.9 合 计

100.0 100.0

五、请分别解释Logistic 回归模型和Cox 回归模型中偏回归系数的意义。 六、生存时间资料有哪些特点?生存分析常用的分析方法有哪些?

七、某研究室人员为研究5个不同剂量的甲状腺提取液对豚鼠甲状腺重的影响,考虑到豚鼠的种系和体重对观测指标可能有一定的影响,选用5个种系的豚鼠作实验,并按5个不同的体重标准选择受试对象,根据专业知识得知,药液、豚鼠种系、体重之间不存在交互作用。本研究应采用何种设计类型?共需多少只豚鼠?请写出实验设计方案。 八、今测得101名30~49岁的正常成年男子的血清总胆固醇(表2)。试根据此资料进行全面的统计分析。(10分)

血清胆固醇(mmol/L)

频数 2.5~ 1 3.0~ 8 3.5~ 9 4.0~ 23 4.5~ 25 5.0~

17

5.5~ 9

6.0~ 6 6.5~ 2

7.0~7.5 1

合 计

101 九、某医院收集了305例手术患者的资料,其中手术时间≥5小时者242人,感染者13人;手术时间<5小时者63人,感染者7人。试据此分析手术时间长短对患者切口感染是否有影响?

十、某地10名一年级女大学生的胸围(cm )与肺活量(L )数据如表3所示,试进行直线回归分析。(10分)

学生编号 1

2

3

4

5

6

7

8

9

10

胸围X

72.5 83.9 78.3 88.4 77.1 81.7 78.3 74.8 73.7 79.4

肺活量Y 2.51 3.11 1.91 3.28 2.83 2.86 3.16 1.91 2.98 3.28

可能有用到的界值: 860.18,05.0=t , 833.19,05.0=t ,306.28

,2

05

.0=t , 262.29

,205.0=t 。

方差分析用F 界值: 32.5)8,1(05.0=F

2002级临床医学七年制《医学统计学》期末考试试题参考答案(B 卷)

一、试述t 分布与u 分布的异同与联系 (10分)

答:相同点: t 分布与u 分布均为以0为中心的单峰对称分布。

不同点:(1)t 分布是一个分布族,t 曲线的形状与自由度有关,自由度越小,t 值越分散,曲线越低平;自由度越大,t 值越往中间集中,曲线峰值越高。而u 分布即标准正态分布的图形,是唯一的一条曲线。

(2)特定自由度的t 分布曲线与u 分布曲线相比,峰值低而尾部高翘,相应区间内曲线下的面积小于u 分布。 联系:t 分布的极限形式是u 分布。随着自由度的增加,t 分布逐渐接近u 分布,当自由度ν→∞时,t 分布→u 分布。 二、请以完全随机设计为例说明方差分析的基本思想

答:方差分析的基本思想就是把全部观察值间的变异----总变异按设计和需要分解成两个或多个组成部分,产生每部分变异的来源可能不同,比较各部分变异的大小。在完全随机设计资料的方差分析中,是把总变异分解为组间变异和和组内变异:总SS 分解为组间SS 和组内SS ;

总ν分解为组间ν和组内ν,得组间变异和组内变异分别为组间MS =

组间

组间

νSS 和组内MS =

组内

组内

νSS ,若各组的来自同一总体,则各组间的变

异与组内变异一样,均由随机误差所致,组间MS =组内MS ,F 值(组内

组间MS MS F =

)服从F 分布,查F 界值表得到相应的P 值,然后根

据所取的检验水准α做出推断结论。

三、什么是检验效能?其大小与哪些因素有关? (10分)

答:检验效能是指,在假设检验中,当无效假设H 0不正确时,用现有统计方法能够检验出其错误的能力,其概率用1-β表示。其中β为犯第二类错误即当H0不正确但不拒绝H 0的概率。

检验效能的大小与设定的检验水准α、样本含量n 、两总体参数的差值δ 有关。其它条件一定时,α越大,检验效能越高;样本量n 越大,检验效能越高;两总体参数的差值δ 越大,检验效能越高。反之,检验效能越低。 五、请分别解释Logistic 回归模型和Cox 回归模型中偏回归系数的意义。

答:Logistic 回归模型中的偏回归系数βi 的意义为,当其它协变量均不变时,x i 每变化一个单位或一个等级时, 比数比的自然对数(ln OR i ) 平均变化βi 个单位,可以反映x i 对结局事件的作用强度。

Cox 回归模型中的偏回归系数βi 的意义为,当其它协变量均不变时,x i 每变化一个单位或一个等级时, 相对危险度的自然对数(ln RR i ) 平均变化βi 个单位,可以反映x i 对结局事件的作用强度。

八、答:⑴由频数表可以看出,资料近似服从正态分布,可以用均数和标准差描述其集中趋势和离散趋势。

74.4==∑

∑f fX X ,

8816

.01

)(2

2

=--

=∑∑∑∑f f

fX fX

S

⑵制定95%参考值范围:

),(4631.60071.38816.0*96.174.496.1=±=±S X ⑶估计总体均数的可信区间

)9071.4,5632.4(101

8816.096

.174.42

=±=±n

S u X α

九、答:首先将资料整理成下表形式:

手术时

间 是否感染

是 否 合计 <5小时 13 229 242 ≥5小时 7 56 63 合计

20 285

305

1.建立检验假设,确定检验水准

,:210ππ=H 两组患者总体感染率相同 ,:210ππ≠H 两组患者总体感染率不同

05.0=α

2.选定检验方法,计算检验统计量(可用两法之一): (1)2

χ检验:

832.1285

2063242305)230572295613())()()(()22

22

=????-?-?=++++?--=d b c a d c b a n n bc ad (χ (2)u 检验:

354

.1)

63

1

2421)(0656.01(0656.06312421211111.00537.0)11)(1(1121212121=+-??? ??+--=+-???? ??+--=n n p p n n p p u c c ⑶确定P 值,作出推断结论

84.3832.12<=χ,(或96.1354.1<=u ),所以P >0.05。按05.0=α的检验水准, 不拒绝0H ,尚不能认为手术时间长短对患

者切口感染有影响。

十、答:⑴作散点图,散点图呈直线趋势。 ⑵求回归方程

∑∑∑∑∑=====8397.79,19.62322618.220483.271.78822

Y X

XY Y X ,,,

3357.1110

83

.27*1.788618.2204=-

=xy l ,

029.21210

1.78819.623222

=-=xx

l , 3888.21083.278397.792

=-

=yy l

0535

.0029

.2123357

.11==

=

xx

xy l l b ,

4304

.181.780535.0783.2-=?-=-=x b y a 故回归方程为

X Y 0535

.0434.1?+-=。 ⑶回归方程的假设检验

①,0:0

=βH 两变量间无线性关系

,:01≠βH 两变量间有线性关系

05.0=α

3888

.2==yy l SS 总, 91=-=n 总ν

6060.0029

.2123357.1122

====XX XY XY

l l bl SS 回归, 1=回归ν 7828.16060.03888.2=-=-=回归总剩余SS SS SS 82=-=n 剩余ν

72.28

7828.11

6060.0==

=

回MS MS F 。

③,)8,1(05.0F F

<所以P >0.05,不拒绝0H ,尚不能认为两变量间存在线性关系。

三、 常用的抽样分布及参数及其参数的区间估计

1 数值变量资料的n 分布和t 分布 总体均数u 的95%可信区间为

一,σ未知且n 小时,按t 分布原理计算:() 二,σ未知,但n 足够大时,t 分布逼近u 分布:() 三,σ已知时,按u 分布原理计算()

2 分类变量资料的二项分布和Poisson 分布 二项分布资料:总体率π的95%可信区间为

一,查表法:当样本含量n 较小,如n ≤50时,特别是p 原理0.5时。根据n 和阳性数X 查“百分率的可信区间”表 二,正态近似法:当样本含量n >50,且样本率p 或(1-p )均大于5时,p ±1.96Sp ,即(p-1.96Sp ,p+1.96Sp ) Poisson 分布资料:总体平均数(阳性数)u95%可信区间为

一,查表法,当样本计数X ≤50时,用X 值查Poisson 分布u 的可信区间 二,正太近似法:当样本阳性数X >50时,(X-1.96√X,X+1.96√X)

您好,欢迎您阅读我的文章,WORD 文档可编辑修改,希望您提出保贵的意见或建议,让我们共同进步。

相关文档
相关文档 最新文档