文档库 最新最全的文档下载
当前位置:文档库 › 统计学考研真题精选11

统计学考研真题精选11

统计学考研真题精选11
统计学考研真题精选11

统计学考研真题精选11

(总分:300.00,做题时间:150分钟)

一、单项选择题

(总题数:28,分数:28.00)

1.对于线性回归模型为了进行统计推断,通常假定模型中各随机误差项的方差( )。(分数:1.00)

A.均等于0

B.均相等√

C.不相等

D.均不为0

解析:

线性回归模型对随机误差项的假定为:随机误差项ε的期望值为0;对于所有的x值ε的方差σ2都相等;ε是一个服从正态分布的随机变量且各随机误差项之间相互独立,即ε~N(0,σ2)

2.在线性回归分析中,残差平方和SSE相对总平方和SST越小意味着()。(分数:1.00)

A.线性关系越不显著

B.随机误差产生的影响相对越小,模型越有效√

C.线性关系之外的其他因素的影响相对越大

D.统计软件中的F值越小

解析:

在线性回归分析中,残差平方和SSE相对总平方和SST越小,则回归平方和 SSR相对总平方和越大,F检验统计量的值越大;从而线性关系越显著,线性关系之外的其他因素(随机误差等)产生的影响相对越小,故模型也越有效。

3.回归分析中的估计标准误差()。(分数:1.00)

A.可以是负值

B.等于因变量的平方根

C.是根据残差平方和计算的√

D.等于自变量的平方根

解析:

回归分析中的估计标准误差是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差(MSE)的平方根,用s e来表示,其计算公式为:

4.产量(X,台)与单位产品成本(Y,元/释合理的是()。(分数:1.00)

A.产量每增加一台,单位产品成本增加248元

B.产量每增加一台,单位产品成本减少2. 6元

C.产量每增加一台,单位产品成本平均增加245. 4元

D.产量每增加一台,单位产品成本平均减少2. 6元√

解析:

一元线性回归方程的形式为:E(y)=β0+β1x其中A是直线的斜率,它表示当x每变动一个单位时,y的平均变动值。题中,回归方程的回归系数为-2.6,表示产量每增加一台,单位产品成本平均减少2. 6元。

5.下列关于相关系数的描述中,不正确的是()。(分数:1.00)

A.相关系数是反映两个变量之间线性关系的度量

B.相关系数具有对称性

C.计量尺度改变不影响相关系数

D.相关系数是两个变量间因果关系的度量√

解析:

相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量,相关系数具有以下的特点:①r 的取值范围是[-1,1];②r具有对称性;③改变x和y的数据原点及计量尺度,不改变r的数值大小;④r 是两个变量之间线性关系的一个度量,不意味着x与y —定有因果关系。

6.在回归分析中,因变量的预测区间估计是指()。(分数:1.00)

A.

对于自变量x的一个给定值x0,求出因变量y的平均值的区间

B.

对于自变量x的一个给定值x0。,求出因变量y的个别值的区间

C.

对于因变量y的一个给定值y0,求出自变量x的平均值的区间

D.

对于因变量y的一个给定值y0,求出自变量x的个别值的区间

解析:

预测区间估计是对x的一个给定值x0,求出y的一个个别值的估计区间,这一区间称为预测区间。对x的一个给定值x0,求出y的平均值的估计区间,这一区间称为置信区间。

7.在回归分析中,残差平方和SSE反映了 y的总变差中()。(分数:1.00)

A.除了 x对y的线性影响之外的其他因素对y变差的影响√

B.由于x与y之间的线性关系引起的y的变化部分

C.由于x与y之间的非线性关系引起的y的变化部分

D.由于y的变化引起的x的误差

解析:

残差平方和或误差平方和是除了 x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y i变差部分,记为SSE。

8.—元线性回归中,以下哪一种残差图特点可以说明回归模型的运用是不合理的?( )(分数:1.00)

A.残差落在一水平直线附近

B.残差落在一倾斜直线附近√

C.残差的正态概率图大致落在一条直线附近

D.残差关于一水平直线大致对称

解析:

若对所有的x值,ε的方差都相同,而且假定描述变量x和y之间关系的回归模型是合理的,那么残差图中的所有点都应落在一条水平带中间。如果,对于较大的x值,相应的残差也较大,这就意味着违背了ε方差相等的假设。

9.在回归变量Y关于预测变量X的回归分析中,若以x为横坐标,y为纵坐标,绘散点图,最小二乘原则是指()。(分数:1.00)

A.各点到直线的垂直距离的和最小

B.各点到x轴的纵向距离的平方和最小

C.各点到直线的垂直距离的平方和最小

D.各点到直线的纵向距离的平方和最小√

解析:

最小二乘法也称为最小平方法,它是用最小化垂直方向(纵向距离)的离差平方和来估计参数。

10.欲调查两变量(X和Y)的相互关系,收集一份数据作线性相关分析,经计算得到样本相关系数r =0.38,可以说()。(分数:1.00)

A.X和Y无关,因r值较小

B.不能确定X和Y是否相关以及相关密切程度,因不知n的大小

C.虽然X和Y相关,但不能认为X和Y有因果关系√

D.因r>0,可以认为X和Y存在线性相关关系

解析:

对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:当|r|≥0.8时,可视为高度相关;

0.5≤|r|<0.8时,可视为中度相关;0.3≤|r| <0.5时,视为低度相关;当|r|<0.3时,说明两个变量之间的相关程度极弱,可视为不相关。即|r|→ 0说明两个变量之间的线性关系越弱;|r|→ 1说明两个变量之间的线性关系越强。 r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。

11.在因变量的总离差平方和中,如果剩余平方和所占的比重大,回归平方和所占的比重小,则两变量之间()。(分数:1.00)

A.相关程度高

B.相关程度低√

C.完全相关

D.完全不相关

解析:

,回归平方和所占的比重小,即判定系数小,则两变量之间的相关程度低。

12.关于有常数项的一元线性回归方程,以下正确的是()。(分数:1.00)

A.判定系数等于自变量和因变量的相关系数

B.判定系数等于自变量和因变量相关系数的平方√

C.自变量和因变量相关系数等于判定系数正的平方根

D.修正的判定系数等于自变量和因变量相关系数的平方

解析:

在一元线性回归中,相关系数实际上是判定系数的平方根。相关系数与回归系数的符号一致。

13.如果Y关于X的回归方程为y=2-x,而且这个回归方程的R2=0.81,则x与y之间的相关系数()。(分数:1.00)

A.r = 1

B.r = - 1

C.r =0. 9

D.r = -0. 9 √

解析:

14.以回归方程Y= a+bX作相关分析与回归分析,关于样本相关系数r与回归系数b, 下列各论断中哪一个更合理?()(分数:1.00)

A.r>0时b<0

B.r>0时b>0 √

C.r=1时b=0

D.r=1时b=1

解析:

r>0说明y与x正相关,所以b>0。|r|=1说明y的取值完全依赖于x、二者之间即为函数关系,但6的取值并不确定。

15.变量x与y的相关系数的符号取决于()。(分数:1.00)

A.变量x的标准差

B.变量y的标准差

C.变量x和y两标准差的乘积

D.变量x和y的协方差√

解析:

随机变量x和y相关系数的计算公式为:

随机变量x和y的协方差的计算公式为:

比较两个计算公式可知,随机变量x和y的相关系数的符号和协方差的符号相同。

16.在线性回归模型中,根据判定系数R2与F统计量的关系可知,当R2=0时,有( )。(分数:1.00)

A.F = -1

B.F=0 √

C.F =1

D.F =∞

解析:

F统计量与R2的关系为

当R2=0时,SSR=0,即有F=0。

17.将一枚硬币重复投掷n次,用X和Y分别表示正面朝上和反面朝上的次数,则X 和Y的相关系数等于()。(分数:1.00)

A.-1 √

B.0

C.1/2

D.1

解析:

将一枚硬币重复投掷n次,正面朝上和反面朝上的次数关系为X +Y= n即X= n-y,X与Y为完全负线性相关关系,所以相关系数为-1。

18.已知变量X和Y的协方差为-50,X的方差为180,Y的方差为20,其相关系数为()。(分数:1.00)

A.0.83

B.-0.83 √

C.0.01

D.-0.01

解析:

19.1000件时,生产成本为3万元,其中固定成本6000元,建立总生产成本对产量的一元线性回归方程应是()。(分数:1.00)

A.

y c =6000 +24x

B.

y c =6 +0.24x

C.

y c =24000 -6x

D.

y c =24 +6000x

解析:

由题设可知,该产品固定成本=6000元,单位成本= (30000 -6000)/1000 =24 (元/件),故线性回归方程的截距项为6000,回归系数为24。

20.利用最小平方法配合回归方程的数学依据是:令观察值和估计值之间()。(分数:1.00)

A.所有离差皆为零

B.离差之和为零

C.离差的平方和为零

D.离差平方和为最小√

解析:

21.在用回归方程进行估计推算时,()。

(分数:1.00)

A.只能用因变量推算自变量

B.只能用自变量推算因变量√

C.不须考虑因变量和自变量问题

D.自变量和因变量可相互推算

解析:

回归模型中自变量是给定的,即自变量是非随机的,因变量是随机的,所以在用回归方程进行估计推算时,只能用自变量推算因变量。

22.估计标准误差说明回归直线的代表性,因此()。(分数:1.00)

A.估计标准误差数值越大,说明回归直线的代表性越大

B.估计标准误差数值越大,说明回归直线的代表性越小√

C.估计标准误差数值越小,说明回归直线的代表性越小

D.估计标准误差的数值越小,说明回归直线的实用价值小

解析:

估计标准误差就是度量各实际观测点在直线周围的散布状况的一个统计量,它是均方残差的平方根。从估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量y时预测误差的大小。若各观测点越靠近直线,s e越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上,则s e=0, 此时用自变量来预测因变量时是没有误差的。

23.在一元线性回归中,检验H0:β1=0,下面结论正确的是()。(分数:1.00)

A.相关系数检验、t检验、F检验二种方法不等价

B.相关系数检验、t检验、F检验二种方法是等价的√

C.相关系数检验法只能用t统计量检验,不能用F统计量检验

D.F检验只能用F统计量检验,而不能用t统计量检验

解析:

24.利用估计的回归方程进行区间估计时,关于置信区间和预测区间,下面说法正确的是()。(分数:1.00)

A.置信区间比预测区间宽

B.预测区间比置信区间宽√

C.二者一样宽

D.不一定

解析:

25.对于一元线性回归模型,以s e表示估计标准误差,r表示样本相关系数,则有

()。(分数:1.00)

A.

s e = 0 时,r = 1

B.

s e = 0 时,r =- 1

C.

s e = 0 时,r = 0

D.

s e = 0 时,r = 1或r =- 1

解析:

即模型与样本观测值完全拟合,从而自变量与因变量完全正相关或者完全负相关,即r = 1或r =- 1。

26.下列关于一元线性回归模型Y的平均值E(Y0)与个别值Y0的预测区间的说法,正确的是()。(分数:1.00)

A.X越远离其均值,预测区间越窄

B.样本容量n越大,预测精度越高

C.样本容量n越大,预测精度越低

D.样本容量一定时,平均值的置信区间比个别值的预测区间宽

解析:

预测区间为故X越远离其均值,求得的预测区间越宽;样本容量n越大,预测区间越窄,预测精度越高。而置信区间为,故样本容量一定时,平均值的置信区间比个别值的预测区间窄。

27.标准化残差图主要用于直观地判断()。(分数:1.00)

A.回归模型的线性关系是否显著

B.回归系数是否显著

C.误差项ε服从正态分布的假定是否成立√

D.误差项ε等方差的假定是否成立

解析:

如果误差项ε服从正态分布这一假定成立,那么标准化残差的分布也应服从正态分布。因此,在标准化残差图中,大约有95%的标准化残差在-2 ~ +2之间。

28.如果误差项e服从正态分布的假定成立,那么在标准化残差图中,大约有95%的标准化残差落在()。

(分数:1.00)

A.-2~ +2之间√

B.0~1之间

C.-1~+1之间

D.-1?0之间

解析:

二、多项选择题

(总题数:6,分数:24.00)

29.以下关于相关系数的说法中,正确的是()。(分数:4.00)

A.r数值大小与两个变量,坐标原点及测量尺度无关√

B.若r>0,则越接近于1,说明两变量正的因果关系越强

C.r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系√

D.

r具有对称性,即x与y之间的相关系数和y与x之间的相关系数相等,即r xy=r yx

E.根据计算出来的样本相关系数对总体的相关程度进行判断时,必须进行显著性检验√

解析:

相关系数只是表明两个变量间互相影响的程度和方向,它说明的是两个变量之间线性相关关系的强弱,并不能说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关系数非常大时,也并不意味着两变量间具有显著的因果关系。

30.在回归分析中,关于估计标准误差正确的是()。(分数:4.00)

A.估计标准误差大,回归直线代表性小,因而回归直线实用价值大

B.估计标准误差大,回归直线代表性小,因而回归直线实用价值也小√

C.估计标准误差小,回归直线代表性小,因而回归直线实用价值也小

D.估计标准误差大,回归直线代表性大,因而回归直线实用价值小

E.估计标准误差可以看作排除%对:k影响后,:k随机波动大小的估计量√

解析:

估计标准误差是表明回归方程理论值与实际值之间离差的平均水平的指标。其作用有:它可以说明以回归直线为中心的所有相关点的离散程度;它可以说明回归方程的理论值代表相应实际值的代表性大小;它可以反映两变量之间相关的密切程度。

31.下列各项中,可以采用回归分析的有()。(分数:4.00)

A.圆的半径与面积

B.人均可支配收入和消费性支出√

C.小学生的识字多少与他们的鞋子尺寸

D.作物产值与农作物种植面积√

E.我国的国内生产总值和印度的人口

解析:

A项是确定性的函数关系;CE两项通过定性分析可知,小学生的识字多少与他们的鞋子尺寸是没有关系的;我国的国内生产总值和印度的人口数量也是没有关系的;BD 两项存在相关关系,可以采用回归分析。

32. 关于相关分析与回归分析的说法,正确的有()。(分数:4.00)

A.两者都是研究非确定性变量间的统计依赖关系√

B.两者都可以测度线性依赖程度的大小√

C.在相关分析中变量的地位是对称的√

D.在回归分析中变量的地位是不对称的√

E.相关分析中的变量可以是随机变量,也可以是非随机变量

解析:

相关分析与回归分析的联系和区别分别是:①联系:两者都是研究非确定性变量间的统计依赖关系,并能测度线性依赖程度的大小。②区别:a.相关分析中变量的地位在相关分析中是对称的,而且都是随机变量;回归分析中变量的地位是不对称的,有自变量与因变量之分,而且自变量也往往被假设为非随机变量;b.相关分析只关注变量间的联系程度,不关注具体的依赖关系;而回归分析则更加关注变量间的具体依赖关系。

33.下列关于判定系数R2的说法,正确的有()。(分数:4.00)

A.

残差平方和越小,R2越小

B.

残差平方和越小,R2越大

C.

R2=1时,模型与样本观测值完全拟合

D.

R2越接近于1,模型的拟合优度越高

E.

判定系数的取值范围为0≤R2≤1

解析:

34.对于一元线性回归模型,对x的一个给定值x,y的平均值的置信区间和个别值的预测区间分别为()。(分数:4.00)

A.

B.

C.

D.

E.

解析:

三、判断题

(总题数:9,分数:9.00)

35.一元回归模型的判定系数R2表明了回归直线对观测数据的拟合程度。()(分数:1.00)

A.正确√

B.错误

解析:

R2越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线对观测数据的拟合程度就越好;反之,R2越接近于0,回归直线对观测数据的拟合程度就越差。

36.公司的业绩与股票价格是因果关系,其中股票价格大跌是因,公司的业绩下降是果。( )(分数:1.00)

A.正确

B.错误√

解析:

公司业绩与股票价格之间存在不确定的数量关系,公司的业绩会影响股票的价格,而股票的价格也会对公司的业绩产生影响,即存在一定的相关关系,但并非因果关系。

37.回归分析是根据变量之间的主从或因果的回归关系,对变量之间的数量变化进行测定,建立数学模型,对因变量进行预测或估计的统计分析方法。()(分数:1.00)

A.正确√

B.错误

解析:

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中的数学模型众多。回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

38.利用一个回归方程,两个变量可以互相推算。()(分数:1.00)

A.正确

B.错误√

解析:

回归方程给出的是因变量的预测方程,只能根据给定的自变量,然后预测出相应的因变量的值。

39.在回归分析中,定义的自变量和因变量都是随机变量。()(分数:1.00)

A.正确

B.错误√

解析:

在回归分析中,自变量是非随机变量,而因变量是随机变量。

40.回归模型中假定误差项ε是一个服从正态分布的随机变量,且相互独立。()(分数:1.00)

A.正确√

B.错误

解析:

41.通过增大样本容量和提高模型的拟合优度可以缩小置信区间。()(分数:1.00)

A.正确√

B.错误

解析:

根据置信区间的表达式:

可以看出,增大样本容量〃可以缩小区间半径;提高模型的拟合优度,则标准误差s e会变小,则区间的半径变小。两种方法都可以缩小置信区间。

42. 对于一元线性回归模型,如果自变量是显著的,那么自变量所对应的系数应该显著不为0。()(分数:1.00)

A.正确√

B.错误

解析:

43.估计量和估计值并没有什么区别,二者是同一概念。()(分数:1.00)

A.正确

B.错误√

解析:

估计量通常是样本的函数,是一个随机变量;而估计值是将观测到的样本数据带入估计量表达式后计算得到的一个具体数值。

四、简答题

(总题数:11,分数:70.00)

44.简述一元回归模型的基本假设。(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

(1)一元线性回归模型的概念

对于具有线性关系的两个变量,可以用一元线性方程来表示它们之间的关系。描述因变量y如何依赖于自变量x和误差项s的方程称为回归模型。

只涉及一个自变量的一元线性回归模型,可表示为:y=β0+β1x+ε

(2) —元线性回归模型的主要假设

①因变量y与自变量x之间具有线性关系;

②在重复抽样中,自变量x的取值是固定的,即假定x是非随机的;

③误差项ε是一个期望值为0的随机变量,即E(ε)=0;

④对于所有的尤值,ε的方差σ2都相同;

⑤误差项e是一个服从正态分布的随机变量,且独立,即σ2。

)

解析:

45.简述回归分析的一般过程。(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

回归分析是确定两个或两个以上变量间相互依赖的定量关系的一种统计分析方法,进行回归分析的一般过程为:

(1) 明确预测的具体目标,确定因变量和直变量。

(2) 进行相关分析。回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,

就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关系数,以相关系数的大小来判断自变量和因变量的相关的程度。

(3) 建立预测模型。依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程。

(4) 计算预测误差。回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。

(5) 确定预测值。利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

)

解析:

46.试问独立性与不相关之间的区别与联系?(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

两者的联系:独立性和不相关性都是随机变量间联系“薄弱”的一种反映。若z与f独立,则X与Y不相关。在二维正态分布中,不相关性与独立性是等价的。

两者的区别:两个随机变量相互独立与不相关是两个不同的概念,不相关只说明两个随机变量之间没有线性关系,但这时的X与Y可能有某种别的函数关系;而相互独立说明两个随机变量之间没有任何关系,既没有线性关系,也没有其他关系。

)

解析:

47.给出在一元线性回归中:(分数:15)

(1) 相关系数的定义和直观意义;(分数:5)

__________________________________________________________________________________________ 正确答案:(

相关系数是根据样本数据计算的,用来度量两个变量之间线性关系强度的统计量。样本相关系数的计算公式为:

相关系数r仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。r的取值在-1到1之间,当r的绝对值越接近于1时x与y之间线性相关关系越强;r= 0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,它们之间可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致r=0。因此,当r=0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图做出合理的解释。

)

解析:

(2) 判定系数的定义和直观意义;(分数:5)

__________________________________________________________________________________________ 正确答案:(

回归平方和占总平方和的比例称为判定系数,记为R2,其计算公式为:

判定系数R2测度了回归直线对观测数据的拟合程度。R2的取值范围是[0, 1]。及R2越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线的拟合程度就越好;反之,越接近于0,回归直线的拟合程度就越差。

)

解析:

(3) 相关系数和判定系数的关系。(分数:5)

__________________________________________________________________________________________ 正确答案:(

在一元线性回归中,相关系数r实际上是判定系数的平方根,其正负符号与回归方程中回归系数的符号相同。

)

解析:

48.利用相关系数如何判断变量之间相关的方向和相关关系的密切程度?(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

相关系数r的取值范围在-1~ +1之间。若0

|r| →1说明两个变量之间的线性关系越强;|r| →0说明两个变量之间的线性关系越弱。对于一个具体的r取值,根据经验可将相关程度分为以下几种情况:当|r| ≥0.8 时,可视为高度相关;当0.5≤|r|<0.8时,可视为中度相关;当0.3≤|r| <0.5时,视为低度相关;当|r| <0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数的显著性检验的基础之上。

)

解析:

49.概述相关分析与回归分析的联系与区别。(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

(1)相关分析和回归分析的联系

它们具有共同的研究对象,都是对变量间相关关系的分析,二者可以相互补充。相关分析可以表明变量间相关关系的性质和程度,只有当变量间存在相当程度的相关关系时,进行回归分析去寻求变量间相关的具体数学形式才有实际的意义。同时,在进行相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中相关系数的确定也是建立在回归分析基础上的。

(2)相关分析和回归分析的区别

①从研究目的上看,相关分析是用一定的数量指标(相关系数)度量变量间相互联系的方向和程度;回归分析却是要寻求变量间联系的具体数学形式,是要根据自变量的给定值去估计和预测因变量的平均值。

②从对变量的处理看,相关分析对称地对待相互联系的变量,不考虑二者的因果关系,也就是不区分自变量和因变量,相关的变量不一定具有因果关系,均视为随机变量;回归分析是在变量因果关系分析的基础上研究其中的自变量的变动对因变量的具体影响,必须明确划分自变量和因变量,所以回归分析中对变量的处理是不对称的,在回归分析中通常假定自变量在重复抽样中是取固定值的非随机变量,只有因变量是具有一定概率分布的随机变量。

)

解析:

(分数:10)

(1)该模型是否违背古典线性回归模型的假定,请简要说明;(分数:5)

__________________________________________________________________________________________ 正确答案:(

该模型违背了古典线性回归模型的假定。古典线性回归模型要求误差项具有等方差性,即对于不同的自变量X具有相同的方差。而由题意可知,误差项ε1的方差为σ2x t2,与自变量x t有关。

)

解析:

(2)如果对该模型进行估计,你会采用什么方法?请说明理由。(分数:5)

__________________________________________________________________________________________ 正确答案:(

如果对该模型进行估计,会采用加权最小二乘法。加权最小二乘法是在平方和中加人权数,以调整

各项在平方和中的作用,即寻找参数,使得离差平方和达到最小。这样,就消除了异方差性的影响。

)

解析:

51.回归分析结果的评价。(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

对回归分析结果的评价可以从以下四个方面入手:

(1)

(2) 如果理论上认为y与x之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此;

(3) 用判定系数R2来回答回归模型在多大程度上解释了因变量y取值的差异;

(4) 考察关于误差项ε的正态性假定是否成立。因为在对线性关系进行F检验和对回归系数进行t检验时,都要求误差项ε服从正态分布,否则,所用的检验程序将是无效的。检验s正态性的简单方法是画出残差的散点图或正态概率图。

)

解析:

52.具有哪些统计特性?若模型用于预测,影响预测精度的因素有哪些?(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

(1)回归分析中的误差序列一般有这些基本假定:①误差项ε是一个服从正态分布的随机变量,且独立。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关。②误差项ε是一个期望值为0的随机变量,即E(ε) =0。③对于所有的x值,ε的方差σ2都相同,即E~N(0,σ2)。

(2) 模型参数的最小二乘估计的统计特性:①线性,即估计量为随机变量y i的线性函

数;②无偏性,分别是截距系数a和斜率系数b是所有线性无偏估计量中具有最小方差的估计量。

(3) 影响预测精度的因素有:①预测的把握度要求。同样情况下,要求预测的把握度越高,则相应的预测区间就越宽,精度越低;②总体y分布的离散程度σ2。σ2越大,相应的预测区间就越宽,预测精度越低;③样本观测点的多少n,n越大,相应的预测区间就越窄,预测精度越高;④样本观测点中,解

释变量x分布的离散度。x分布越离散,预测精度越高;⑤预测点x0离样本分布中心的距离。预测

点越远离样本分布中心,预测区间越宽,,区间越窄,精度越高。

)

解析:

53.简述判定系数的含义和作用。(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

(1)判定系数的含义:回归平方和占总平方和的比例称为判定系数,记为R2,其计算公式为:

(2)判定系数的作用:判定系数R2测度了回归直线对观测数据的拟合程度。若所有观测点都落在直线上,残

差平方和SSE=0,R2=1,拟合是完全的;如果y的变化与X无关,x完全无助于解释y。可见R2的取值范围是[0, 1]。R2越接近于1,表明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归直线的拟合程度就越好;反之,R2越接近于0,回归直线的拟合程度就越差。

)

解析:

54.什么是置信区间估计和预测区间估计?二者有何区别?(分数:5.00)

__________________________________________________________________________________________ 正确答案:(

(1)置信区间估计,它是对x的一个给定值x0,求出y的平均值的估计区间,这一区间称为置信区间;预测区间估计,它是对x的一个给定值x0,求出y的一个个别值的估计区间,这一区间称为预测区间。

(2)置信区间估计和预测区间估计的区别:置信区间估计是求y的平均值的估计区间,而预测区间估计是求y的一个个别值的估计区间;对同一个x0。,这两个区间的宽度也是不一样的,预测区间要比置信区间宽一些。

)

解析:

五、计算题

(总题数:10,分数:169.00)

55.用Excel对气象站连续12年的统计资料进行回归分析,得到的部分结果如表11 -1所示。

表 11-1

(分数:25)

(1) 假设总体回归模型为Y=β0+β1X+ε,请推导β0和β1的最小二乘估计量。(分数:5)

__________________________________________________________________________________________

正确答案:(

最小二乘法即估计参数使得最小,且最小值总是存在。根据微积分的极值定理,对求Q相应的偏导数,并令其等于0,:

)

解析:

(2) 根据上述结果,计算五月份的降雨量y与四月份的平均气温x的相关系数。(保留2 位小数)(分数:5)

__________________________________________________________________________________________

正确答案:(

由表中数据可得:

回归系数的估计为正值,故降雨量y与平均气温x

)

解析:

(3) 写出估计的回归方程的表达式,并说明回归系数的含义。(保留4位小数)(分数:5)

__________________________________________________________________________________________

正确答案:(

由回归分析表结果可得回归方程为:

卫生统计学 考研

卫生统计学 (Health Statistics) 课程编号:学分数 5 周学时 4 课程性质:医学基础课 预修课程: 教学目的:掌握研究设计方法、基本的统计原理和方法,并能够将其应用于居 民健康状况研究、医疗卫生研究和医学科研。通过本课程的教学,帮助学生培养透过偶然现象探测事物内在规律的思维能力,使学生能应用统计的思维分析方法,有效地开展各项医疗卫生工作和研究工作。 基本内容:研究设计、基本统计原理、常用的统计推断方法 基本要求:学生应按本大纲具体要求,掌握统计学基本原理、常用的统计分析 方法和科学的研究设计方法。能够进行合理地研究设计,科学地搜集、整理、分析数据资料,作出合理推断,能够理论联系实际,分析解决实际问题。 教学用书:倪纵瓒主编《卫生统计学》,人民卫生出版社,2001年1月 教学内容、要求和课时安排: 一、绪论(学时数:2) 教学内容 卫生统计学的内容,统计工作的步骤,统计资料的类型,统计中的几个基本概念,学习卫生统计学应注意的问题。 教学要求 1.掌握:统计中的几个基本概念:随机现象,概率,总体,样本,抽样误 差,统计资料的类型。 2.熟悉:统计工作的一般步骤。 3.了解卫生统计学的主要内容,学习过程中应该注意的问题。 二、计量资料的描述(学时数:6+2) 教学内容 1.计量资料的频数表、图 2.计量资料的统计描述指标 集中趋势:均数,几何均数,中位数,百分位数; 离散趋势:极差和四分位数间距,方差和标准差,变异系数3.正态分布的概念和特征,正态曲线下面积分布规律,正态分布的应用,对数正态分布。 教学要求 1.掌握:计量资料的频数表。常用集中趋势指标的意义及适用范围。正态 分布曲线下的面积分配规律。 2.熟悉:常用集中趋势、离散趋势指标的计算方法。正常值范围的意义和 制定方法。

卫生统计学 案例版丁元林课后思考题答案

第一章:ECDBB 第二章:BDABC 第三章:DEBCD AEA 第四章:DCCDD DCBD 第五章:DCBDB AEEEC 第六章:CBEDC DDDDA 第七章:ACCBB DACEA 第八章:ABCDD BDADB 第九章:DDBCD AEA 第十章:BDCCE BDAEA 第十一章:CAEDC DBCCD 第十二章:BCAEE BA 第十三章:DDBCC BCDE 第十四章:无 第十五章:无 第十六章:无 第十七章:DBABC BDE 第十八章:无 第十九章:BDCDC CCADC 《卫生统计学》思考题参考答案 第一章绪论 1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的? 答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。 2、统计工作可分为那几个步骤? 答:设计、收集资料、整理资料、分析资料四个步骤。 3、举例说明小概率事件的含义。 答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。 第二章调查研究设计 1、调查研究有何特点? 答:(1)不能人为施加干预措施 (2)不能随机分组 (3)很难控制干扰因素 (4)一般不能下因果结论 2、四种常用的抽样方法各有什么特点? 答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。 (2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。 (3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。

2007级硕士研究生卫生统计学试卷(答案)

2007级硕士研究生卫生统计学试卷(答案及评分标准) 学号班级姓名考试成绩 一、名词解释(每小题2分,共12分) 1、复相关系数 R,度量应变量Y与多个自变量间得线性相关程度得指标,即观察值Y与回用R表示,R=2 归估计值y?之间得相关程度。 2、统计描述 指由统计指标、统计表、图等方法,对资料得数量特征及分布规律进行测定与描述,不涉及由样本推论总体得问题。 3.主效应 在析因设计资料得方差分析种,指某一因素各水平间得平均差别。 4、非参数检验 不依赖于总体分布得类型,对总体分布不做严格规定,对两个或多个总体分布得位置进行假设检验得方法。 5、假设检验 就是利用小概率反证法思想,从问题得对立面(H0)出发间接判断要解决得问题(H1)就是否成立。然后在H0成立得条件下计算检验统计量,最后获得P值来判断。这一过程称为假设检验。 6、平均发展速度 就是各环比发展速度得几何均数,说明某事物在一个较长时期中逐期平均发展得程度。 二、填空(每空0、5分,共10分) 1、调查144名30-40岁男子得血清胆固醇值近似服从正态分布,其均数为90 、3mg/dl,标准差为3 2、7mg/dl,则可推出该地30-40岁男子中约有__0、5 _%胆固醇在174、7mg/dl

以上,共有多少人 0、72(或1) 。 2、 拒绝H 0,只可能犯 第一类 错误,“接受” H 0只可能犯 第二类 错误。 3、 甲、乙、丙三地某两种传染病得发病率时,宜绘制_复式直条条__图、 4、 男、女两组儿童,人数分别为300及时250人,蛔虫感染率分别为35%及24%,其总感染 率为 30% ,总感染率得95%得置信区间为??? ? ? ??+?-550 7.03.096.13.0,550 7.03.096.13.0。 5、多个样本均数比较得方差分析其应用条件 各独立样本正态分布 与 方差齐性 。 6、 等级相关适用得条件就是 双变量非正态分布 , 总体分布型未知 , 等级资料 。 7、 两因素析因设计实验方差分析将处理组间变异分解为 A 因素得主效因、 B 因素得主效因 与 AB 得交互效应 。 8、 R ?C 表得2 χ检验,若表格中有一个方向按多个等级分类时,则称之为单向有序行列表, 当等级数大于3时,如检验各处理组各等级下得构成比有无差别时采用 2 χ检验 ,如检验各处理组各等级下得程度上有无差别时采用 秩与检验 。 9、 多元线性回归分析中自变量得选择方法有 全局择优法 与 逐步选择法 。 10、 r 就是 直线相关系数 (或称Pearson 积差相关系数) ,表示 具有直线关系得两变量间相关得密切程度与相关方向 。 三、最佳选择题(每小题1分,共20分) 1、 要表示某地区2003年SARS 患者得职业分布,可以绘制( C ) A 直条图 B 散点图 C 圆图 D 直方图 E 线图 2. 关于频数表得说法正确得就是( C ) A 都分为10个组段 B 每一个组段必须组距相等 C 从频数表中可以初步瞧出资料得频数分布类型 D 不就是连续型得资料没有办法编制频数表 E 频数表中得每一个组段不一定就是半开半闭得区间,可以任意指定

硕士研究生卫生统计学试卷(答案)

2007级硕士研究生卫生统计学试卷(答案及评分标准) 学号班级姓名考试成绩 一、名词解释(每小题2分,共12分) 1. 复相关系数 用R表示,R=2 R,度量应变量Y与多个自变量间的线性相关程度的指标,即观察值Y 与回归估计值y?之间的相关程度。 2. 统计描述 指由统计指标、统计表、图等方法,对资料的数量特征及分布规律进行测定和描述,不涉及由样本推论总体的问题。 3.主效应 在析因设计资料的方差分析种,指某一因素各水平间的平均差别。 4. 非参数检验 不依赖于总体分布的类型,对总体分布不做严格规定,对两个或多个总体分布的位置进行假设检验的方法。 5. 假设检验 是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。这一过程称为假设检验。 6. 平均发展速度 是各环比发展速度的几何均数,说明某事物在一个较长时期中逐期平均发展的程度。 二、填空(每空0.5分,共10分)

1. 调查144名30-40岁男子的血清胆固醇值近似服从正态分布,其均数为90 .3mg/dl ,标准差为3 2.7mg/dl ,则可推出该地30-40岁男子中约有__0.5 _%胆固醇在174.7mg/dl 以上,共有多少人 0.72(或1) 。 2. 拒绝H 0,只可能犯 第一类 错误,“接受” H 0只可能犯 第二类 错误。 3. 甲、乙、丙三地某两种传染病的发病率时,宜绘制_复式直条条__图. 4. 男、女两组儿童,人数分别为300及时250人,蛔虫感染率分别为35%及24%,其总感 染率为 30% ,总感染率的95%的置信区间为??? ? ? ??+?-550 7.03.096.13.0,550 7.03.096.13.0。 5.多个样本均数比较的方差分析其应用条件 各独立样本正态分布 和 方差齐性 。 6. 等级相关适用的条件是 双变量非正态分布 , 总体分布型未知 , 等级资料 。 7. 两因素析因设计实验方差分析将处理组间变异分解为 A 因素的主效因、 B 因素的主效因 和 AB 的交互效应 。 8. R ?C 表的2 χ检验,若表格中有一个方向按多个等级分类时,则称之为单向有序行列表, 当等级数大于3时,如检验各处理组各等级下的构成比有无差别时采用 2 χ检验 ,如检验各处理组各等级下的程度上有无差别时采用 秩和检验 。 9. 多元线性回归分析中自变量的选择方法有 全局择优法 和 逐步选择法 。 10. r 是 直线相关系数 (或称Pearson 积差相关系数) ,表示 具有直线关系的两变量间相关的密切程度与相关方向 。 三、最佳选择题(每小题1分,共20分) 1. 要表示某地区2003年SARS 患者的职业分布,可以绘制( C ) A 直条图 B 散点图 C 圆图 D 直方图 E 线图 2. 关于频数表的说法正确的是( C ) A 都分为10个组段 B 每一个组段必须组距相等

2002级硕士研究生卫生统计学考试试题

2002级硕士研究生卫生统计学考试试题 一、最佳选择题(每题2分,共30分) 1.二项分布、Poisson分布和正态分布各有几个参数: A1,1,1 B 2,2,2 C 2,1,2 D 2,2,1 2.假定某细菌的菌落数服从Poisson分布,今观察得平均菌落数为9,问菌落数的标准差为:A18 B 9 C 3 D 81 3.开展一项科学研究,何时开始运用统计学知识? A有了实验数据之后 B 有了试验设计之后 C 从最初的试验设计开始D 从计算机算出结果开始 4.某疗养院测得1096名飞行员红细胞数(万/mm)经检验该资料服从正态分布,其均值为414.1万/mm,标准差为42.8万/mm,求得的区间(303.67,524.52万/mm)称为红细胞数的:A99%的正常值范围 B 95%的正常值范围 C 95%可信区间 D 99%可信区间5.在众多的变异指标中,有一种可以用于比较单位不同的任何两组定量资料的变异性大小,它就是: A标准差 B 相关系数 C 变异系数 D 标准误 6.在进行成组设计的t检验或进行方差分析之前,要注意两个前提条件,一要考查各样本是否来自正态总体,二要: A核对数据 B 作方差齐性检验 C 作变量变换 D 求均数、标准差和标准误 7.将样本含量n的值、观测指标的一系列具体的值和某些特定的常数代入某统计公式计算,得一个具体的值。通常称此公式所代表的变量为: A参数 B 均值 C 统计量 D 标准误 8.对于t分布来说,固定显著性水平α的值,随着自由度的增大,t的临界值将会怎样变化: A 增大 B 减少 C 不变 D可能变大,也可能变小 9.标准正态分布的均数与标准差分别为。 A 0与1 B 1与0 C 1与1 D 0与0 10.成组设计的方差分析中,必然有。 A SS 组内〈 SS 组间 B MS 组间 〈 MS 组内 C MS 总 =MS 组间 +MS 组内 D SS 总 =SS 组间 +SS 组内 11.四个样本率作比较,X2>X2 0.01(3) ,可认为。 A 各总体率不同或不全相同 B 各总体率均不相同 C 各样本率均不相同 D 各样本率不同或不全相同 12.等级资料比较宜用。 A t检验 B X2检验 C 秩和检验 D F检验 13.有两个独立随机的样本,样本含量分别为n 1和n 2 ,在进行成组设计资料的t检验时, 自由度应该是。 A n 1+n 2 B n 1 +n 2 -1 C n 1 +n 2 +1 D n 1 +n 2 –2 14.统计推断的内容。 A 是用样本指标估计相应总体指标 B 是检验统计上的“假设” C a,b均不是 D a,b均是 15. 调查200名学生,记录每一名学生中口腔中有几颗龋齿,该资料是A定性资料 B 定量资料 C 连续资料 D 等级资料

浙大卫生综合考研真题353解析卫生统计学部分资料全

卫生统计真题考点 一、名词解释 1.抽样误差:从同一样本中反复多次的随机抽取相同样本量的若干份样本,由于个体差异和偶然因数的 影响,使得样本统计量与总体参数之间存在差异,这种差异就叫抽样误差,可通过增大样本量来减小抽样误差。 2.误差:实际观察值与客观真实值之差,样本指标与总体指标之差,包含系统误差,随机误差,非系统 误差 3.动态数列:按照一定的时间顺序,将描述的某事物的一系列统计指标依次排列起来。用以观察和比较 该事物在时间上的变化和发展趋势。统计指标可以是相对数、绝对数或平均数。动态分析指标有:绝对增长量、发展速度和增长速度、平均发展速度和平均增长速度。 4.死因构成:指全部死亡人数中,死于某死因者所占百分比,说明各种死因的相对重要性。 5.疾病分类:是在疾病命名法的基础上,考虑到对疾病的认识及防治需要,将一些具有共同特性的疾病 归纳在一起,加以分类。 6.婴儿死亡率:IMR指某年活产儿中不满一周岁的死亡频率。是反映社会卫生状况、婴儿保健工作以及 人群健康状况的重要指标之一,也是死亡统计指标中较敏感的指标。 7.人口金字塔:是将人口的性别和年龄资料结合起来,以图形的方式表达人口的性别和年龄构成。以年 龄为纵轴,人口数为横轴,左男,右女而制定的两个相对应的直方图,可以分析过去人口的出生死亡情况以及今后人口的发展趋势。 8.生存率:病人能活到某一时点的概率。常用于对慢性疾病如恶性肿瘤及心血管疾病等的治疗效果评价 或预后估计。 9.总和生育率:(表示每一个妇女一生平均生多少个孩子。是15-49岁年龄别生育率的总和。)假定同时 出生的一代妇女,按照某年的年龄别生育水平度过其一生的生育历程,各年龄别生育率之和乘以年龄组组距,就是这一代妇女平均每人可能生育的子女数。 10.总生育率:指某年某地平举每千名育龄妇女的活产数,国际上以15-49作为育龄妇女的年龄界限。 11.负担系数:又称抚养比,是人口中非劳动年龄人数占劳动年龄人数之比,一般以15-64为劳动年龄, ≦14 ≧65为非劳动年龄。 12.发病率和患病率:发病率IR表示一定时期内,在可能发生某病的一定人群中新发生该病的强度。患病 率PR指某时点上受检人数中现患某种疾病的频率。在一定人群是时间内有PR=IR*D。发病率表示发病危险性的直接指标,分子只包括新发病例,分母是总人年数,是个动态指标;而患病率常用于描述病程较长或发病时间不明确的疾病患病情况,分子包括新旧病例,分母是受检总人数,是个静态指标。 13.生存率和生存曲线:生存率是指观察对象经历tk个时段后仍存活的可能性。以生存时间为横轴,生存 率为纵轴,将各个时间点所对应的生存率连接在一起的曲线称为生存曲线。 14.期望寿命:ex是指同时出生的一代人活到X岁时,尚能生存的平均年数。 15.总体和样本:根据研究目的所确定的同质观察单位的全体。可分为有限总体和无限总体。从总体中随 机抽取部分观察单位,其观测结果的集合称谓样本,应具有代表性。 16.总体:根据研究目的所确定的同质观察单位的全体。可分为有限总体和无限总体。

南京医科大学考研卫生统计学统计基本复习题

医学统计学基础理论复习题 一、是非题:(如判断该题正确则在题后括号内打“√”,判断该题错误则在题后括号内打“×”) 1.农村妇女生育情况调查结果如下所示,该资料类型为计量资料。() 生育胎次0 1 2 3 4 妇女人数 5 25 70 30 14 2.观察到50例某传染病的潜伏期,整理成频数表如下:这是计量资料。()潜伏期(小时) 12~36~60~84~108~ 例数8 22 12 6 2 3. 身高的标准差比体重的大,因此,身高的变异程度比体重的大。() 4. 所谓均数的标准误,其实就是样本均数的标准差。() 5.在进行简单直线相关与回归分析时,相关系数r的显著性检验结果和回归系数b的显著性检验结果完全一致。() 6. 从总体中抽出一部分个体就构成一个样本。() 7.在进行成组设计资料的t检验中,H0:μ1=μ2,H1:μ1≠μ2,α=0.05。 若检验的结果为P=0.065,则结论为两总体均数相等。() 8.进行多元线性回归时,进入方程的自变量越多越好。() 9.同一组资料作团体t检验,双侧检验的P值是单侧检验的2倍。()10.医学统计学的全部内容就是对收集来的数据进行统计分析。() 11.在直线回归分析中,要求因变量服从正态分布。() 12.在进行三组均数的方差分析中,若检验的结果为P=0.015, 则结论为三个总体均数都不相等。() 13.进行多元线性回归时,如偏回归系数b1>b2,则指标X1对Y的作用 大于X2对Y的作用() 14.如果理论上A药确实有减肥作用,但在一次临床试验中,它的降低体重 值和安慰剂的差异无统计学意义,可能是样本量太小。() 15.如X1和Y之间的简单相关系数有统计学意义,则在多元逐步回归中, X1一定会被选入方程。() 16.如X1和Y之间的简单相关系数无统计学意义,则在多元逐步回归中, X1一定不会被选入方程。() 17.二个率进行比较的显著性检验中,用确切概率计算是最正确的。() 18.如显著性检验的结论为A组均数大于B组,P=0.0021,这时P表示 该结论犯错误的可能性的大小。() 19.回归分析中,回归系数越大,回归系数的标准误也越大。() 20.正态分布的均数不一定比标准差大。() 二、填充题 1.当拒绝了实际上成立的H0时,称为犯______________误差,常用α表示;当 不拒绝实际上不成立的H0时,称为犯______________误差,常用β表示;1–β又称为______________。要同时降低α和β值的唯一方法是_____________________。 2.服从正态分布的计量资料常用_________________表示其平均水平,用 _________________表示其离散程度;服从对数正态分布的计量资料常用_________________表示其平均水平;非正态分布的计量资料常用________________表示其平均水平,用_________________表示其离散程度。 3.方差分析的应用条件为_________________,_________________和

最新卫生统计学考研试题名词解释总结

卫生统计学考研试题名词解释总结 1、typical survey:典型调查,典型调查就是在调查对象中有意识的选择若干具有典型意义或者代表的单位进行非全面调查。 2、箱式图(box plot) :用于多组数据的直观比较分析。一般选用5个描述统计量(最小值、 P25、中位数、P75、最大值)来绘制。6I& b+ p2 B s @+v3 w2 o * c3 w" ?* '4 b4 ?$ c. T3 { 3、二项分布(binorminal distribution):若一个随机变量X,它的可能取值是0,1,…,n而且相应的取值概率为称此随机变量X服从n, n为参数的二项分布。/ a7 A0 X3 N! i, A" p 4、morbidity statistics :疾病统计,是居民健康统计的重要内容之一,它的任务是研究疾病在人群中发生、发展及其流行的规律, 为病因学研究、疾病防治和评价疾病防治效果提供科学依据。 4 F4 D- m8 F$ H2 j* e' V" H : k* S/ {/ O- V+ G! h0 H) A 5、life expectancy :期望寿命,是指x 岁尚存者预期平均尚能存活的年数,它是评价居民健康状况的主要指标。 + Q0 g- v0 \- D. F: | 6、life table :寿命表,又称为生命表,是根据特定人群的年龄组死亡率编制出来的一种统计表。由于它是根据各年龄组死亡率计算出来的, 因此, 各项指标不受人口年龄构成的影响,不同人群的寿命表指杯具有良好的可比性。 7、预测(forecast):这是回归方程的重要应用方面。所谓预测就是把预测因子(自变量X)代入回归方程,对预报量(应变量Y)进行估计,其波动范围可以按照个体Y值容许区间方法 计算。; a! Y6 F" z: } g: z! y" m; H2 G3 ~ 4 F; P' J. F4 w: O) b 8、s tandard deviation :标准差,常用来描述数据离散趋势的统计指标,其能反映均数 代表性的好坏,以及变量值与均数的平均离散程度。; u& C$ ~( u/ V4 n" '9 E; ]3 V 6 e/ J8 [) M- i) @1 n 7 m! F, ?6 G 9、cluster sampling :整群抽样,首先将总体按照某种与研究目的无关的分布特征(如地区范围、不同的团体、病历、格子等)划分为若干个“群”组,每个群包括若干观察单位;然 后根据需要随机抽取其中部分“群”, 并调查被抽中的各”群”中的全部观察单位。这种抽样方法称为整群抽样。 10、precision:精密度,是指重复观察时,观察值与其均数的接近程度,其差值属于随机误差& R V5 w) {4 A" _, N! s' p. Y& G 11、正交设计(orthogonal design):当实验涉及的因素在三个或三个以上,且因素间可能存在交互作用时,可用正交试验设计。它利用一套规格化的正交表,将各试验因素、各水平之间的组合均匀搭配,合理安排,可以用较少的、有代表性的处理组合数, 提供充分有用的信息,还可找出较优组合, 用以指导实践, 因而是一种高效、快速的多因素试验设计方法。! K3 f/ i5 g, W( ] 12、maternal morality rate :孕产妇死亡率,是指某年妇女在妊娠至产后42 天以内,因 为怀孕和分娩及其并发症所造成的孕产妇死亡人数与同年出生活产数之比。 2 b+ Y$ '+ k: [* Z9 J' X4 T; G 3 N

卫生统计学试题及答案解析1

卫试题1 一、选择题 1.对两个定量变量同时进行了直线相关和直线回归分析,r有统计学意义(P<0.05),则_____. A.b无统计学意义 B.b有高度统计学意义 C.b有统计学意义 D.不能肯定b有无统计学意义 E.a有统计学意义 【答案】C 2.关于基于秩次的非参数检验,下列说法错误的是_____. A.符号秩和检验中,差值为零不参加编秩 B.两样本比较的秩和检验方法中的正态近似法为参数检验 C.当符合正态假定时,非参数检验犯II类错误的概率较参数检验大 D.当样本足够大时,秩和分布近似正态 E.秩和检验适用于检验等级资料、可排序资料和分布不明资料的差异 【答案】B 3.随机事件的概率为______. A.P=1 B.P=0 C.P=-0.5 D.0≤P≤1 E.-0.5 < p=""> 【答案】D 4.两样本均数比较,经t检验得出差别有统计学意义的结论时,P越小,说明______. A.两样本均数差别越大 B.两总体均数差别越大

C.越有理由认为两总体均数不同 D.越有理由认为两样本均数不同 E.越有理由认为两总体均数相同 【答案】C 5.为研究缺氧对正常人心率的影响,有50名志愿者参加试验,分别测得试验前后的心率,应用何种统计检验方法来较好地分析此数据_____. A.配对t检验 B.成组t检验 C.成组秩和检验 D.配对秩和检验 E.两组方差齐性检验 【答案】A 6.作符号秩和检验时,记统计量T为较小的秩和,则正确的是_____. A.T值越大P值越小 B.T值越大越有理由拒绝H0 C.P值与T值毫无联系 D.T值越小P值越小 E.以上都不对 【答案】D 7.方差分析中要求______. A.各个样本均数相等 B.各个总体方差相等 C.各个总体均数相等 D.两样本方差相等 E.两个样本来自同一总体 【答案】B 8.比较非典型肺炎和普通肺炎患者的白细胞计数水平,若,可作单侧检验。 A.已知二组患者的白细胞计数均降低

卫生统计学试题及答案1

一、选择题 1.对两个定量变量同时进行了直线相关和直线回归分析,r有统计学意义(P<),则_____. 无统计学意义 有高度统计学意义 有统计学意义 D.不能肯定b有无统计学意义 有统计学意义 【答案】C 2.关于基于秩次的非参数检验,下列说法错误的是_____. A.符号秩和检验中,差值为零不参加编秩 B.两样本比较的秩和检验方法中的正态近似法为参数检验 C.当符合正态假定时,非参数检验犯II类错误的概率较参数检验大 D.当样本足够大时,秩和分布近似正态 E.秩和检验适用于检验等级资料、可排序资料和分布不明资料的差异 【答案】B 3.随机事件的概率为______. =1

=- ≤P≤1 E.- < p=""> 【答案】D 4.两样本均数比较,经t检验得出差别有统计学意义的结论时,P越小,说明______. A.两样本均数差别越大 B.两总体均数差别越大 C.越有理由认为两总体均数不同 D.越有理由认为两样本均数不同 E.越有理由认为两总体均数相同 【答案】C 5.为研究缺氧对正常人心率的影响,有50名志愿者参加试验,分别测得试验前后的心率, 应用何种统计检验方法来较好地分析此数据_____. A.配对t检验 B.成组t检验 C.成组秩和检验

D.配对秩和检验 E.两组方差齐性检验 【答案】A 6.作符号秩和检验时,记统计量T为较小的秩和,则正确的是_____. 值越大P值越小 值越大越有理由拒绝H0 值与T值毫无联系 值越小P值越小 E.以上都不对 【答案】D 7.方差分析中要求______. A.各个样本均数相等 B.各个总体方差相等 C.各个总体均数相等 D.两样本方差相等 E.两个样本来自同一总体 【答案】B 8.比较非典型肺炎和普通肺炎患者的白细胞计数水平,若,可作单侧检验。

2007级硕士研究生卫生统计学试卷(答案)

2007级硕士研究生卫生统计学试卷(答案及评分标准)学号班级姓名考试成绩 一、名词解释(每小题2分,共12分) 1. 复相关系数 用R表示,R=2R,度量应变量Y与多个自变量间的线性相关程度的指标,即观察值Y与回归估计值y?之间的相关程度。 2. 统计描述 指由统计指标、统计表、图等方法,对资料的数量特征及分布规律进行测定和描述,不涉及由样本推论总体的问题。 3.主效应 在析因设计资料的方差分析种,指某一因素各水平间的平均差别。 4. 非参数检验 不依赖于总体分布的类型,对总体分布不做严格规定,对两个或多个总体分布的位置进行假设检验的方法。 5. 假设检验

是利用小概率反证法思想,从问题的对立面(H0)出发间接判断要解决的问题(H1)是否成立。然后在H0成立的条件下计算检验统计量,最后获得P值来判断。这一过程称为假设检验。 6. 平均发展速度 是各环比发展速度的几何均数,说明某事物在一个较长时期中逐期平均发展的程度。 二、填空(每空0.5分,共10分) 1. 调查144名30-40岁男子的血清胆固醇值近似服从正态分布,其均数为90 .3mg/dl,标准差为3 2.7mg/dl,则可推出该地30-40岁男子中约有__0.5 _%胆固醇在174.7mg/dl以上,共有多少人0.72(或1) 。 2. 拒绝H0,只可能犯第一类错误,“接受”H0只可能犯第二类错误。 3. 甲、乙、丙三地某两种传染病的发病率时,宜绘制_复式直条条__图. 4. 男、女两组儿童,人数分别为300及时250人,蛔虫

感染率分别为35%及24%,其总感染率为 30% ,总感染率的95%的置信区间为???? ???+?-5507.03.096.13.0,5507.03.096.13.0。 5.多个样本均数比较的方差分析其应用条件 各独立样本正态分布 和 方差齐性 。 6. 等级相关适用的条件是 双变量非正态分布 , 总体分布型未知 , 等级资料 。 7. 两因素析因设计实验方差分析将处理组间变异分解为 A 因素的主效因、 B 因素的主效因 和 AB 的交互效应 。 8. R ?C 表的2χ检验,若表格中有一个方向按多个等级分类 时,则称之为单向有序行列表,当等级数大于3时,如检验各处理组各等级下的构成比有无差别时采用 2χ检验 ,如检验各处理组各等级下的程度上有无差别时采用 秩和检验 。 9. 多元线性回归分析中自变量的选择方法有 全局择优法 和 逐步选择法 。

2005级研究生卫生统计学考试题1

2005级研究生卫生统计学考试题1 一、最佳选择题(每题1.5分,共30分) 1.表示() A.总体均数标准误 B.总体均数离散程度 C.总体标准差 D.反映以固定n从正态总体中随机抽样获得的样本均数的离散程度 2.t分布比标准正态分布() A.中心位置左移,但分布曲线相同 B.中心位置右移,但分布曲线相同 C.中心位置不变,但分布曲线峰高 D.中心位置不变,但分布曲线峰低,两侧较伸展 3.用计数器测得某放射性物质10分钟内发出的脉冲数为660个,据此可估计该放射性物质平均每分钟脉冲计数的95%可信区间为() A.6601.96 B. 6602.58 C. 661.96 D. 6601.96 4.直线回归中,如果自变量X乘以一个不为0或1的常数,则有() A.截距改变 B.回归系数改变 C.两者都改变 D.两者都不改变 5.参数是指() A.参与个体数 B.总体的统计指标 C.样本的统计指标 D.样本的总和 6.两样本秩和检验与t检验相比() A. 秩和检验比t检验好 B.检验效能相同 C. t检验比秩和检验好 D.应根据资料决定优劣 7.血清学滴度资料最常用来表示其平均水平的指标是() A.算术平均数 B.中位数 C.几何平均数 D.百分位数 8.设某实验因素A有K(K≥3)个水平,观测数据是连续性资料,且满足各种参数检验的前提条件。用多次t检验取代方差分析和q检验。将会() A.明显增大犯第Ⅱ类错误的概率 B.使结论更加具体 C.明显增大犯第Ⅰ类错误的概率 D.使计算更加简便 9. 某血库提供6094例ABO血型分布资料如下: 血型O A B AB,人数分别为1823 1598 2032 641,该资料的类型是: A.计量资料 B.有序资料 C.计数资料 D.名义资料 10.两样本均数比较时,P越小,说明( ) A.两样本均数相差越大 C.越有理由认为两总体均数不同 B.两总体均数相差越大 D.越有理由认为两样本均数不同 11.下列哪种资料不适用t-检验( ) A.一个小样本均数和总体均数的比较 B.四格表资料的比较 C.两个小样本均数的比较 D.两个大样本均数的比较 12.比较某地两种传染病发病率高低用() A. t-检验 B. U-检验 C. F-检验 D. X2-检验 13.R×C表的卡方检验中,P<0.05说明( ) A.被比较的任何两个率之间差别均有显著性 B. 样本率之间没有显著性差别 C.至少某两个率之间有显著性差别 D.只有两个率之间有显著性差别 14.关于四分位数间距,下列哪一项是错误的() A.适用条件同中位数 B.反映数值变量资料的离散趋势 C.考虑了每个变量值的变异情况 D.较极差稳定

浙大卫生综合考研真题353解析(卫生统计学部分)

精心整理 卫生统计真题考点 一、名词解释 1. 抽样误差:从同一样本中反复多次的随机抽取相同样本量的若干份样本,由于个体差异和偶然因数的影响,使得样本统计量与总体参数之间存在差异,这种差异 2. 3. 4. 5. 6. 婴儿保健工作以及人群健康状况的重要指标之一,也是死亡统计指标中较敏感的指标。 7. 人口金字塔:是将人口的性别和年龄资料结合起来,以图形的方式表达人口的性别和年龄构成。以年龄为纵轴,人口数为横轴,左男,右女而制定的两个相对应的直方图,可以分析过去人口的出生死亡情况以及今后人口的发展趋势。

8.生存率:病人能活到某一时点的概率。常用于对慢性疾病如恶性肿瘤及心血管疾 病等的治疗效果评价或预后估计。 9.总和生育率:(表示每一个妇女一生平均生多少个孩子。是15-49岁年龄别生育 率的总和。)假定同时出生的一代妇女,按照某年的年龄别生育水平度过其一生的生育历程,各年龄别生育率之和乘以年龄组组距,就是这一代妇女平均每人可 10. 11. 12. 13. 线称为生存曲线。 14.期望寿命:ex是指同时出生的一代人活到X岁时,尚能生存的平均年数。 15.总体和样本:根据研究目的所确定的同质观察单位的全体。可分为有限总体和无 限总体。从总体中随机抽取部分观察单位,其观测结果的集合称谓样本,应具有代表性。

16.总体:根据研究目的所确定的同质观察单位的全体。可分为有限总体和无限总体。 17.检验效能和检验水准:1—b是指当两总体确实有差异时,按规定的检验水准a能 发现该差异的能力。检验水准是假设检验中预先规定的允许犯一类错误的概率最大值。通常取0.05或0.01 18.第一类错误和第二类错误:指拒绝了实际上成立的H0,这类弃“真”的错误称为 N一定时 19. 20. 21. 22. 23.Y平 系数的点估计。 24.标准差和标准误:标准差是方差的平方根,标准差的量纲和原始数据的一致,它 适用于近正态分布的资料。标准误是样本均数的标准差,反应样本均数之间的离散程度及抽样误差的大小,当样本含量一定时标准误随着标准差的大小而变化。

浙大卫生综合考研真题解析卫生统计学部分

浙大卫生综合考研真题 解析卫生统计学部分 Document serial number【KK89K-LLS98YT-SS8CB-SSUT-SST108】

卫生统计真题考点 一、名词解释 1.抽样误差:从同一样本中反复多次的随机抽取相同样本量的若干份样本,由于个体差异和偶 然因数的影响,使得样本统计量与总体参数之间存在差异,这种差异就叫抽样误差,可通过增大样本量来减小抽样误差。 2.误差:实际观察值与客观真实值之差,样本指标与总体指标之差,包含系统误差,随机误 差,非系统误差 3.动态数列:按照一定的时间顺序,将描述的某事物的一系列统计指标依次排列起来。用以观 察和比较该事物在时间上的变化和发展趋势。统计指标可以是相对数、绝对数或平均数。动态分析指标有:绝对增长量、发展速度和增长速度、平均发展速度和平均增长速度。 4.死因构成:指全部死亡人数中,死于某死因者所占百分比,说明各种死因的相对重要性。 5.疾病分类:是在疾病命名法的基础上,考虑到对疾病的认识及防治需要,将一些具有共同特 性的疾病归纳在一起,加以分类。 6.婴儿死亡率:IMR指某年活产儿中不满一周岁的死亡频率。是反映社会卫生状况、婴儿保健工 作以及人群健康状况的重要指标之一,也是死亡统计指标中较敏感的指标。 7.人口金字塔:是将人口的性别和年龄资料结合起来,以图形的方式表达人口的性别和年龄构 成。以年龄为纵轴,人口数为横轴,左男,右女而制定的两个相对应的直方图,可以分析过去人口的出生死亡情况以及今后人口的发展趋势。 8.生存率:病人能活到某一时点的概率。常用于对慢性疾病如恶性肿瘤及心血管疾病等的治疗 效果评价或预后估计。 9.总和生育率:(表示每一个妇女一生平均生多少个孩子。是15-49岁年龄别生育率的总 和。)假定同时出生的一代妇女,按照某年的年龄别生育水平度过其一生的生育历程,各年龄别生育率之和乘以年龄组组距,就是这一代妇女平均每人可能生育的子女数。 10.总生育率:指某年某地平举每千名育龄妇女的活产数,国际上以15-49作为育龄妇女的年龄 界限。 11.负担系数:又称抚养比,是人口中非劳动年龄人数占劳动年龄人数之比,一般以15-64为劳 动年龄,≦14≧65为非劳动年龄。 12.发病率和患病率:发病率IR表示一定时期内,在可能发生某病的一定人群中新发生该病的强 度。患病率PR指某时点上受检人数中现患某种疾病的频率。在一定人群是时间内有 PR=IR*D。发病率表示发病危险性的直接指标,分子只包括新发病例,分母是总人年数,是个动态指标;而患病率常用于描述病程较长或发病时间不明确的疾病患病情况,分子包括新旧病例,分母是受检总人数,是个静态指标。 13.生存率和生存曲线:生存率是指观察对象经历tk个时段后仍存活的可能性。以生存时间为横 轴,生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线称为生存曲线。 14.期望寿命:ex是指同时出生的一代人活到X岁时,尚能生存的平均年数。 15.总体和样本:根据研究目的所确定的同质观察单位的全体。可分为有限总体和无限总体。从 总体中随机抽取部分观察单位,其观测结果的集合称谓样本,应具有代表性。

(仅供参考)卫生统计学考研总结

1、试述正态分布、标准正态分布以及对数正态分布的联系和区别? 2、说明频数分布表的用途? 描述频数分布的特征、描述频数分布的类型、 便于发现一些特大或特小的可疑值、便于进一步做统计分析和处理 3、变异系数的用途? 常用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童与成人身高变异程度的比较。 4、试举例说明均数的标准差与标准误的区别与联系? 例如某医生从某地2000年的正常成年男性中,随机抽取25人,算得其血红蛋白的均数X 为138.5g/l ,标准差S 为5.20g/L,标准误x S 为1.04g/L ,。在本例中标准差就是描述25名正常成年男性血红蛋白变异程度的指标,它反映了这25个数据对其均数的离散情况。因此标准差是描述个体值变异程度的指标,为方差的算述平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差, 均数的标准误实质要均数的标准差,它反映了样本均数的离散程度,也反映了样本均数与总体均数的差异,说明了均数的抽样误差。本例均数的标准误X S 此式 将标准差和标准误从数学上有机地联系起来了,同是可以看出通过增加样本含量方法可以减少标准 误。 5、标准正态分布与t 分布有何不同? T 分布为抽样分布,标准正态分布为理论分布。T 分布比标准正态分布的峰值低,且尾部翘起得要高。随着自由度的增大,t 分布逐渐趋近于标准正态分布,即当v →∞时,t 分布→标准正态分布。 6、假设检验时,一般当P<0.5时,则拒绝0H ,理论根据是什么? P 值是指从0H 规定的总体随机抽得等于及大于(或/和等于及小于)现有样本获得的检验统计量值(如t 值 或u 值 )的概率。当P<0.5时,说明在0H 成立的条件下,得到现有检验结果的概率小于通常确定的小概率事件标准0.05.因小概率事件在一次试验中几乎不可能发生,现在的确发生了,说明现有样本信息不支持0H ,所以怀疑原假设0H 不成立,故拒绝0H 。在下“有差别”的结论的同时,我们能够知道可犯I 型错误的概率不会大于0.05(即通常的检验水准),这在概率上有了保证。

相关文档
相关文档 最新文档