文档库 最新最全的文档下载
当前位置:文档库 › 统计学

统计学

统计学
统计学

2013卫生管理师职称考试

之《统计学》知识点及试题精粹

第一至五章

统计学是研究数据及其存在规律的科学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。

统计学的总体是指根据研究目的确定的、全部同质个体的某个(或某些)变量值。这里的个体又称观察单位(或研究单位),可以是一个社区、一个特定的人群、一个人、一个血样、一个细胞、一个基因、一个蛋白质等。样本:总体中有代表性的一部分。

根据研究目的,对研究对象的某个或某些特征(亦称研究指标或项目)实施观测,这些特征(指标或项目)称为变量。变量的测得值叫变量值(也叫观察值或资料)

统计工作的步骤一研究设计,二收集资料;三整理资料;四分析资料。

计量资料定义通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。如:体重与身高,特点:有度量衡单位;多为连续性资料(通过测量得到)计数资料定义:将全体观测单位按照某种性质或特征分组,然后再分别清点各组观察单位的个数。特点:没有度量衡单位;多为间断性资料(通过枚举或记数得来)

等级资料定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值;各组之间有性质上的差别或程度上的不同。

总体:根据研究目的确定的同质的、观察单位的全体。

同质与变异研究对象具有的相同的状况或属性等共性称同质或同质性;对于同质的各观察单位,其某变量值之间的差异,称为变异。

误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有二种:系统误差;随机误差。系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小。特点:具有累加性。随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数参加而减小。抽样误差:由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样发生抽样误差就不可避免。

减少抽样误差的方法:(1)增加样本的代表性。样本量n 相等的情况下:

整群抽样>单纯随机抽样>系统抽样>分层抽样(2)增加样本量n (3)选择变异程度较小的研究指标。

概率:描述随机事件发生的可能性大小的数值,常用P来表示。P的大小在0和1之间。通常一个事件的发生小于5%,就叫小概率事件。

频率:在实际工作中,当观察单位的例数足够多时,可以用频率来代替概率。频率是概率的估计值。

实验设计与调查设计目的:观察不同处理因素的效应。3个基本要素:1处理因素和非处理因素、2实验对象、3试验效应通过实验指标表达选择指标的依据(1准确性、2灵敏性、3稳定性)基本原则:对照的原则(保证均衡一致的条件1、对等2同步3专设)、重复原则(样本量)、随机化原则。

频数:当汇总大量的原始数据时,把数据按类型分组,其中每组数据个数,称该组的频数。频数表(频数分布):将变量值分为不同数量的组段,清点各组段的例数。表示各组及其对应的组频数的表格。意义概括了解变量值在各组段的分布和规律。两个特征:集中趋势与离散趋势(共性与个性)主要用途:1.揭示分布类型2. 发现特大值和特小值3.计算集中趋势指标与离散趋势指标。

资料的统计描述:即用少量几个统计指标刻画出原始数据的特征称为统计描述。

计量资料频数表的编制步骤1.确定全距(R )=最大值— 最小值2.定组数(8-15组)和组距:

3.写出组段的下限:第1组段值小于或等于最小变量值,并以整数(0,5或2,4,6,8)

较好。4.划计并计数:变量(x )归为L ≤x <U (见表2-1

平均数概念:平均数表示一组同质计量数据集中趋势的位置和平均水平。作用:是一组计量

数据平均水平的代表值;可作为不同组间的比较值。

算术均数( mean);简称均数,用

表示.

组段 频数(f ) 组中值X fX

2.3- 1 2.45 2.45

2.6- 3 2.75 8.25

2.9- 6

3.05 18.30

3.2- 8 3.35 …

3.5- 17 3.65

3.8- 20 3.95

4.1- 17 4.25

4.4- 12 4.55

4.7- 9 4.85

5.0- 5 5.15

5.3- 2 5.45

5.6- 5 1 5.75

合计 101 —— 409.7

加权法公式计算

值呈倍数增长或部分数据偏离过大偏态分布(正偏态)资

例2-4 某地7年后用间接荧光抗体试验测得其抗体滴度分别为

1/10,1/20,1/40,1/80,1/160,求几何均数。

结论:平均抗体滴度为1:34(几何均数法)

中位数M :定义:将一组变量值由小到大依次排列,居以中间位次的观察值即为中位数,

为这组数据的平均数。适用于描述偏态分布资料的平均水平。如潜伏期、病程资料。 中位数的计算

N 为奇数

N 为偶数 2n x 11lg lg10lg20lg40lg40lg160lg ()lg (34.85

X G n --++++===∑34.8G 1(1)2n M X +=(1)221()2

n n M X X +=+

百分位数是一种位置指标,用 表示。定义:将一组变量值由小到大依次排列,为第x 百分位数的秩次, 其对应的变量值(x )为第x 百分位数,记为P x 。

例:8位患者某病的住院天数:

2 2 2

3 3

4

5 6

求50%位数和80%位数。解:第50%位次:nX%=8×0.5=4

中位数=P 50=3(天) 第80%位次:nX%=8×0.8=6.4,用公式2.7

百分位数计算结果的应用1.常计算P 25、P 50 、P 75、和P 95,为临床治疗提供依据。

例2-9:120名细菌性痢疾治愈的住院天数

P 5=3.5(天),即只有5%的人住院低于3.5天。

P 95=15(天)

2.确定医学指标的参考值

几个常用的变异指标

极差;全距(Range ):意义:R 值越大,表示该组数据的变异越大。缺点:数据利用不全,部分信息损失,在例数少时结果不稳定。

四分位数间距:常用QR 表示 QR=P 75%-P 25% 作为变异指标比极差稳定。常用于表示偏态分布资料的变异。例:QR= P 75%-P 25% =67.7-39.2=28.5天 表示方法:M d (QR ) M=51天,(QR=28.5天)

标准差的简化计算公式:

(列数较少)

(频数表资料)

例2-11 甲组5名同龄男孩的身高值(cm )

X X 2

90 8100

95 9025 100 10000 105 11025

110 12100

标准差的意义:反映一组变量值变异程度,组间单位相同时,S 越小,表示数据的变异程度越小。

变异系数(CV)

1.单位不同时组间变异程度的比较。

某地7岁年龄组男童身高与体重

指标 S CV(%)

身高(cm) 123.10 4.71 3.83

体重(kg) 22.29 2.26 10.14

结论: 7岁年龄组男童身高与体重值指标比较,体重指标的变异大于身高指标。 某地不同年龄组男童身高(cm )

年龄组 S CV%

80

[(6.4)1]75trunc p x x +===(天)x P 1/)(22-∑-∑=n n X X S 1/)(22-∑∑∑-∑=f f

fX fX S 91.7155/)500(502502=--=S 50250

2=∑X 500=∑X

1-2月56.3 2.1 3.73

5-6月66.5 2.2 3.31

3-3.5岁96.1 3.1 3.22

5-5.5岁107.8 3.3 3.06

结论:随着年龄增加,身高的变异变小。

参数统计:统计推断方法,通常要求样本来自正态总体,或方差齐等,在这些假设的基础上,对总体参数进行估计和检验,称为参数统计。

非参数统计:有许多资料不符合参数统计的要求,不能用参数统计的方法进行检验,而需要一种不依赖于总体分布类型的假设检验;是通过将样本实际数据排队编秩后,对秩次进行比较,因此也叫秩和检验。

抽样误差:由于抽样引起的样本统计量与总体参数之间的差异。

标准误:(σx Sx) 表示抽样误差大小的指标;样本均数的标准差。

(均数)标准误意义:反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。

点估计是用样本统计量直接估计其总体参数值。如用估计、S估计等。方法虽简单,但未考虑抽样误差大小

区间估计是按预先给定的概率(1-α),确定一个包含总体参数的范围。该范围称为参数的可信区间

评价可信区间估计的优劣:

正确性:可信度,即区间包含总体参数的理论概率大小,愈接近1愈好。

精确性:区间的宽度,区间愈窄愈好。

当样本含量为定值时,上述两者互相矛盾。若只顾提高可信度,则可信区间会变宽

可信区间与参考值范围的区别

可信区间用于估计总体参数,总体参数只有一个。

参考值范围用于估计个体值的分布范围,个体值有很多。

95%可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%。

95%参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。

95%的可信区间的理解:

从正态总体中随机抽取100个样本,可算得100个样本均数和标准差,也可算得100个均数的可信区间,平均约有95个可信区间包含了总体均数。

但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数正常值范围与可信区间

正常值范围概念:绝大多数正常人的某指标范围。(95%,99%, 指绝大多数正常人)

用途:判断观察对象的某项指标是否正常.

可信区间概念:总体均数所在的数值,范围(95%,99% 指可信度)用途:估计总体均数正态分布是描述连续型变量值分布的曲线,医学上许多资料近似服从正态分布。

正态分布在统计推断上有重要的直方图的频数分布与正态分布

正态分布曲线理论上的特征

1)以X= μ为中心, X值呈钟型分布对称性减少。(2 )在X= μ处,f(x)取最大值。(3 )正态分布由μ 、σ决定正态分布的位置和形状。随μ 不同,曲线位置不同,称μ为位置参数。σ越大,曲线形状不同,称σ为形状参数。

医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值。正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。

医学参考值制定时注意问题

1.确定诊断指标为“定性”或“定量”

2.计量数据要确定其分布(正态或偏态)

3.计量资料考虑制定单侧诊断界值还是双侧诊断界值

4.有足够的样本例数(一般不低于100例)

二项分布是指在只会产生两种可能结果如“阳性”或“阴性”之一的n 次独立重复试验中,当每次试验的“阳性”概率保持不变时,出现“阳性”的次数X=0,1,2, ,n 的一种概率分布。记为X ~B (n ,π), n 为试验次数,π为“阳性”概率。

适用条件

1,每次试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于1;

2,每次试验产生某种结果(如“阳性”)的概率π固定不变;

3,各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。 二项分布的应用 总体率的区间估计 样本率与总体率的比较 两样本率的比较 研究非遗传性疾病的家族集聚性 群检验

I 型错误和II 型错误 II 类错误的概率 β 值的两个规律:

1. 当样本量一定时, α 愈小, 则 β 愈大,反之…;

2.当 α 一定时, 样本量增加, β 减少.

3.举例说明对合计率标准化的基本思想。

答:两人群发病率、死亡率、出生率、病死率等的比较,常考虑人群性别、年龄等构成的影响,需对率进行标准化。率标准化法的基本思想就是采用统一的标准人口构成,以消除人口构成不同对人群总率的影响,使算得标准化率具有可比性。

举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?答:(1)度量衡单位不同的多组资料的变异度的比较。例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。(2)比较均数相差悬殊的多组资料的变异度。例如,3岁儿童与20岁成年人身高差异的比较。

t 分布的图形与特征

t 分布为一簇单峰分布曲线,ν不同,曲线 形状不同;;t 分布以0为中心,左右对称

t 分布与ν有关, ν越小, t 值越分散,t 分布的峰部越低,而两侧尾部翘得越高;当ν逼近∞, S X 逼近 σX ,t 分布逼近u 分布

统计图的概念

用点的位置、线段的升降、直条的长短及面积的大小等几何图形表达事物的统计指标大小、对比关系及变化趋势。

统计图的种类

条图 (bar chart)圆图(pie chart )百分比条图(percent bar chart )线图(line graph )直方图(histogram )散点图(scatter diagram )统计地图(statistical map )

数据分析中应用:箱式图、茎叶图、残差图等。

可能发生的两类错误

假设检验的结果 客观实际 拒绝H 0 不拒绝H 0 H 0成立 I 型错误(α) 推断正确(1-α) H 0不成立即H 1成立 推断正确(1-β) II 型错误(β)

条图(bar chart)用等宽直条的长短来表示相互独立的各统计;指标的数值大小。分为:

①单式条图:具有一个统计指标,一个分组因素;②复式条图:具有一个统计指标,两个分组因素;③分段条图:具有两个有隶属关系的统计指标,一个分组因素。

圆图pie chart:用圆的总面积表示事物的全部,用各个扇形面积(圆心角大小)表示各部分比重,适用于各构成比相加为100%的资料。

绘制:

(1)计算各部分的角度:圆心角(度)=360°

(2)绘制图形:先画出圆形,再借助量角器画出各圆心角。

(3)图例:各扇形内要注明简要的文字和百分比,还可绘入花纹或色彩。

直方图histogram

即频数分布图,用矩形面积表示某个连续型变量的频数(频率)分布。

绘制:通常根据频数分布表以横轴表示连续型变量的组段,以纵轴表示频数或频率。

箱式图(箱-髯图)(box-whisker plot)

用于比较两个或多个样本分布的中心位置和散布范围。

P0 P25 P50 P75 P100

随机抽样的基本原则,亦称“随机化”原则,即总体中每个个体的被抽中的机会均等

1.单纯随机抽样也称简单随机抽样,是最简单、最基本的抽样方法。是指所有抽样的基本单位有同样的概率被抽取的抽样方法。

2.分层抽样---此抽样方法的特点是先按某种特征(如性别、年龄、职业、教育程度等)将调查人群分为若干层,然后样本在各层中分别随机抽样,并合成调查。

3.机械抽样,又称系统抽样-_是按照某种顺序给总体中的各个体编号,然后随机的抽取一个编号作为第一调查个体,其他的调查个体则按照某种规定的规则抽取。

4、整群抽样_---常应用在以社区居民为对象的大规模流行病学调查中。先将总体分成若干群体,形成一个抽样框;从中随机抽取几个群体组成样本;对抽中群体的全部个体进行调查,称整群抽样。

Poisson分布的概念:Poisson分布更多地专用于研究单位时间、单位人群、单位空间内,某罕见事件发生次数的分布。

Poisson分布的性质:1.Poisson分布是一种单参数的离散型分布,其参数为μ,它表示单

位时间或空间内某事件平均发生的次数,又称强度参数。2.Poisson 分布的方差σ2与均数μ相等,即σ2=μ 3.Poisson 分布是非对称性的,在μ不大时呈偏态分布,随着μ的增大,迅速接近正态分布。一般来说,当μ=20时,可以认为近似正态分布,Poisson 分布资料可按正态分布处理。4.Poisson 分布的累计概率常用的有左侧累计和右侧累计两种。单位时间或空间内事件发生的次数

最多为k 次的概率

(X= 0,1,2,…)

最少为k 次的概率

(X= 0,1,2,…)

5.Poisson 分布的图形已知μ,就可按公式计算得出X= 0,1,2,…时的P (X )值,以X 为横坐标,以P (X )为纵坐标作图,即可绘出Poisson 分布的图形Poisson 分布的形状取决于μ的大小。μ值越小,分布越偏,随着μ的增大,分布越趋于对称,当μ=20时,分布接近正态分布,当μ=50时,可以认为Poisson 分布呈正态分布N (μ, μ),按正态分布处理。

6.Poisson 分布是二项分布的极限形式二项分布中,当π很小而n 很大,n π→μ时,二项分布趋于Poisson 分布。7. Poisson 分布的观察结果有可加性

Poisson 分布的应用条件:Poisson 分布的应用条件与二项分布相同,即要求事件的发生是相互独立的,发生的概率相等,结果是二分类的。Poisson 分布主要用于研究单位时间或单位空间内某事件的发生数,理论上单位时间或单位空间内的发生数可为无穷大。而用于研究单位人群中某疾病发生数的分布时,单位人群的人数要求大一些,比如以1000人或更多作为单位人群,某些发病率极低的疾病要求更多。

第六章 参数估计

第一节 抽样分布与抽样误差

由个体变异和抽样造成的样本统计量与总体参数的差异,称为抽样误差。

抽样误差不可避免,有两种表现形式:1、样本统计量与总体参数间的差异。2、样本统计量间的差异。

一、样本均数的抽样分布与抽样误差

1、标准误:样本统计量的标准差。

2、均数的标准误:样本均数的标准差。

3、样本均数的抽样分布的特点:(1)各样本均数未必等于总体均数;(2)各样本均数间存在差异;(3)样本均数的分布围绕着总体均数呈现中间多、两边少、左右基本对称,近似服从正态分布;(4)样本均数的变异范围较之原变量的变异范围小;(5)随着样本量的增大,样本均数变异范围逐渐缩小。

4、均数的标准误: σX =n

均数标准误的估计值: S X =n S

5、样本均数X 的总体均数与观察值X 的总体均数相同,样本均数X 的标准差是X 标准差的n /1。

6、非正态分布总体,样本量较大时(n>30),样本均数的分布接近正态分布。

二、样本率的抽样分布与抽样误差

1、率的抽样误差:由于抽样所造成的样本率与总体率之间及样本率之间的差别。

2、若样本量为n ,总体率为π,样本率为p ,理论

(1)样本率的总体均数等于总体率。即μp =π。

(2)样本率的总体标准差(即率的标准误)σp=n )

1(ππ-率的标准误的估计值为Sp=

n

P P )1(- (3)对于大量重复随机抽样而言,样本率p 围绕着总体率π波动,样本量n 越大,这种波动越小,当n 充分大时,p 的分布就近似于均数为π标准差为n )

1(ππ-的正态分布(n 充

分大通常为n π≥5和n(1-π)≥5且n ≥40。

(4)当总体率π=0.5时,样本率p 的分布为对称分布。

(5)当样本量n 为定值时,总体率π越接近0.5,样本率p 近似正态分布的程度就越好。

第二节 总体均数的估计

统计推断:根据样本提供的信息和抽样分布的规律,以一定的概率推断总体的特性。统计推断包括参数估计、假设检验。

参数估计:指用样本指标值(统计量)推断总体指标值(参数)。参数估计包括点估计、区间估计。

点估计:用相应样本统计量直接作为其总体参数的估计值。

区间估计:按预先给定的概率(1-α)所确定的包含未知总体参数的一个范围。

一、总体均数的点估计

1、总体均数的点估计:是直接用随机样本的样本均数X 作为总体均数μ的点估计值。

2、点估计方法简单,但未考虑抽样误差。因此,要使得参数估计可信,必须考虑抽样误差,特别是对于小样本。

二、总体均数的区间估计

1、可信区间:总体均数的区间估计是按一定的概率(1-α)用一个区间来估计总体均数,这个区间称作可信度为(1-α)的可信区间,又称置信区间。

2、可信度:预先给定的概率1-α称为可信度或置信度,若无特别说明,一般取双侧95%。

3、可信区间通常由两个数值即可信限/置信限(CL )构成。其中较小的值称可信下限,较大的值称可信上限。

4、总体均数可信区间:

(1)总体标准差σ已知

总体均数的可信度为(1-α)的可信区间为(X -ua /2σ

X ,X +ua /2σX )=1-α

(2)总体标准差σ未知

总体均数的可信度为(1-α)的可信区间为(X -t a /2,v S X ,X +t a /2,v S X )=1-α

(3)总体标准差σ未知,但n 足够大(n>60)时,t 分布近似标准正态分布

总体均数的可信度为(1-α)的可信区间为(X -ua /2S X ,X +ua /2S X )

例:若随机抽得某地2002年9名7岁正常发育男孩,测得其身高资料,计算其均数X

=121.44 (cm ),标准差S=5.75(cm ),试估计该地2002年7岁正常发育男孩身高总体均数的95%可信区间。

解:本例n=9,计算样本均数标准误为S X =n S =975

.5=1.92(cm )

V=n-1=9-1=8,α取双尾0.05,查t 界值表得t 0.05/2,8=2.306

(X -t α/2,v S X ,X +t α/2,v S X )=(121.44-2.306×1.92,121.44+2.306×1.92) 即该地2002年7岁正常发育男孩身高总体均数的95%可信区间为(117.01,125.87)

三、两总体均数之差的区间估计

1、假定两总体方差相等,两样本样本量、均数、方差分别为n 1、n 2,X 1、X 2,S 21、

S 2

2,有

t=2

1X 2121)()X (X S X ----μμ,服从自由度为v=n 1+n 2-2的t 分布,其中: 均数之差的标准误21S -=)11(212n n S C

+,合并方差2C S =2)1()1(21222211-+-+-n n S n S n 故21μμ-的(1-α)可信区间为([21X X -]-t α/2,(n1+n2-2)2

1X X S -,[21X X -]+t α/2,(n1+n2-2)21X X S -)

(当两样本的样本含量均较大时,t α/2,v 可用相应的u α/2代替,21S -可用

2

22121n S n S +计算)

2、可信度为95%的可信区间的涵义是:该区间以95%的概率包含了总体均数。

3、可信区间估计的优劣取决于两个要素:准确性、估计精确性。

可信度越接近于1越好;精确性与变量的变异度大小、样本量和1-α取值有关。 请注意:P93页表6-7 总体均数的可信区间与个体值参考值范围的区别

第三节 总体率的估计

一、总体率的点估计

1、总体率的点估计指直接用随机样本的样本率p 作为总体率π的点估计值。2总体率的点估计未考虑到样本率的抽样误差。

二、总体率的区间估计:

1、根据样本含量和样本率的大小,总体率的区间估计可采用查表法、正态近似法。

2、查表法:在样本例数较小,且样本率接近1或0,即阳性事件发生率很高或很低时,可按照二项分布原理确定总体率的可信区间。

在n ≤50时,查附表7(只含X ≤n/2部分);

X >n/2时,用n-X 值查表,所得可信区间为总体阴性率可信区间,再用1减去总体阴性率可信区间,即为总体阳性率可信区间。

3、近态近似法:当n 较大,p 和1-p 均不太小时,如np 与n(1-p)均大于5时,样本率p 的抽样分布近似正态分布,可按以下公式求总体率的(1-α)可信区间:

p ±u α/2S p ,其中p 为样本率,S p 为率的标准误,u α/2为标准正态分布α水平的双侧临界值。

α=0.05时,u 0.05/2=1.96;α=0.01时,u 0.01/2=2.58。

例:为了解某医院剖腹产情况,在该医院随机抽查了106人,其中施行剖腹产者62人,试估计该医院剖腹产率。

解:本例n=106,X=62,样本率P=10662=0.585,S p =n

P P )1(-=0.048 因np=62与n(1-p)=44均大于5,由p ±u α/2S p ,得

可信下限:0.585-1.96×0.048=49.1%

可信上限:0.585+1.96×0.048=67.9%

即该医院总体剖腹产率的95%可信区间为(49.1%,67.9%)。

三、两总体率之差的区间估计

1、设两个独立样本率分别为p 1、p 2,当n 1与n 2均较大,且p 1、1-p 1和p

2、1-p 2均不太小,一般认为,当n 1p 1、n 1(1-p 1) 、n 2p 2、n 2(1-p 2)均大于5时,可利用样本率的分布近似正态分布对两总体率的差别做出区间估计:

([p 1-p 2]-u α/2S p1-p2,[p 1-p 2]+u α/2S p1-p2),其中率之差的标准误S p1-p2=2

22111)1()1(n p p n p p -+- 例:对甲、乙两种降压药进行临床疗效评价,将某时间段内入院的高血压病人随机分为两组,每组均为100人。甲药治疗组80位患者有效,乙药治疗组50位患者有效,试估计两种降压药有效率之差的95%可信区间。

解:将甲、乙两药治疗组的患者数、治疗有效数分别以n 1、X 1和n 2、X 2表示,则n 1p 1,n 1(1-p 1),n 2p 2,n 2(1-p 2)均大于5,p 1=80/100=0.8,p 2=50/100=0.5,得:

S p1-p2=2

22111)1()1(n p p n p p -+-=100)5.01(5.0100)8.01(8.0-+-=0.064 ([0.8-0.5]-1.96×0.064,[0.8-0.5]+1.96×0.064)

即两种降压药有效率之差的95%可信区间为(17.45%,42.55%)

2、服从Poisson 分布的样本资料,其总体均数1-α可信区间的估计方法如下:

(1)查表法:当X ≤50时,查附表8。

(2)正态近似法:当X>50时,估计总体均数的1-α可信区间公式为X ±u α/2X 。

第四节 RR 值和OR 值的估计

相对危险度:是两个人群发病率的比值,通常为暴露人群的发病率与非暴露人群(或指定参照人群)的发病率之比。设暴露人群发病率为π1,非暴露人群发病率为π0,相对危险度RR=π1/π0

当RR=1时,表示该因素对疾病的发病无影响;当RR>1时,表示该因素为危险因素,它使发病危险度增大;

当RR<1时,表示该因素为保护因素,它使发病危险度减少。

★测定相对危险度的调查研究两大类型:队列研究、病例对照研究。

队列研究可计算各组人群发病率,进而可直接估计相对危险度;

病例对照研究不能直接计算暴露人群和非暴露人群发病率,故不能直接估计相对危险度,而要通过计算优势比(OR )来近似估计相对危险度。

一、RR 值的估计

1、对队列研究,根据研究对象在随访观察期间有无变化而具有以下两种不同模式:

(1)发病密度:是研究对象在观察期间由于失访、死亡等原因不断变化,而以观察人年(或其它人时单位)为分母计算的发病率。

队列研究发病密度资料整理表

组别

发病人数 观察人年数 人年发病数 暴露组

a L 1 a/L 1 非暴露组

c L 0 c/L 0 合计 m L m/L

总体相对危险度RR 的点估计为:^RR=0

1

//L c L a 对两个样本率差别进行假设检验时:0

1212)(L mL mL aL -=χ,v=1 (2)累计发病率:研究对象在观察期间无变化,以开始随访观察时的人数为分母计算的发病率。

队列研究累计发病率资料整理表

组别

发病人数 未发病人数 合计 累计发病率 暴露组

a b n 1 a/n 1 非暴露组

c d n 0

c/n 0

合计 m 1 m 0 n m 1/n

总体相对危险度的点估计为:^RR=0

1//n c n a 对两个样本率差别进行假设检验时:0

1012

2))(1(m m n n bc ad n --=χ,v=1 ★两种模式下的总体相对危险度RR 的(1-α)可信区间:^RR (1±22

/χαu )

二、OR 值的估计

1、成组设计的病例对照研究

优势或比数(odds ):指某事件发生的概率与其对立事件发生的概率之比。 成组设计病例对照研究资料的四格表

组别

暴露 合计 有 无 病例组

a b n 1 对照组

c d n 2 合计

m 1 m 2 n

^OR=ad/bc

★估计优势比可信区间的方法有:直接计算概率法、Woolf 法、Cornfield 法、Miettinen 法。

(1)Woolf 法:

lnOR 的95%可信区间为ln^OR ±1.96)(ln^OR Var ,其中)(ln^OR Var =d

c b a 1111+++ OR 的95%可信区间为^ORexp (±1.96)(ln OR Var )

(2)Miettinen 法: OR 的95%可信区间为^OR (1

296.1χ±),其中0

1012

2))(1(m m n n bc ad n --=χ,v=1。

2、配对设计病例对照研究 配对设计资料的四格表格式

病例暴露水平

对照暴露水平 合计 + - +

a b a+b -

c d c+d 合计 a+c b+d n

OR=c b 优势比OR 的95%可信区间为^OR (1296.1χ±),其中)

()1(22c b c b +--=χ,v=1。 第七章 假设检验

假设检验:指研究者事先根据现有知识对未知总体的分布和未知参数作出某种假定,再通过一次新的实验(观察)结果来推断假定是否成立。假设检验的主要目的是为新发现、新结论提供统计学依据。

1、 第一节 假设检验的概念

假设检验的基本思想:

2、 反证法思想,即事先对总体分布(通常是该分布的某个参数)作出某种假设,若样本信

息不支持该假设,则认为原假设不成立。

3、 根据“小概率事件在一次试验中一般不会发生”的原理,用概率的思想决定是否拒绝原

假设。

第二节 假设检验的基本步骤

1、 建立假设检验,确定检验水准。

2、 计算检验统计量。

3、 确定P 值,做出推断结论。

P>0.05,不拒绝H 0;P ≤0.05,拒绝H 0,接受H 1。

检验水准:也称显著性水准,是预先规定的判断小概率事件的概率尺度,记为α.

第三节 u 检验

一、大样本均数比较的u 检验:

★均数比较的u 检验的两个基本前提:样本数据服从正态分布、已知总体方差。 ★均数比较的u 检验主要适用于总体方差未知的大样本数据。

1、样本均数与总体均数比较的u 检验

u=n

X 00

σμ-,(0μ指已知理论值)当总体标准差σ0未知,n ≥60时,σ0=S 。 例:根据1983年大量调查结果,已知某地成年男子的脉搏均数为72次/分钟。某医生2003年在该地随机调查75名成年男子,求得其脉搏均数为74.2次/分钟,标准差为6.5次/分钟,能否据此认为该地成年男子的脉搏数不同于1983年?

解:

(1)建立假设检验,确定检验水平

H 0:μ=72,即该地成年男子的平均脉搏没有变化

H 1:μ≠72,即该地成年男子的平均脉搏与1983年不同

α=0.05

(2)计算检验统计量

u=n

X 00

σμ-=755.6722.74-=2.93

(3)确定P 值,做出推断结论

检验界值u 0.05/2=1.96,u 0.01/2=2.58,u>u 0.01/2,得P<0.01,按α=0.05水准,拒绝H0,接受H1,差别有统计学意义,可认为该地成年男子的脉搏与1983年不同。

2、两样本均数比较的u 检验:适用于完全随机设计的两组计量资料差别的比较, u=212

1X X X X --σ,其中两均数之差标准误21-σ=222121n n σσ+

当总体标准差σ1、σ2未知,两组例数均超过30时,^21X X -σ=2

22121n S n S +。 例:为研究孕妇补锌对胎儿生长发育的影响,将96名孕妇随机分为试验组和对照组,一组在孕期不同时间按要求补锌,另一组为对照组,观察两组孕妇所生新生儿出生体重有无不同。两组的例数、均数、标准差分别为:补锌组n 1=48,X 1=3427.8g ,S 1=448.1g ;对照组n 2=48,X 2=3361.9g ,S 2=400.1g 。问补锌对新生儿出生体重有无影响?

解:本例是两样本计量资料,每组例数超过30,故可用两大样本均数比较的u 检验。

(1)建立检验假设,确定检验水准

H 0:μ1=μ2,即两组新生儿出生体重总体均数相等,补锌对新生儿出生体重无影响

H 1:μ1≠μ2,即两组新生儿出生体重总体均数不相等,补锌对新生儿出生体重有影响

α=0.05

(2)计算检验统计量

^21X X -σ=222121n S n S +=48

1.400481.4482

221+=86.71

u=2

121X X X X --σ=71.869.33618.3427-=0.76 (3)确定P 值,做出推断结论

u0.05,按α=0.05水准,接受H 0,两组间差别无统计学意义,根据本试验结果不能推断补锌与新生儿出生体重有影响。

二、大样本率的u 检验:

★大样本率的u 检验的基本原理是:假定样本率p 服从正态分布。

★率的u 检验对统计量的要求:(1)若样本率p 介于0.1~0.9之间,每组例数大于60例;

(2)当样本率在0.1~0.9以外时,需要保证np 或n(1-p)的最小值大于5。

1、单样本率的u 检验: u=p p σπ0

-=n p )

1(000πππ--

例:全国调查结果显示,学龄前儿童营养性贫血患病率为23.5%,某医院对当地1396例学龄前儿童进行了抽样调查,查出营养性贫血患儿363例,患病率为26.0%。问该地学龄前儿童营养性贫血患病率是否不同于全国平均水平?

解:

(1)建立假设检验,确定检验水准

H 0:π=0.235,即该地学龄前儿童营养性贫血患病率与全国相同

H 1:π≠0.235,即该地学龄前儿童营养性贫血患病率与全国不同

α=0.05

(2)计算检验统计量

u=n p )

1(000

πππ--=1396)235.01(235.0235.0260.0--=2.21

(3)确定P 值,做出推断结论

u>u 0.05/2=1.96,P<0.05,按α=0.05水准,拒绝H 0,接受H 1,差别有统计学意义,可认为该地学龄前儿童营养性贫血患病率高于全国平均水平。

2、两样本率比较的u 检验

(1)u=212

1p p p p --σ,其中21p p -σ=2

22111)1()1(n n ππππ-+- (2)当两标准误未知,每组例数较大时,如样本率p 介于0.1~0.9之间,每组例数大于60例:

合并总体率的估计值 ^π0=2

12211n n p n p n ++ 21p p -σ的估计值为:^21p p -σ=)11)(^1(^2

100n n +-ππ 例:为了解某地在校男大学生肥胖与超重情况,用随机抽样的方法分别调查了该地一

所文科大学和一所工科大学的部分在校男生,其中文科大学调查了765人,检出超重53人,超重率为6.9%;工科大学调查了882人,检出超重22人,超重率为2.5%。试比较两所大学男生的超重检出率有无差别。

解:

(1)建立假设检验,确定检验水准

H 0:π1=π2,即两所大学男生超重率相等

H 1:π1≠π2,即两所大学男生超重率不等

α=0.05

(2)计算检验统计量

由于π1、π2未知,故计算合并总体率^π0=2

12211n n p n p n ++=8827652253++=0.046 ^21p p -σ=)11)(^1(^2100n n +-ππ=)882

17651)(046.01(046.0+-=0.0103 u=2

121p p p p --σ=0103.0025.0069.0-=4.27 (3)确定P 值,做出推断结论

u>u 0.05/2=1.96,P<0.05,按α=0.05水准,拒绝H 0,接受H 1,差别有统计学意义,可认为两所大学男生超重率不同。

第四节 假设检验的两类错误

I 类错误:原假设为真而被拒绝的错误,也称假阳性错误、弃真错误,犯I 类错误的概率记作α。

II 类错误:原假设不为真而被接受的错误,也称假阴性错误、存伪错误,犯II 类错误的概率记作β。

★P>α时,不能盲目接受H 0,下结论时一般不说“没有差别”、“两总体均数相等”,只说“未见差别”、“尚不能认为两总体均数不相同”。p ≤α时,可明确下结论“有差别”、“两总体均数不相同”。因为犯I 类错误的概率不会超过α。

第五节 双侧检验与单侧检验

双侧检验:指只检验差别不管差别方向的双向检验。两均数或两个率的比较一般采用双侧检验。

单侧检验:指只关心差别单侧方向的单向检验。单侧检验一般不轻易使用。

第六节 假设检验的统计意义与实际意义

一、假设检验的统计意义

1、 P 值的正确理解

P 值:指由H 0所规定的总体做重复随机抽样,获得等于及大于(或等于及小于)当前检验统计量的概率。

2、 检验结果的正确理解

3、 统计结论的表述

在假设检验中,不拒绝H 0时,意为比较的总体本质可能无差别,样本统计量的差异由抽样误差引起的可能性很大;拒绝H 0时,研究者相信比较的总体本质有差别,样本统计量间的差异不仅仅是由抽样误差造成的。

4、 假设检验与可信区间的区别与联系

可信区间用于推断总体均数的范围;假设检验用于推断总体均数间是否相等。

二、假设检验的实际意义

1、P 值大小只能说明统计学意义的“显著”,不一定有实际意义。

2、对假设检验结果的实际意义或临床意义的判定,一定要结合专业知识。当专业上和统计学上均具有“显著性”时,试验结果才有实用价值。

第七节 检验效能

检验效能用概率1-β表示,检验效能的意义是,当两总体确有差别,按检验水准α,假设检验能发现其差别(拒绝H 。)的能力。

一、影响检验效能的4个因素:

1、总体参数的差异越大,检验效能越大。

2、个体差异(标准差)越小,检验效能越大。

3、样本量越大,检验效能越大。

4、检验水准α(I 类错误的概率)定得越宽,检验效能越大。

二、检验效能的估计:

在假设检验结果的解释和评价中,特别是分析那些未能拒绝H 0的假设检验结果,事后估计检验效能1-β的值,有助于判断是总体参数确实无差别,还是由于样本量太小导致的检验效能不足。

第八章 t 检验

1、t 检验适用条件

对于计量资料,u 检验适用于总体标准差已知或总体标准差未知但样本含量(n)较大时均数的比较。t 检验用于总体标准差未知的小样本均数的比较。

2、单样本均数的 t 检验

例8-1 通过以往大量资料得知某地20岁男子平均身高为168cm ,今随机测量当地16名20岁男子,得其平均身高为172cm ,标准差为14cm 。问当地现在20岁男子的平均身高是否比以往高?

解:由经验可知身高服从正态分布,样本量较小,可用单样本均数的t 检验,且为单侧检验。

(1) 建立假设,确定检验水准

H0:μ = μ0 = 168 H1:μ > μ0 = 168

(2)计算检验统计量

143.116/141681720=-=-=

X S X t μ v= 16 – 1 = 15

(3)确定概率值,作出推断结论

查t 界值表得,15,05.0t t <,P > 0.05,按05.0=α的检验水准,不拒绝H0,差别无统计学意义,还不能认为该地20岁男子平均身高比以往要高。

3、配对样本均数的 t 检验

配对样本均数的 t 检验又称配对检验( paired t – test ),适用于配对设计的计量资料均数的比较,其比较的目的是检验两相关样本均数所代表的未知总体均数是否有差别。应用条件是差值 (d ) 变量服从正态分布。

例8-2 某医院用 A 、B 两种血红蛋白测定仪器检测了16名健康男青年的血红蛋白含量(g/L ),检测结果见表8-1第(1)~(3)栏。问:两种血红蛋白测定仪器的检测结果是否有差别。 解:本例为同源配对设计。对差值进行正态性检验满足正态性(Shapiro-Wilk 统计量,W=0.949,P =0.470),可用配对样本均数的t 检验。

1. 建立假设

H0:μd= 0即 A 、B 两种血红蛋白测定仪器检测的总体平均差异为0;H1:μd ≠ 0 即….平均差异不为0. 05.0=α

2. 计算检验统计量

n S d S d t d d /0=-= 本题 t = 2.366 ,v = 16 – 1 = 15

3. 确定概率值,作出判断结论 查自由度v =15 时的 t 值,131.215,2/05.0=t ,15,2/05.0t t >,P < 0.05,按05.0=α的

检验水准,拒绝H0,接受H1 ,差别有统计学意义,可认为A 、B 两种血红蛋白测定仪器检测结果有差别。

4、正态性检验的方法:

1.图示法:简单易行,可以粗略了解观察资料是否服从正态分布。常用频率-频率图( P-P plot )和分位数-分位数图(Q-Q plot )。

2.计算法:通过计算反映正态分布特征的指标来了解观察资料是否服从正态分布。常用矩法、W 检验法和D 检验法。

第八章 方差分析

1、方差分析又称F 检验,其目的是推断多组资料的总体均数是否相等。是通过比较组内均方组内MS 和组间均方组间MS 的大小关系来判断处理因素有无效应。

2、方差分析的基本思想就是根据实验设计的类型,将全部测量值总的变异分解成两个或多个部分,每个部分的变异可由某个因素的作用(或某几个因素的作用)加以解释,通过比较各部分的均方与随机误差项均方的大小,借助F 分布来推断各研究因素对实验结果有无影响。

3、完全随机设计是采用完全随机化的分组方法,将全部试验对象分配到g 个处理组,各处理组分别接受不同的处理,试验结束后比较各组均数之间差别有无统计学意义,以推断处理因素的效应。

随机区组设计( randomized block design ),又称配伍组设计,是配对设计的扩展。

4、方差分析的应用条件

(1)各观测值相互独立,并且服从正态分布;

(2)各组总体方差相等,即方差齐性。

第十章 卡方检验

1、χ2 检验对于计数资料来讲是一种用途非常广泛的假设检验方法,可用于两组或多组样本率的比较,两组或多组构成比的比较,以及拟合优度检验等。

2、χ2 检验的基本思想 利用实际频数和理论频数的吻合程度来反映差异。

四格表

例1 某研究用A 、B 两种药物治疗急性下呼吸道感染,A 药治疗74例,有效68例, B 药治疗63例,有效52例。问两种药的有效率是否有差别?

把该资料整理成表格的形式,即成

3、四格表资料χ 2检验的步骤(例1)

(1)建立假设,确定检验水准

H 0:π1=π2 ,即两种药的总体有效率无差别 H 1:π1 ≠π2,即两种药的总体有效率有差别 α =0.05

(2)计算检验统计量χ 2 值

ν=(R -1) (C -1)=(2-1) (2-1)=1

(3)确定P 值,作出推断结果

查χ2界值表,χ20.05(1)=3.84,本例χ2=2.74<3.84,P >0.05,按α=0.05的水准不拒绝H 0 ,尚不能认为两种药的有效率不同。

4、四格表资料χ 2检验专用公式

))()()(()(22

d c d b c a b a n bc ad ++++-=χ 5、四格表资料χ 2检验的连续性校正问题

T T A c 2

2)5.0(--∑=χ ))()()(()2/(22d c d b c a b a n

n bc ad c ++++--=χ

一般原则是:

① 当n ≥40且所有T ≥ 5时,用非校正公式计算χ 2值 。② 当n ≥40但有1≤T<5时,用连续性校正公式计算χ 2值。

③ 当n <40或有T<1时,用Fisher 确切概率法.

6、配对四格表资料的 χ 2 检验

对于计数资料,配对设计常用于:

①同一批样品用两种不同的方法处理; ②试验对象根据配对条件配成对子,同一对子内的两个个体分别接受不同的处理。

7、配对四格表资料的观察结果有无差异的检验

例4 用两种不同的方法对53例肺癌患者进行诊断,结果见表10-4,问两种方法的检测结果有无差别?

表10-4 两种方法检测肺癌的效果比较

()()()()222226864.81869.1825255.182117.818 2.7464.8189.18255.1827.818

χ----=+++=

配对设计资料整理成四格表形式:

配对四格表2χ统计量的计算公式:

b +

c >40 1,)(2

2

=+-=v c b c b χ b + c ≤40 1,)1(22=+--=v c b c b χ 检验过程如下:

(1)建立假设,确定检验水准

H 0:总体b =c 即两种方法的检测结果无差别 H 1:总体b ≠c 即两种方法的检测结果有差别 α =0.05

(2)计算检验统计量χ2值 因为b =2,c =11,b+c <40,故用校正公式, ()112111222+--=χ= 4.92

(3)确定概率P 值,作出推断结论

查χ2界值表,χ20.05(1)=3.84,χ2>χ20.05(1),P <0.05, 按α =0.05的水准拒绝H 0,接受H 1,可认为两种方法的检测结果有差别,乙法检测出的阳性率较高,因为c >b 。

第十一章 秩和检验

(一)参数统计与非参数统计

1.参数统计 样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。

2.非参数统计 样本所来自的总体分布难以用某种函数式来表达,还有一些资料的总体分布的函数式是未知的,只知道总体分布是连续型的或离散型的,解决这类问题的一种不依赖总体分布的具体形式的统计方法。由于这类方法不受总体参数的限制,故称非参数统计法(non-parametric statistics ),或称为不拘分布(distribution-free statistics )的统计分析方法,又称为无分布型式假定(assumption free statistics )的统计分析方法。它检验的是分布,而不是参数。非参数统计不需对总体分布(总体参数)作出特殊假设。

(二)非参数统计适用范围

1)等级资料。(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。(4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。(5)分布类型不明。(6)初步分析。有些医学资料由于统计工作量大,

可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。

(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。

(三)参数检验和非参数检验的特点及优缺点

(1)参数检验 要求样本来自的总体分布类型已知,在此基础上对总体的参数进行检验。

(2)非参数检验 不依赖总体的分布类型,应用时也由于此种检验方法不再是参数间的比较,所以称之为非参数检验。

(3)非参数检验的优点

①不受总体分布类型的限制,应用范围广;② 适用于各种类型的变量,对于一些未能精确测量而只能以优劣等级、严重程度、次序先后表示的资料(如等级资料),或不满足参数检验条件的资料均可用非参数统计方法;(适用于各种类型的变量以及一些等级资料,或不满足参数检验条件的资料均可用非参数统计方法)。③计算量相对较小,可节省计算时间。

(4)非参数检验的缺点 符合参数检验的资料,如用非参数检验,则会因为未充分利用样本信息,使得检验效能降低,导致犯第二类错误(存伪)的概率增大。

(四)配对设计资料编秩方法:①省略所有差值为0的对子数,同时样本例数减1②按差值的绝对值从小到大编秩,然后分别冠以正负号。遇差值绝对值相等则取平均秩,称为相同秩③分别求出正负秩次之和,正秩和以T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量。

注意:若 n>50时,可用 u 检验;当相同差值数多时,应改用校正式。

(五)成组设计两样本比较的秩和检验(Wilcoxon 两样本比较法)

编秩方法:

(六)成组设计多个样本比较的秩和检验(Kruskal -Wallis 法)

编秩方法:将各组数据混合,由小到大排序并编秩,如遇有相等数值则取平均秩次,如数值为1.5的有三个,它们的秩次为3、4和5, 取平均秩次为(3+4+5)/3=4.

(七)多个样本两两比较 重复多次假设检验后会增大犯一类错误的概率,必须对检验水准进行调整.

调整检验水准的计算: a ’=a/比较次数= 2

/)1( k k a (六)随机区组设计资料的秩和检验(Friedman 检验)

编秩方法:(1)将每个区组的数据由小到大分别编秩,遇相同数值取平均秩;(2) 计算各处理组的秩和Ri 。

(七)等级资料编秩 ①计算各等级资料的合计人数,确定各组段秩次范围

②计算各等级平均秩次 ③以各等级平均秩次与各等级例数相乘,再求和,即得T 值。

第十二章 简单线性回归

1. 直线回归(linear regression )建立一个描述应变量依自变量变化而变化的直线方程, 并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression )。

直线回归方程中,a 、b 是决定直线的两个系数,见表

①把两样本数据混合从小到大编秩,遇数据相

等者取平均秩; ②以样本例数小者为1n ,其秩和(1T )为T ,若两样本例数相等,可任取一样本的秩和(1T 或2T )为T 。

统计学课程知识点总结

1. 统计的研究对象的特点:数量性,总体性,变异性。 2. 统计研究的基本环节:统计设计,收集数据,整理与分析,统计资料的积累、开发与应用。 3. 统计总体:根据一定数目的确定的所要研究的的事物的全体。特点:同质性、大量性。 总体可分为有限总体和无限总体。 标志:总体各单位普遍具有的属性或特征。标志分为品质标志(表明单位属性,用文字、语言描述)和数量标志(表明单位数量,用数值表现)。 不变指标:一个总体中各单位有关标志的具体表现都相同。变异指标:在一个总体中,当一个标志在各单位的具体表现有可能都相同。 第二章 1. 统计调查方式:普查,抽样调查,重点调查,定期报表制度。 调查方式按调查的范围划分,可分为全面调查和非全面调查。 按时间标志可分为连续性(经常性)调查和不连续性(一次性)调查 (一) 普查是专门组织的一种全面调查。特点:非经常性调查、最全面调查。 (二) 抽样调查是一种非全面性调查,可分为概率调查和非概率调查。 (三) 重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查,它是一种不连续的调查。 (四) 定期报表制度又称统计报表制度,它是依照国家有关法规,自上而下地统一布置,按照统一的表式、统一的指标项目、统一的报送时间和报送程序,自下而上逐级地定期提供统计资料的一种调查方式。 2. 我国现行的统计调查体系:以必要的周期性普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分定期报表综合运用的统计调查方法体系。 3.调查对象是指需要调查的现象总体。调查单位是指所要调查的具体单位,它是进行调查登记的标志的承担者。 4. 统计分组的原则:穷尽原则和互斥原则。 (先分后组) 间断型分组和连续型分组,等距和异距注意事项 第三章 1. 简单算术平均数121 n i n i x x x x x n n =++ +== ∑ 2. 加权算术平均数 11221121 n i i n n i n n i i x f x f x f x f x f f f f ==+++== +++∑∑ 3. 组距数列的算术平均数 4. 相对数的算术平均数 5. 调和平均数 6. 几何平均数 7. 算术平均数的性质: 1 1 , ()0n n i i i i nx x x x ===-=∑∑ 8. 组距数列的众数112O O O M M M L d ?=+??+? 9. 组距数列的中位数12e e e e M e M M M f S M L d f --=+?∑ 11. 方差(注意与样本方差的区别)P102: 10,11题 第四章 1. 事件的关系和运算:包含 ,相等 ,和 ,差 ,积 ,逆 ,不相容 。 2. 概率的计算:古典概型 ,几何概型 加法法则 ,乘法公式 条件概率 ,全概率与贝叶斯公式 3. 常见的随机变量的期望与方差

应用统计学论文

应用统计学课程论文 经过这学期短暂的学习应用统计学,我对这门学科也有了一定认识。应用统计学是一门运用统计学的原理和方法,研究各个领域有关数据收集、整理、分析的科学是经济、管理类专业的一门重要专业基础课程。掌握统计学的基本理论和方法,具有较好的科学素养,能熟练地运用计算机分析数据,能从事统计调查、统计信息管理、数量分析、市场研究、质量控制等工作。在当前的社会发展中,是市场经济和信息经济的时代,社会各个方面的发展都需要对信息进行收集、分析和整理,所以学好应用统计对不久即将走向社会的我们是只有好处,没有坏处的。 绪论 一、应用统计学的发展: 从统计学的发展过程来看,可以把统计学大致分为古典统计学、近代统计学和现代统计学三个时期。 第一、古典统计学时期: 古典统计学时期是指17世纪初至18世纪末,这是统计学的创立时期,亦称古典统计学时期。在这时期出现了政治算术学派和德国的国势学派两个统计学派. 1、国势学派 国势学派又称记述学派,产生于17世纪的德国。由于该学派主要以文字记述国家的显著事项,故称记述学派。 2、政治算术学派 政治算术学派产生于19世纪中叶的英国,其创始人是威廉和约翰.“算术”是指统计方法。主要利用实际资料,运用数字、重量和尺度等统计方法对实际情况作了系统的数量对比分析,从而为统计学的形成和发展奠定了方法论基础。 第二、近代统计学时期: 近代统计学是指18世纪末到19世纪末这一百年的统计学,它是古典统计学的继续和发展,是古典统计学向现代统计学过渡的统计学。近代统计学的发端,不能不提到著名的统计学家阿道夫·凯特勒的卓越员献。他既继承了国势学和政治算术的传统,把统计学从作为管理国家行政的“政治医学”,扩展到作为研究社会内在矛盾及其规律性数量表现的科学认识方法,又积极地把古典概率引人统计学,以研究社会经济现象偶然变化中的规律性表现。 1、数理统计学派 指概率论引进统计学形成数理统计学,以概率作为理论基础,抽象掉统 计学的社会经济现象内涵,变成了抽象的数学分析和推断技术. 2、社会统计学派 指研究社会现象变动的原因和规律性的实质性科学。社会统计学在这里也称为社会经济统计学,包括政治统计.经济统计.人口统计.犯罪统计等多方面内容. 第三、现代统计学时期:

统计学原理考试知识点整理

第1章 绪论 1、统计的含义统计一词最基本的含义是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。 2、统计的特点P3 数量性 具体性 综合性 3、统计学的若干基本概念 总体与总体单位P10: 总体是指在某种共性的基础上由许多个别事物结合起来的整体,构成总体的个别事物叫总体单位; 总体的特征:同质性,大量性,差异性;总体的分类:有限总体与无限总体;标志、变异与变量P10: 标志,是指说明总体单位特征的名称。变异:总体单位之间品质和数量上的差异,即可变标志在总体各单位之间所表现出的差异。变量:可变的数量标志。 连续型变量与离散型变量联系和区别:连续型:变量值可作无限分割的变量离散型:变量值只能以整数出现的变量指标与标志P11 (指标,说明总体数量特征的概念)区别:第一,指标说明总体的特征,而标志则说明总体单位的特征。第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标。而标志既有反映数量也有反映品质。 第2 章统计调查 1、统计调查的含义及其在统计工作中的地位P13 含义:根据统计研究的目的,有组织、有计划地搜集统计资料的过程地位:是统计工作的第一阶段,是整个统计工作的基础一环 2、统计调查的基本原则P13-14 一、要实事求是,如实反映情况 二、要及时反映,及时预报 三、要数字与情况相结合 3、统计调查的组织形式:普查P14:含义:为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查、优缺点:,适用场合:主要用于一些重要项目呢的调查,如人口普查、耕地普查、基本单位普查、工业普查和库存普查等; 随机抽样调查P14:含义(按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法)以及具体的抽样方法【第七章】系统抽样、多阶 简单随机、分层抽样、整群抽样、 段抽样)及适用场合;非随机抽样:含义(调查者有意识地或随意而 非随机地从总体中抽取部分单位进行调查的统计方法)以及具体的抽样方法P15 (重点抽样:只对总体中为数不多但影响颇大的重点单位进行研究的一种非

应用统计学试题和答案分析

六、计算题:(要求写出计算公式、过程,结果保留两位小数,共4题,每题10分) 1、某快餐店对顾客的平均花费进行抽样调查,随机抽取了49名顾客构成一个简单随机样本,调查结果为:样本平均花费为元,标准差为元。试以%的置信水平估计该快餐店顾客的总体平均花费数额的置信区 间;(φ(2)=)49=n 是大样本,由中心极限定理知,样本均值的极限分布为正态分布,故可用正态分布对总体均值进行区间估计。 已知:8.2,6.12==S x 0455.0=α 则有: 202275 .02 ==Z Z α 平均误差=4.07 8 .22==n S 极限误差8.04.022 2 =?==? n S Z α 据公式 x x ±=±? 代入数据,得该快餐店顾客的总体平均花费数额%的置信区间为(,) 3 要求:①、利用最小二乘法求出估计的回归方程;②、计算判定系数R 。 附:10805 1 2 ) (=∑-=i x x i 8.3925 1 2 ) (=∑-=i y y i 58=x 2.144=y 3题 解 ① 计算估计的回归方程: ∑∑∑∑∑--= )(22 1x x n y x xy n β) ==-??-?290 217900572129042430554003060 = =-= ∑∑n x n y ββ)) 1 0 – ×58= 估计的回归方程为:y ) =+x ② 计算判定系数: 4 计算下列指数:①拉氏加权产量指数;②帕氏单位成本总指数。 4题 解: ① 拉氏加权产量指数

= 1 000 00 1.1445.4 1.13530.0 1.08655.2 111.60%45.430.055.2q p q q p q ?+?+?==++∑∑ ② 帕氏单位成本总指数= 11100053.633.858.5 100.10%1.1445.4 1.13530.0 1.08655.2q p q q p q ++==?+?+?∑∑ 模拟试卷(二) 一、填空题(每小题1分,共10题) 1、我国人口普查的调查对象是 ,调查单位是 。 2、___ 频数密度 =频数÷组距,它能准确反映频数分布的实际状况。 3、分类数据、顺序数据和数值型数据都可以用 饼图 条图 图来显示。 4、某百货公司连续几天的销售额如下:257、276、297、252、238、310、240、236、265,则其下四分位数 5、某地区2005年1季度完成的GDP=30亿元,2005年3季度完成的GDP=36亿元,则GDP 年度化增长率6、某机关的职工工资水平今年比去年提高了5%,职工人数增加了2%,则该企业工资总额增长了 % 。 7、对回归系数的显着性检验,通常采用的是 t 检验。 8、设置信水平=1-α,检验的P 值拒绝原假设应该满足的条件是 p e M >o M ③、x >o M >e M 3、比较两组工作成绩发现σ甲>σ乙,x 甲>x 乙,由此可推断 ( )

统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系[1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1. 三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量2222 12n =+X X χ++…X 为 服从自由度为n 的2χ分布,记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ???? ,2χ分布的密度函数图形是一个只取非负值 的偏态分布,如下图.

卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n αχχ,对给定的实数 ),10(<<αα称满足条件: αχχαχα==>? +∞ ) (222 )()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student”的笔名首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量 T = 服从自由度为n 的t 分布,记为~()T t n . t 分布的密度函数为

统计学知识点全归纳全面准确

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 二、统计学的产生与发展 (1)政治算术学派 最早的统计学源于17世纪英国。其代表人物是威廉·配第,代表作《政治算术》。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。其被称为“无统计学之名,有统计学之实”。 (2)记述学派 亦称国势学派,创始人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。因此被称为“有统计学之名,无统计学之实”。 (3)社会统计学派 创始人和代表人物,德国恩格尔和梅尔。该学派主张统计是实质性的研究社会现象的社会科学,认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。 (4)数理统计学派 创始人是比利时统计学家凯特勒,他所著的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究,其认为统计学是一门通用的方法论科学。 从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。到20世纪中期,数理统计学的基本框架已经形成,数理统计学派成为英美等国统计学界的主流。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之

间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。 (4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析 描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。 (4)统计资料的积累、开发与应用

应用统计学

应用统计学 课程编码:202136 课程英文译名:Practical Statistics 课程类别:学科基础选修课 开课对象:工业工程专业 开课学期:5 学分: 2学分; 总学时: 32学时; 理论课学时: 32 学时; 实验学时: 0学时; 上机学时: 0 学时 先修课程:概率论 教材:应用统计,朱洪文,高等教育出版社,2001.2 参考书:【1】应用统计学,倪加勋,中国人民大学出版社,1994 一、课程的性质、目的和任务 应用统计学是一门认识方法论的科学,通过对社会经济现象的数量方面资料的搜索、整理、分析和推断,阐明社会经济现象本质及其内在的规律性,以达到对社会经济现象整体的具体的认识。该课程作为经济、管理类专业的专业基础课开设。 通过本课程的教育需达到以下目的:1、为经济管理提供统计调查,资料整理汇总和统计分析的一般原则和方法;2、为进一步学习有关专业知识,奠定理论和方法基础;3、为学习其他经济管理课程和从事经济研究工作提供数量分析的方法。学习中要正确理解课程中的各个基本概念,了解统计工作的各个阶段,掌握统计的基础理论和基本方法,并能综合运用所学的理论知识分析应用经济统计信息,以满足工作的需要。 二、课程的基本要求 1.明确统计的对象及其特点,了解统计的性质与作用以及统计工作的基本环节。透彻理解统计学中的基本范畴,初步建立统计思想。 2.理解统计调查的概念,了解统计调查方法的种类,掌握统计报表制度和各种专门调查的概念、特点以及各种调查方法的结合运用。 3.了解统计调查方案的基本内容,理解统计整理的概念,统计分组的概念和作用,了解次数分布的类型,统计表的结构,掌握制表的一

地统计分析

实验五加利佛尼亚州的大气臭氧浓度的地统计分析 (综合实验) 实验目的: 通过对数据的具体分析,掌握ArcGIS下地统计分析模块的功能,了解完整的地统计分析过程,并能使用其解决科研问题中的实际问题。 实验内容: 美国环保局负责对加利佛尼亚州的大气臭氧浓度进行监测。利用地统计分析模块提供的许多工具,通过检测所有采样点之间的关系,对生成一个关于臭氧浓度值、预测标差(不确定性)的连续表面,从而使对其他点的浓度值进行最佳预测成为可能。 1、数据检查 2、模型拟合 3、模型精度比较 4、臭氧浓度制图 实验数据: 数据集描述 Ca_outline 加州轮廓图 Ca_ozone_pts 臭氧采样点数据(单位:ppm) Ca_cities 加州主要城市位置图 实验步骤: 一、数据加载 1、生成子集 将特定位置上的预测值同这些区域内的实测值相对比,是评价一个输出表面质量的最严格的方法。其方法是将原始数据集划分成两个部分:一个部分用于建立模型,也就是用来生成输出表面;另外一个部分用于测试,即验证输出表面。 (1)在Geostatistical Analyst 工具栏中单击Create Subsets命令; (2)Input Layer:选择要划分子集的图层; (3)拖动滑块到合适位置,来选择训练和测试数据的相对百分比; (4)单击完成,训练和测试数据集会在Personal Geodatabase中。 2、应用子数据集进行验证 (1)validation:input 选择测试数据集 (2)attribute:选择与生成表面时相同的属性 (3)打开验证图层 二、数据检查 你可以用三种方式对数据进行检验: (1)检测数据分布

统计学重要考点总结

第一章导论 1.2、 描述统计:研究的是数据收集、汇总、处理、图表描述、概括与分析等统计 方法。 推断统计:研究的是如何利用样本数据来推断总体特征。 1.3、统计学据可以分成哪几种类型,各有什么特点? 按照计量尺度不同,分为:分类数据、顺序数据、数值型数据。 分类数据:只能归于某一类别的,非数字型数据。 顺序数据:只能归于某一有序类别的,非数字型数据。 数值型数据:按数字尺度测量的观察值,结果表现为数值。 按收集方法不同,分为:观测数据、和实验数据。 观测数据:通过调查或观测而收集到的数据;不控制条件;社会经济领域。 实验数据:在试验中收集到的数据;控制条件;自然科学领域。 按时间不同,分为:截面数据、时间序列数据 截面数据:在相同或近似相同的时间点上收集的数据。 时间序列数据:在不同时间收集的数据。 1.4 分类数据:只能归于某一类别的非数字型数据,是对事物进行分类的结果,该数据表现为类别,使用文字来表述的,分类数据主要由分类尺度计量形成的。 顺序数据:只能归于某一有序类别的非数字型数据,这些类别是有顺序的,它是由顺序尺度计量形成的。 数值型数据:按数字尺度测量的观察值,是使用自然或度量衡单位对事物进 行测量的结果,其结果表现为具体的数值。 第二章数据的搜集 2.2比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽 样,什么情况下适合采用非概率抽样。 概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本

被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。 非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。 第三章数据的图表搜集 3.4直方图和条形图有何区别? 条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积 表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度 与宽度都有意义; 直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。 3.6饼图和环形图的不同? 饼图只能显示一个样本或总体各部分所占比例。环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。 第四章习题答案 4.5简述众数、中位数和平均数的特点和应用场合。 众数:主要用于分类数据集中趋势的度量;是一组数据的峰值; 优点:不受极值的影响。 缺点:具有不唯一性;只有数据量较大时才有效果 中位数:主要用于顺序数据集中趋势的度量;是一组数据中间位置的代表制;优点:不受极值的影响;数据分布偏斜程度较大时是一个不错的选择。 平均数:主要用于数值型数据集中趋势的度量;是一组数据的重心所在。 优点:利用了所有数据信息;数据误差相互抵消,具有无偏性; 缺点:易受极值影响;当数据分布偏斜程度较大时代表性差。 4.9测度数据分布形状的统计量有哪些?峰态系数、偏态系数。

应用统计学概念整理

应用统计学概念整理 第一章:导论 1.只能归类于某一类别的非数字型数据称为分类数据 2.只能归于某一有序类别的非数字型数据称为顺序数据 3.按数字尺度测量的观测值称为数值型数据 4.包含所研究的全部个体的集合称为总体 5.从总体中抽取的一部分的元素的集合称为样本 6.用来描述总体特征的的概括性数字度量称为参数 7.用来描述样本特征的概括性数字度量称为统计量 8.说明事物类别的一个名称称为分类变量 9.说明事物有序类别的一个名称称为顺序变量 10.说明事物数字特征的一个名称称为数值型变量 11.只能取可数值的变量称为离散型变量 12.可以在一个或多个区间中取任何值的变量称为连续型变量 第二章:数据收集 1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征 的数据收集方法,称为抽样调查。 2.为特定目的而专门组织的全面调查称为普查 3.按照国家有关法律规定,自上而下地统一布置,自下而上地逐级提供基本数据的调查方 式称为统计报表 第三章:数据的图表展示 1.落在某一特定类别或组中的数据个数,称为频数 2.把各个类别及其落在其中的相应频数全部列出,并用表格形式表示出来,称为频数分布 3.一个样本或总体中各个部分的数据与全部数据之比,称为比例 4.将比例乘以100得到的数值,称为百分比或百分数,用%表示 5.样本或总体中各不同类别数值之间的比值,称为比率 6.分类数据的图示:条形图,pareto图,对比条形图,饼图 7.将各有序类别或组的频数逐级累加起来得到的频数称为累计频数 8.将各有序类别或组的百分比逐级累加起来称为累计频率 9.顺序数据的图示:累计频数分布图,环形图 10.根据统计研究的需要,将原始数据按照某种标准划分成不同的组别称为数据分组 11.分组后的数据称为分组数据 12.把变量值作为一组称为单变量值分组 13.将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组 14.在组距分组中,一个组的最小值称为下限,最大值称为上限 15.一个组的上限与下限的差称为组距 16.各组组距相等的组距分组称为等距分组 17.各组组距不相等的组距分组称为不等距分组 18.每一组的下限和上限之间的重点值称为组中值

统计学重点整理及复习资料

统计学重点整理及复习资料 第一章 统计有三个含义,即:统计工作、统计资料、统计学。 统计学的研究对象:社会经济现象数量的总体数量特征及数量关系。(学科性质:方法论) 统计学的特点:数量性、总体性、具体性、社会性、广泛性。 统计工作的过程:设计、调查、整理、分析。 统计的研究方法:统计分组法、大量观察法、综合指标法、统计模型法、统计推断法。 统计总体:客观性、同质性、差异性。组成统计总体的个别单位称为总体单位。 标志:统计学中总体单位所具有的属性或者特征;分为数量标志和品质标志(不可量性). 指标:反应总体某一综合数量特征的名称或范畴;可分数量指标和质量指标(率、平均)。 变异:指可变的品质标志;变量:指可变化的数量标志,变量的树枝也叫做变量值(标志值)。 第二章 统计调查:指根据统计研究的目的和要求,运用科学的调查方法有计划的、有组织的向社会实际搜集各项统计资料的过程。 统计调查的意义:是人们认识社会的基本方式、是统计的重要环节、在统计学中占有重要地位。统计调查的基本要求:准确、及时、系统、和完整性。 统计调查的种类:1、按组织方式可分为统计报表制和专门调查。2、按调查对象可分为全面调查和非全面调查。3、按登记事物的连续性可以分为经常性调查和一次性调查(时点状态)。4、按搜集资料的不同可分为直接观察法、报告法、采访法、问卷调查法。 统计方案的设计:一、确认调查任务和目的,二、确定调查对象和单位,三、确定调查项目和设计调查表,四、确定调查时间地点,五、制定调查的组织实施计划。 专门调查可分为:普查、重点调查、典型调查和抽样调查。 普查:为了特定的研究目的而专门组织的一次性全面调查;特点:1、一次性调查2、主要调查一定时点的情况3、普查的数据一般比较准确,规范化程度较高;原则:1、必须统一规定普查的时点2、正确选择普查的时期3、在普查范围内各调查单位或调查点应尽可能的同时进行4、同类普查的内容在各次普查中应尽可能的保持一致。

三大抽样分布

三大抽样分布 众所周知,在概率论中有二项分布、正态分布、泊松分布着三大分布,而统计学中也有三大抽样分布,分别是x2 分布、t布和F分布。这三大抽样分布的发现正好是现代统计学的形成时期,对于以参数统计推断为主要内容的现代统计学理论的形成有着重要意义。X2分布的发现来源于Kad Pears0n创立X2拟合优度理论的过程,而t分布的发现来源于Gosset小样本理论的创立过程,F分布则是来源于Fisher创立方差分析理论的过程。 三大抽样分布的研究意义 c.R.Rao曾经说过“在终极的分析中,一切知识都是历史,在抽象的意义下,一切科学都是数学,在理性的基础上,所有的判断都是统计学。”这句话一语道破统计学的重要性。三大抽样分布在统计学理论中占据着重要地位,由此可见,研究三大抽样分布对于科学研究有着重要意义。在实际工作中,统计工作者对于三大抽样分布的研究必不可少,通过研究三大抽样分布的产生、发展和完善,能够充分了解三大抽样分布理论的重要性。具体到统计学三大分布,对于三大分布理论的研究,能够在充分吸收前人研究成果的基础上不断进行理论创新,从而推动科学技术的进步。纵观所有的科技进步,无一不是在充分研究前人成果的基础上发展而来的研究统计学三大抽样分布,对于我国社会经济发展有着重要的推动作用。三大抽样分布产生于19世纪末20世纪初,在统计学的发展过程中,每一次新的分析统计数据概率模型的发现,统计学理论都会发生一次重大飞跃。为此,要想研究三大抽样分布,就应该对其发展过程进行研究。统计量是样本的函数,是随机变量,有其概率分布,统计量的分布称为抽样分布。 X2分布 x2的早期发展 由于受到中心极限定理和正态误差理论的影响,正态分布一直在统计学中占据重要地位。在很多数学家和哲学家心目中,正态分布是唯一可用的分析和解释统计数据的方法。但是随着时代的发展,一些学者开始对正态性提出了质疑,随后,在多位科学家的试验验证下,正态分布与实际数据拟合不好的情况日渐凸显出来,科学家纷纷开始研究比正态分布范围更广的分布类型,波那个人产生了偏态分布,其中,x2就是最早的偏态分布最早引入偏态分布的是JamesClerk Maxwel,他在研究气体分子运动的过程中引入了X2分布。1891年,X2分布首次被作为统计量的分布导出。Pizzetti在求线性 模型最小二乘估计残差平方和的分布时,通过富氏分析法得出了X2的分布。随着时代的发展,正态分布理论的局限更加明显,更加推动了偏态分布的发展。KarlPearson是对偏态分布贡献最大的人,成为了一代统计学巨人。按照他的观点,统计学应该把在模型基础上对观测数据进行有效预测作为基本任务,所以他开创了一族曲线对观测数据进行拟合,使得分布拟台数据的应用范围进一步扩大。 X2模型

统计学贾俊平考研知识点总结

统计学重点笔记 第一章导论 一、比较描述统计和推断统计: 数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。 (1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。 (2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。 (3)两者的关系:描述统计是基础,推断统计是主体 二、比较分类数据、顺序数据和数值型数据: 根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 (1)分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。 (2)顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。 (3)数值型数据是按数字尺度测量的观察值。其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。 总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。 三、比较总体、样本、参数、统计量和变量: (1)总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据。 (2)样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。

应用统计学的基本概念

第八讲 应用统计学的基本概念 Dr. Alan Moses 我是Alan Moses博士, 是马萨诸塞州波士顿的Joslin糖尿病中心的高级副院长和首席医生。在这部分讲座中,我们将学习应用统计学的基本概念。我们首先回顾在临床研究中统计学的作用。然后学习统计学的基本概念及常用统计学检验。最后我们将讨论一些所谓的“数据分析中的捣蛋鬼”。 临床研究中统计学的作用是什么?我们所做的就是区分事实和偶然性。我们需要比较组间差异,并检验干预的效应。 那么,临床研究中生物统计学家的作用是什么?虽然我们希望得到令人满意数据并知道如何设计试验及进行分析数据,但通常我们需要依靠生物统计学家的专业知识来选择适当的试验设计和计算适合的样本量。我们都应认识到样本量是由对结果的测定决定的,涉及其精确度、准确度、可重复性和可行性。此外,在进行数据分析时,生物统计学家帮助我们决定使用何种分析工具。在试验开始之前就应确定所使用的统计方法,非常重要的是, 分析方法决不能在试验完成之后加以改变. 在对试验进行分析时,统计学的作用是什么?我们应当记住,统计方法仅仅是一种帮助我们解释试验中所获得的数据的工具。它们是一种工具而不是试验的最终结果。而且像任何工具一样,使用统计工具必须小心。计算机可以产生一些或有统计学意义的数据,但是只有研究者才知道该使用何种统计学检验来进行统计学分析。已参加培训的研究者可以很容易地选择统计学检验方法,必须记住的很重要的一点是,对于没有足够知识的人而言,有强大功能的统计软件包可能导致致命性的错误。 生物统计学的重要概念之一是其正确性(validity)。对于关键性的数据分析、试验的结果尤其是结果的发表,正确性都是其核心。有两种正确性: 内部的和外部的(可推广性)。 内部的正确性就是在设定的试验范围内结果是准确的,使用的方法和分析经受得住检验,数据和相关的医学文献均支持研究者对试验结果的解释和结论。 外部正确性或可推广性决定了试验设计是否能够允许所做的观察和所得的结论推广到整个人群。试验人群的选择决定了最大可推广范围,这个概念我们在这个讲座的其它部分已经谈到过。如果研究对象包括男性、女性、不同的种族、不同的年龄分层,那么就有更多的机会将临床试验的结果应用于普通人群。另一方面,受试者的选择也将决定研究和结论可应用的人群范围。例如,如果在临床试验中选择年龄介于5-10岁的儿童,那么该试验的结果就仅能应用于该人群。如果选择45岁以上的亚洲男性作为受试者,那么试验结果就只能应用于这个人群。 在正确性的概念中,应该认识到须有足够的样本量以支持所得出的结论,同时要选择适当的对照人群,特别是强调随机双盲对照这一临床研究的根本的科学方法。著名科学家Isaac

(完整word版)统计学三大分布与正态分布的关系

统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍 2分布,t 分布,F 分布和正态分布的定义及基本性质, 然后 用理论说明2分布,t 分布,F 分布与正态分布的关系,并且利用数学软件 MATLAB 来验证之. 1.三大分布函数[2] 1.1 2分布 2(n )分布是一种连续型随机变量的概率分布。这个分布是由别奈梅 (Benayme )赫尔默特(Helmert )、皮尔逊分别于1858年、1876年、1900年所发 现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量X 1,X 2,…X n 相互独立,且都来自正态总体 N (0,,),则称 统计量 2 =x ; X ;…+X ;为服从自由度为n 的2分布,记为 2 2 ~ (n ). 2 分布的概率密度函数为 1 x e 2 x 0 J x 0 其中伽玛函数(X ) e t t x 1dt,x 0, 2 分布的密度函数图形是一个只取非负值 的偏态分布,如下图? x 2 n 2° f(x; n)

2(n2) ,X!,X2相互独立,则X! X2~ 2g n2); 性质3: n 时,2(n) 正态分布; 性质4:设2~ 2(n),对给定的实数 (0 1),称满足条件: P{ 2 2(n)} 2(、f(x)dx (n) 的点2(n)为2(n)分布的水平的上侧分位数. 简称为上侧分位数.对不同的与n,分位 数的值已经编制成表供查 分布,是由英国统计学家戈赛特在1908年“student的'笔名 布在数理统计中也占有重要的位置. 1), Y?2(n), X,Y相互独立,,则称统计量T —X VY/ n 分布,记为T~t( n). 为 性质1: E( 2(n)) n,D( 2(n)) 2n ; 性质2:若X! 2(nJ,X2

统计学分析报告

. . . 统计学调查报告 (08级) 上海商学院学生消费状况调查报告 (奉浦校区) 徐伟杰,景宝龙,苏淳,张玮,贾金诚小组成员 指导教师姓名崔峰 物流管理系 系名称 论文提交日期2010.12.23

目录 一,调查目的: (3) 二,调查对象: (3) 三,调查项目: (3) 四,调查时间和时限 (3) 五,调查的组织工作 (4) 六,调查结果: (4) 七,调查问卷 (4) 上海市大学生消费状况调查问卷 (4) 八,调查分析: (6) (一)基本信息 (6) (二)消费结构状况分析: (7) (三)具体消费情况: (8) 九,预测分析 (14) 十,调查分析 (16) 十一,附录:调查统计汇总表 (17)

一,调查目的: 随着社会的发展,大学生的消费方式及消费状况引起了社会各界的极大关注,社会消费观念的转变和周围环境影响他们的消费观念和行为。大学生有着较为前卫的消费观念,消费来源主要有家庭父母供给,构成了一个比较特殊的消费群体,随着大学生数量的不断攀升,他们的消费行为在一定程度上形象着整个社会的消费观念和消费行为。而上海有拥有30所本科院校,大学生的数量比较庞大,并且有着更加前卫的消费观念。就此我们针对上海商学院学生的消费情况展开调查,了解我校学生的消费特征,进而探求更为科学的消费方式和行为,提高大学生的消费效益。 二,调查对象: 统计调查对象:上海上海商学院奉浦校区在读学生 统计调查单位:每一位在上海商学院奉浦校区就读的学生 统计填报单位:物流管理082班景宝龙、徐伟杰 三,调查项目: 统计标志:户籍所在地、就读年级、家庭月收入、个人月生活费、生活费来源、各方面的消费金额分配、是否满意目前的消费金额、期望月消费金额、消费计划、期望消费项目、超前消费的情况 四,调查时间和时限 调查时间:2010年10月 调查时限:两个月 五,调查分工: 问卷设计:徐伟杰 问卷校验:苏淳,张玮,景宝龙 问卷调查:景宝龙,张玮,苏淳,徐伟杰,贾金诚

统计学在生产生活中的应用

一、统计学在社会生活中的应用 统计学的出生是研究国家状况的,譬如统计全国人口状况、农业收成、经济情况等数据,对一国经济与社会发展做统计性调查与研究。经过多年的发展,统计学在社会生活中的应用被专家学家们系统化专业化,形成了不同流派不同类别的统计学。而现在的人文社会统计分类便是对社会生活中统计学应用的专业化成果。 前面提到过的人口普查、经济情况调查等都是统计学在社会生活中的应用。早在17世纪,统计学在社会生活中的应用就被提出了。在约翰·格朗特1662年出版了《对死亡表的自然观察和政治考察》一书中,格朗特通过观察客观现象的数量关系,揭示出一系列统计规律,如男婴出生高于女生,男性死亡高于女性等,同时他还用最新颖的方法编制出了死亡率表。18世纪中末叶到19世纪中末叶期间概率论与统计学成功结合,使得统计学在生活中的应用更加被加以重视。 在当代社会,统计学的应用越来越普及,人口学中的统计学应用(进行优生优育)、社会发展与评价、持续发展与环境保护、资源保护与利用、宏观经济监测与预测、政府统计数据收集与质量保证等都依赖于各类科学的统计方法。 二、统计学在企业生产及社会经济生活中的应用 统计学在企业生产、经济生活中的应用很广,其中包括了保险精算、金融业数据库建设与风险管理、宏观经济监测与预测等一系列经济研究应用问题。 在金融业的统计学应用方面,运用统计方法研究金融风险,建立风险监测系统,不仅能够为管理层宏观调控金融市场提供科学的理论依据,而且对投资个人和机构实施风险控制具有重要指导作用。 企业经济管理对统计学的运用也是必不可少的。其中,统计方法在企业质量管理中的应用研究就是一个典型的应用实例。“九五”期间,“ISO9000”认证成为国际贸易中所要求的供方质量保证能力和水平的标志。ISO9000族标准中有许多要素涉及到统计技术与方法的应用,例如紧密结合某企业或某产品的生产过程,运用统计方法,实施产品设计、生产的全过程控制,同时还可将统计学中的“6”质量标准应用于企业的质量管理中。 统计学知识在企业生产管理中的应用当然不只限于企业质量管理。利用统计学知识还可以进行企业财务风险分析、顾客行为分析、

统计学三大分布及正态分布的关系

统计学三大分布与正态分布的关系 [1] 张柏林 41060045 理实1002班 摘要:本文首先将介绍2χ分布,t 分布,F 分布和正态分布的定义及基本性质, 然后用理论说明2χ分布,t 分布,F 分布与正态分布的关系,并且利用数学软件MATLAB 来验证之. 1.三大分布函数[2] 1.12χ分布 2()n χ分布是一种连续型随机变量的概率分布。这个分布是由别奈梅(Benayme)、赫尔默特(Helmert)、皮尔逊分别于1858年、1876年、1900年所发现,它是由正态分布派生出来的,主要用于列联表检验。 定义:若随机变量12n ,,X X …X 相互独立,且都来自正态总体01N (,) ,则称统计量222 212n =+X X χ++…X 为服从自由度为n 的2χ分布, 记为22~()n χχ. 2χ分布的概率密度函数为 122210(;),2()200n x n x e x n f x n x --?≥??=Γ???? ,2χ分布的密度函数图形是一个只取非负值的偏态分布,如下图.

卡方分布具有如下基本性质: 性质1:22(()),(())2E n n D n n χχ==; 性质2:若221122(),()X n X n χχ==,12,X X 相互独立,则21212~()X X n n χ++; 性质3:2 n χ→∞→时,( n )正态分布; 性质4:设)(~2 2n α χχ,对给定的实数),10(<<αα称满足条 件:αχχα χα ==>?+∞ ) (2 22)()}({n dx x f n P 的点)(2 n α χ为)(2n χ分布的水平α的上侧分位数. 简称为上侧α分位数. 对不同的α与n , 分位数的值已经编制成表供查 用. 2()n χ分布的上α分位数 1.2t 分布 t 分布也称为学生分布,是由英国统计学家戈赛特在1908年“student ”的笔名 首次发表的,这个分布在数理统计中也占有重要的位置. 定义:设2 ~0~X N χ(,1),Y (n ),,X Y 相互独立,,则称统计量/T Y n = 服从自由度为n 的t 分布,记为~()T t n .

统计学知识点的总结

1、统计的含义 (1)统计工作:即统计实践,是指很据科学的方法从事统计设计、收集、整理、分析研究和提供各种统计资料和统计咨询意见的活动的总称。其成果是统计资料(原始调查资料和加工处理后的系统资料); (2)统计资料:即统计工作过程中所获得的各种有关数字资料以及与之相关的其他资料的总称。通常以统计表、统计图和统计报告的形式变现,用以反映社会经济现象的规模、水平、速度、结构和比例关系等信息的数字和文字资料; (3)统计科学:即统计理论,是指统计工作实践的理论概括和科学总结。 2、统计学 统计学:是一门搜集、整理、分析数据方法的科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识。 3、统计学的研究对象 统计学研究的对象是:社会经济现象总体的数量特征和数量关系。 其根本特征:在质与量的辩证统一中,研究大量社会经济现象总体的数量方面,反映社会现象发展变化的规律性在具体时间、地点和条件下的数量表现,揭示事物的本质、相互联系、变动规律和发展趋势。 4、统计学研究特点 数量性、总体性、具体性、社会性 5、统计工作的过程及基本职能 统计工作的过程:统计设计、统计调查、统计整理、统计分析(定性—定量—定性:循环往复) 统计设计:指根据统计研究对象的特点和研究的目的、任务,对统计工作的各个方面和各个环节的通盘考虑和安排,是统计认识过程的第一个阶段,即定性认识的阶段; 统计调查:指根据统计研究对象和目的要求,依据统计设计的内容、指标和指标体系的要求,有计划、有目的、有组织的收集原始资料的工作过程,即由定性到定量认识的阶段;统计整理:指根据统计研究的目的,将统计调查得到的原始资料和通过各种方法得到的次级资料进行科学的分类和汇总,使其条理化、系统化的工作过程,即为统计分析准备在一定程度上可以反映总体特征的统计资料; 统计分析:指在统计整理的基础上,根据研究的目的和任务,应用各种科学的统计方法,从静态和动态两个方面对研究对象的数量方面进行计算、分析研究,认识和揭示所研究对象的本质和规律性,做出科学的结论,进而提出建议和可预测性的意见的工作过程,即从定量到定性深入认识的阶段。 统计工作的基本职能:信息、咨询、监督 6、统计学研究的基本方法 大量观察法、统计分组法、综合指标法、时间数列分析法、指数法、抽样推断法、相关分析法。 7、统计学的基本概念 (1)总体:指客观存在的,有性质相同的许多个别事物组成的整体; (2)总体单位:指组成总体的许多性质相同的个别事物,简称单位/个体; (3)标志:用于说明总体单位特征的名称或概念,有数量标志和品质标志之分; (4)标志表现:标志特征在各单位的具体体现,数量标志表现为具体的数值,品质标志表现为对特征加以描述的文字; (5)统计指标:用于说明总体数量特征的名称或概念及数值:一个完整的统计指标包括指标名称、指标数值、指标计量单位、计算方法、指标所属的时间和空间等因素;

相关文档