文档库 最新最全的文档下载
当前位置:文档库 › 统计学必知知识点合集

统计学必知知识点合集

统计学必知知识点合集
统计学必知知识点合集

统计学知识点合集

1. 试验和事件:对某事物或现象所进行的观察或实验叫试验,把结果叫事件。

2. 基本事件(elementary event ):如果一个事件不能分解成两个或更多个事件,就称为基

本事件。一次观察只能有一个基本事件。

3. 样本空间:一个试验中所有的基本事件的全体称为样本空间。

4. 古典概型:如果某一随机试验的结果有限,而且各个结果出现的可能性相等,则某一事

件A 发生的概率为该事件所包含的基本事件个数m 与样本空间中所包含的基本事件个数n 的比值。

5. 统计概型:在相同条件下随机试验n 次,某事件A 出现m 次(m ≤n ),则m/n 称为事

件A 发生的频率。随着n 增大,该频率围绕某一常数p 上下波动,且波动幅度逐渐减小,趋于稳定,这个频率的稳定值就是该事件的概率。 6. 概率加法:(1)两个互斥事件:P (A+B )=P (A )+P (B );任意两随机事件:P (A+B )

=P (A )+P (B )-P (AB )。 7. 事件独立(independent ):一个事件发生与否不会影响另一个事件发生的概率,公式为:

P (AB )=P (A )P (B )。互斥(相依赖)一定不独立,不独立不一定互斥(相依赖)。 8. 全概率公式:根据某一事件发生的各种原因的概率,计算该事件的概率。计算公式为:

∑==

n

1

i i

i

A |

B (P )A (P )B (P 。 9. 贝叶斯公式:在条件概率的基础上寻找事件发生的原因。计算公式为:

∑==

n

1

i i

i

i i i )

A |

B (P )A (P )

A |

B (P )A (P )B |A (P ,分母就是全概率公式。也称为逆概率公式。

该公式是在观察到事件B 已发生的条件下,寻找导致A 发生的每个原因A i 的概率。P(A i )

称为验前概率,P(A i |B)是验后概率。 10. 0-1分布:1,0x ,q

p )x (P x

-1x ==。0-1分布也称为两点分布,即非A 即B 。关于是

否的概率统统是0-1分布。性别。

11. 二项分布:现实生活中,许多事件只是具有两种互斥结果的离散变量。如男性和女性、

某种化验结果的阴性阳性,这就是二项分布。x

-n x x n

q p C )x X (P ==。参数为n ,p ,记为X~B(n ,p)。E(X)=np ,D(X)=npq 。当成功的概率很小,而试验次数很大时,二项分布接近泊松分布,此时λ=np 。即P ≤0.25,n >20,np ≤5。二项定理近似服从正态分布。二项分布是0-1分布的n 重实验,表示含量为n 的样本中,有X 个所需结果的概率。 12. 二项分布的正态近似:

)a (-)b (dt e

21q p C )x x (P 2

t -

x x x b

a

x -n x x n 2122

1

ΦΦ==

=

≤∑?

,其中a=

npq

np -x 1,

b=

npq

np -x 2,q=1-p 。

13. 超几何分布:n

N

m -n M

-N n M C C C )2X (P ==。即二项分布中,无放回的情况。 14. 泊松分布(poisson distribution ):用来描述在一指定时间范围内或在指定的面积之内某

事件出现的次数的分布。如某企业中每月发生的事故次数、单位时间内到达某一服务柜台需要服务的顾客人数、人寿保险公司每天收到的死亡声明个数、某种仪器每月出现故

障的次数等。公式为:!

x e )X (P -x λ

λ=,E(X)=λ,D(X)=λ。λ是给定时间间隔内事件的

平均数。

15. 期望:各可能值x i 与其对应概率p i 的乘积之和为该随机变量X 的期望,即

∑=n

1

i i

i p

x 。

16. 概率密度满足的条件:(1)f(x)≥0;(2)

?

+∞

=-1dx )x (f 。连续型随机变量的概率密度

是其分布函数的倒数。?

=b

a )a (F -)

b (F )x (f 。?

+∞

==

-dx )x (xf )x (E μ;

?

+∞

==

-22dx )x (f E(x)]-[x )x (D σ。

17. 正态分布(normal distribution ):正态分布的概率密度为:2

22)-x (-e

21

)x (f σμπ

σ=

,x

∈R 。记作X~(2,σμ)。

18. 正态分布图形特点:(1)f(x)≥0,即整个概率密度曲线都在x 轴上方;(2)f(x)相对于x=

μ对称,并在x=μ处取到最大值,最大值为

π

σ21

;(3)曲线的陡缓由σ决定,σ越

大,越平缓,σ越小,曲线越陡峭;(4)当x 趋于无穷时,曲线以x 轴为渐近线。 19. 正态分布的例子:某地区同年龄组儿童的发育特征、某公司的销售量、同一条件下产品

的质量以平均质量为中心上下摆动、特别差和特别好的都是少数,多数在中间状态,如人群中的高个子和矮个子都是少数,中等身材居多等。 20. 标准正态分布,即在正态分布中,μ=0,σ=1,有2

x -

2

e

21)x (f π

=

,即X~N (0,1)。

用Φ表示分布函数,?表示概率密度。Φ(-x)=1-Φ(x)。

21. 方差:即每个随机变量取值与期望值的离差平方的期望值。随机变量的方差计算公式为:

22i 1

i 2i

2

2

)X (E -)X (E p )]X (E -x

[)]X (E -X [E )X (D ==

==∑∞

22. 标准差:随机变量的方差的平方根为标准差,记)X (D =

σ。标准差与随机变量X 有

相同的度量单位。

23. 期望、标准差、离散系数的使用:如果期望相同,那么比较标准差;如果期望不同,那

么比较离散系数。

24. 3σ准则:由标准正态分布得:当X~N (0,1)时,P(|X|≤1)=2Φ(1)-1=0.6826;P(|X|≤

2)=2Φ(2)-1=0.9545;P(|X|≤3)=2Φ(3)-1=0.9973.这说明X 的取值几乎全部集中在[-3,3]之间,超出这个范围的不到0.3%。将结论推广到一般正态,即X~N (μ,σ)时,有P(|X-μ|≤σ) =0.6826;P(|X-μ|≤2σ) =0.9545;P(|X-μ|≤3σ) =0.9973。可以认为X 的值一定落在(μ-3σ, μ+3σ)内。 25. 矩:(1)∑==n

1i k i

k

X

n

1

m 为样本k 阶矩,其反映出总体k 阶矩的信息,当k=1时,即均

值;(2)∑==

n 1

i k i

k )X -X

(n

1

v 为样本k 阶中心矩,它反映出总体k 阶中心矩的信息,

当k=2时,即方差;(3)2

3

2n

1

i i 3

n

1

i i 3)

)X X (()

X X (n ∑∑==--=

α为样本偏度,它反映总体偏度的信息,

偏度反映了随机变量密度函数曲线在众数两边的对称偏斜性;

(4)3))X -X (()X -X (n n

1i 2

2i n

1i 4

i 4-=

∑∑==α为样本峰度,它反映出总体峰度的信息,峰度反映密度

函数曲线在众数附近的峰的尖峭程度。

26. 充分统计量:统计量加工过程中一点信息都不损失的统计量称为充分统计量。 27. 因子分解定理:充分统计量判定方法。当X=(X 1,X 2,…,X n )是来自正态分布N (μ,

σ2)的一个样本时,若μ已知,则

2

n

1

i i

)-X

(∑=μ是σ2的充分统计量,若σ2已知,则

∑==

n

1

i i

X

n

1X 是μ的充分统计量。

28. 精确抽样分布和渐近分布:在总体X 的分布类型已知时,若对任一自然数n ,都能导出

统计量T=(X 1,X 2,…,X n )的分布数学表达式,这种分布就是精确抽样分布,包括卡方、F ,t 分布;当n 较大时,用极限分布作为抽样分布的一种近似,这种极限分布称为渐近分布,如中心极限定理。

29. 卡方分布:设随机变量X 1,X 2,…,X n 相互独立,且X i 服从标准正态分布N(0,1),则它

们的平方和

∑=n

1

i 2i

X

服从自由度为n 的2χ分布。E(2χ)=n ;D(2χ)=2n ;2χ具有可加性;

当自由度增加到足够大时,2χ分布的概率密度曲线趋于对称,当n 趋于无穷时,2χ的

极限分布是正态分布。

30. t 分布:也称为学生氏分布。设随机变量X~N (0,1),Y~2χ(n),且X 与Y 独立,则

n

/Y X t =

,其分布称为t 分布,记为t(n),n 是自由度。t 分布的密度函数是偶函数。

当n ≥2时,E(t)=0,;当n ≥3时,D(t)=n/(n-2)。t(n)的方差比N(0,1)大一些。自由度为1

的分布称为柯西分布,随着n 增加,t 分布的密度函数越来越接近标准正态分布的密度函数。实际应用中,当n ≥30时,t 分布于标准正态分布很接近。另有一个关于t 分布的抽样分布:

)1-n (t ~S

)

-X (n μ,称为服从自由度为(n-1)的t 分布。

31. F 分布:设随机变量Y 与Z 独立,且Y 和Z 分别服从自由度为m 和n 的2χ分布,随机

变量X 如下:mZ

nY

n /Z m /Y X =

=

。则成X 服从第一自由度为m ,第二自由度为n 的F 分布,记为X~F(m,n)。E(X)=n/(n-2),n>2;D(X)=)

4-n )(2-n (m )

2(n 22-+n m ,n>4。

32. t 分布与F 分布的关系:如果随机变量X 服从t(n)分布,则X 2服从F(1,n)的F 分布。这在

回归系数显著性检验中有用。 33. X 的抽样分布(sampling distribution ):当总体分布为正态分布时,X 的抽样分布仍然是

正态分布,此时E(X )=μ,D(X )=σ2

/n ,则),(N ~X 2

n

σμ。其说明当用样本均值去估

计总体均值时,平均来说没有偏差(无偏性);当n 越来越大时, X 的散布程度越来越小,即用X 估计μ越来越准确。

34. 中心极限定理(central limit theorem ):不管总体的分布是什么,只要总体的方差σ2有

限且要求n ≥30,此时样本均值X 的分布总是近似正态分布,即X ~N(μ,σ2/n)。 35. 样本比例的抽样分布:如果在样本大小为n 的样本中具有某一特征的个体数为X ,则样

本比例为:)n

)

1(,(N ~n X p ^

πππ-=

。π是总体比例,即p^=X/n=π。 36. 两个样本均值之差的分布:若为两个总体,则:

212121)X (E )X (E )X -X (E μμ-=-=; 2

2

2

1

2

12121n n )X (D )X (D )X -X (D σσ+

=

+=;若是两个样本,则:

212^

1^)p -p (E μμ-=;

2

221

112^

1^

n )

1(n )1()p -p (D ππππ-+

-=

37. 样本方差的分布:设X 1,X 2,…,X n 为来自正态分布的样本,则设总体分布为N(

μ,σ

2),则样本方差S 2

的分布为:

)1-n (~S )1-n (2

2

2

χσ

38. 两个样本方差比的分布:设X 1,X 2,…,X n 是来自正态分布的样本,y 1,y 2,…,y n 也

是来自正态分布的样本,且X i 与y i 独立,则

)1-n ,1-n (F ~/S /S /S /S 212

2

2y 2

12x 22

212

y 2x σσσσ=。 39. 参数估计(parameter estimation ):用样本统计量去估计总体的参数。 40. 点估计(point estimate ):用样本统计量的某个取值直接作为总体参数的估计值。 41. 区间估计(interval estimate ):是在点估计的基础上,给出总体参数估计的而一个区间范

围,该区间通常由样本统计量加减估计误差得到。 42. 置信区间(confidence interval ):在区间估计中,由样本统计量所造成的总体参数的估计

区间称为置信区间。

43. 置信水平(confidence level ):如果将构造置信区间的步骤重复多次,置信区间中包含总

体参数真值的次数所占的比例为置信水平,也称为置信度或置信系数。其含义为:如果做了100次抽样,大概有95次找到的区间包含真值,而不是95%的可能落在区间,因为统计量不涉及概率问题。 44. 无偏性(inbiasedenss ):指估计量抽样分布的期望等于被估计的总体参数。设总体参数

为θ,估计量为θ^,如果E(θ^)=θ,则称θ^为θ的无偏估计量。 45. 有效性(efficiency ):指对同一总体参数的两个无偏估计量,有更小标准差的估计量更

有效。 46. 一致性(consistency ):指随着样本量的增大,点估计量的值越来越接近被估总体的参数,

换个说法,一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。 47. 样本量与置信水平、总体方差和估计误差的关系:样本量与置信水平成正比,在其他条

件不变的情况下,置信水平越大,所需的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即可接受的估计误差的平方越大,所需的样本量就越小。

48. 圆整法则:将样本量取成较大的整数,也就是将小数点后面的数值一律进位成整数。 49. 两类错误:一类是原假设H 0为真却拒绝,这类错误用α表示,称为弃真;另一类是原

假设为伪而我们却接受,这种错误用β表示,也称存伪。

50. 两类错误的控制原则:如果减小α错误,就会增大犯β错误的机会;若减小β错误,也

会增大犯α错误的机会。规则是:首先控制α错误,这是因为原假设是什么常常是明确的,而备择假设是什么则常常是模糊的。 51. P 值:P 值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。P 值越小,

拒绝原假设的理由就越充分。P 值的长处是它反映了观察到的实际数据与原假设之间不一致的概率值。

52. 双侧检验与单侧检验:双侧检验主要是检验是否相等,如90年的婴儿体重与89年婴儿

体重是否相等;另一种是单侧检验,即关心的假设问题带有方向性,如灯泡的使用寿命,汽车行驶距离等;另一种是数值越小越好,如废品率、生产成本等。 53. 统计量的选择:在一个总体参数的检验中,主要统计量有三个,z 、t 和2χ。z 和t 用于

均值和比例检验,2χ用于方差检验。统计量选择步骤如下:(1)是否是大样本,如果是,那么如果总体呈正态分布,样本统计量也呈正态分布;如果总体不呈正态分布,样本统计量渐进服从正态分布;此时可以使用z 统计量(2)如果是小样本,那么观察σ,如果σ已知,样本统计量将服从正态分布,此时可以用z 统计量(3)如果未知σ,则只能使用样本标准差,样本统计量服从t 分布,应采用t 统计量。t 统计量的精度不如z 统计量,这是总体信息σ未知所需要付出的代价。 54. 总体比例检验公式:n

)

-1(-p z 000

πππ=

。P 为样本比例,π0是总体比例π的假设值。

55. 总体(population ):包含所研究的全部个体的集合,组成总体的每一个元素称为个体。

当总体的范围难以确定时,可根据研究的目的来定义总体。 56. 样本(sample ):样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称

为样本量。

57. 参数(parameter ):参数是用来描述总体特征的概括性数字度量。 58. 统计量(statistic ):统计量是用来描述样本特征的概括性数字度量。抽样的目的就是根

据样本统计量估计总体参数。统计量中不能包含未知参数。 59. 变量(variable ):说明现象某种特征的概念,特点是从一次观察到下一次观察结果会呈

现出差别或变化。变量分为分类变量、顺序变量、数值型变量,数值型变量又分为离散型变量和连续型变量。

60. 概率抽样(probability sampling ):也称随机抽样,指遵循随机原则进行的抽样,总体中

每个单位都有一定的机会被选入样本。概率抽样分为简单随机抽样、分层抽样、整群抽样、系统抽样和多阶段抽样。

61. 简单随机抽样(simple random sampling ):从包括总体N 个单位的抽样框中随机的一个

一个的抽取n 个单位作为样本,每个单位的入样概率是相等的。 62. 非概率抽样(non- simple random sampling ):指抽取样本时不依据随机原则,而是根据

研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。包括方便抽样、判断抽样、自愿样本、滚雪球抽样和配额抽样。 63. 抽样误差(sampling error ):指由于抽样的随机性引起的样本结果与总体真值之间的误

差。

64. 频数(frequency ):是落在某一特定类别或组中的数据个数。把各个类别及落在其中的

相应频数全部列出,并用表格形式表现出来,称为频数分布。 65. 列联表(contingency table )和交叉表(cross table ):由两个或两个以上变量交叉分类的

频数分布表称为列联表。二维的列联表又称为交叉表。 66. 帕累托图(pareto chart ):按各类别数据出现的频数多少排序后绘制的条形图。通过对

条形图排序,容易看出哪类数据出现得多,哪类数据出现的少。 67. 饼图(pie chart ):是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示

一个样本中各组成部分的数据站全部数据的比例,对于研究结构性问题十分有用。

68. 环形图(doughnut chart ):把饼图叠在一起,挖去中间部分就是环形图。环形图可显示

多个样本部分所占的相应比例,从而有利于构成的比较研究。 69. 累积频数(cumulative frequencies ):将各种有序类别或组的频数逐级累加起来得到的频

数,通过累积频数可以很容易看出某一类别以下或某一类别以上的频数之和。 70. 组中值(class midpoint ):是每一组中下限值与上限值中间的值,组中值可以作为该组数

据的一个代表值,但是用组中值有一个必要的假定条件,即各组数据在本组内呈均匀分布或在组中值两侧呈对称分布,否则会产生误差。 71. 直方图(histogram ):适用于展示分组数据分布的图形,用于大批量数据的分析。 72. 茎叶图(stem-and-leaf display ):反映原始数据分布的图形,由茎叶两部分组成,其图形

是由数字组成的。可以看出数据的分布形状及数据的离散情况且能保留原始信息,适用于小数据。

73. 箱线图(box-plot ):由最大值、最小值、中位数、两个四分位数组成,主要用于反应原

始数据分布的特征,还可以进行多组数据分布特征的比较。 74. 线图(line plot ):主要用于反应现象随时间变化的特征。 75. 散点图(scatter diagram ):用二维坐标展示两个变量之间关系的图形。 76. 气泡图(bubble chart ):可用于展示三个变量之间的关系。一个变量是横轴、一个变量

是纵轴、一个变量用气泡大小表示。 77. 雷达图(radar chart ):也称蜘蛛图。设有n 组样本S1,S2…Sn ,每个样本测得P 个变量

X1,X2…XP ,要绘制这P 个变量的雷达图,具体做法是,先画一个圆,然后将圆P 等分,得到P 个点,令这P 个点分别对应P 个变量,再将这P 个点与圆心连线,得到P 个辐射状的半径,这P 个半径分别作为P 个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,再将同一样本的值在P 个坐标上的点连线。这样,n 个样本构成的n 个多边形就是雷达图。雷达图在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,则总的绝对值与图形所围成的区域成正比。此外,利用雷达图可以研究多个样本之间的相似度。 78. 众数(mode ):一组数据中出现次数最多的变量值,用0M 表示。主要用于测度分类数据、

顺序数据、数值数据的集中趋势,不受极端值影响,一组数据分布的最高峰点所对应的

数值即为众数。只有在数据量较大时,众数才有意义。

79. 中位数(median ):中位数时一组数据排序后处于中间位置上的变量值,用e M 表示。中

位数主要用于测度顺序数据和数值型数据的集中趋势,但不适用于分类数据。中位数位

置为:(n+1)/2;中位数的值为}}x {x 2

1

,{x M 1)(n/2)n/2()2/)1((e +++=n 。中位数是一个

位置代表值,其特点是不受极端值影响,在研究收入分配时很有用。 80. 平均数也称为均值(mean ),是集中趋势的最主要测度值,主要适用于数值型数据,不

适用于分类数据和顺序数据。平均数分为简单平均数和加权平均数,简单平均数(simple

mean )的计算公式为:n

x

n

x x x x n

1

i i

n

21

∑==?++=。根据分组数据计算的平均

数称为加权平均数(weighted mean )。设原始数据被分为k 组,各组的组中值分别用

k 21M ,M ,M ?表示,各组变量值出现的品数分别用k 21f ,f ,f ?表示,则样本加权平均

数的计算公式为:n

f

M n

f M f M f M x n

1

i i

i n

n 221

1∑==?++=,其中n=

∑i

f 。平均数

是一组数据的重心所在,是数据误差相互抵消后作用的结果。 81. 几何平均数(geometric mean ):是n 个变量值乘积的n 次方根,用G 表示,计算公式为:

n

n

1

i i

n

n 321x

x x x x G ∏==

?????=

。几何平均数主要用于计算平均率,当所

掌握的变量值本身是比率的形式时,采用几何平均法更合理。在实际中,几何平均数主

要用于计算现象的平均增长率。

82. 异众比率(variation ratio ):指非众数组的频数占总频数的比例,用r V 表示,计算公式

为:∑∑∑==

i

m

i

m

i

r f f -

1f

f

-f V 。fm 是众数组的频数,fi 是变量值的总频数。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数

占总频数的比重越大,众数的代表性越差;异众比率越小,非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率可用于分类数据、顺序数据和数值型数据。 83. 四分位差(quartile deviation ):也称为内距或四分间距(inter-quartile range ):是上四分

位数与下四分位数之差,用d Q 表示,计算公式为:L U d Q -Q Q =。四分位差反映了中间50%数据的离散程度,其数值越小,中间的数越集中;数值越大,中间的数越分散。

四分位数不受极值影响。可用于顺序数据和数值数据,但不能用于分类数据。 84. 极差(range ):也称为全距,用R 表示,指一组数据的最大值和最小值之差。计算公式

为:)

x (min -)x (max R i i =。极差容易受极端值影响。 85. 平均差(mean deviation ):也称为平均绝对离差(mean absolute deviation ):是各变量值

与其平均数离差绝对值的平均数。用d M 表示。平均差以平均数为中心,反应了每个数据与平均数的平均差异程度,能全面反应一组数据的平均差异程度,但由于为避免出现

0而取绝对值,所以实际中应用较少。

根据未分组数据计算平均差的公式为:n x

-x

M n

1

i i

d ∑==

根据分组数据计算平均差的公式为:n

f x -M

M k

1

i i

i

d ∑==

86. 方差(variance )与标准差(standard variance ):方差是各变量值与其平均数离差平方的

平均数。方差的平方根是标准差。设样本方差为2

S ,根据分组和未分组数据计算样本方

差的公式为:1

-n f )x -M

(s ,1-n )

x -x

(s

k

1

i i

2

i

2n

1

i 2

i

2

∑∑===

=

,其中n-1是自由度。标

准差更具有实际意义。

87. 自由度(degree of freedom ):自由度指附加各独立的观测值的约束或限制的个数。当样

本数据的个数为n 时,若样本平均数x 确定后,则附加给n 个观测值的约束个数是1个,因此只有n-1个数据可以自由取值。例如,假定样本有3个数,2,4,9,则x =5,那么如果前两个值取5和8,则第三个数必须取2才能使x =5,所以有一个数是不能自由取值的,所以自由度是n-1。 88. 标准分数(standard score ):是变量值与其平均数的离差除以标准差后的值,也称为标

准化值或z 分数,计算公式为:s

x

-x z i i =

。标准分数给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。标准分数具有均值为0,标准差为1的特性,实际上z 分数只是对数据进行了线性转换。用于数据标准化和检测离散数据。

89. 经验法估计数据的相对位置:当一组数据对称分布时,约有68%的数据在平均数±1个

标准差内;约有95%的数据在平均数±2个标准差内;约有99%的数据在平均数±3个标准差内。三个标准差之外的数据称为离群点。 90. 切比雪夫不等式(Chebyshev’s inequality ):经验法只适合对称分布数据,而切比雪夫不

等式适用于任何分布的数据,但只给了下界,即所占比例至少是多少。切比雪夫不等式

公式为:2

DX

)EX -X (P εε≤

≥。根据该公式可知,至少有(1-1/ε2)个数据落在k

个标准差之内,对于k=2,该不等式的含义是,至少有75%的数据落在±2个标准差之内。

91. 离散系数:也称为变异系数(coefficient of variation ),是一组数据的标准差与其相应的

平均数之比,计算公式为:x

s v s =

。离散系数是测度数据离散程度的相对统计量,主

要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度大。离散系

数是比较平均水平不同或计量单位不同的不同组别的变量值的离散程度。

92. 离散测度总结:分类数据主要用异众比率来测度离散程度;顺序数据主要用四分位数来

测度离散程度;数值数据主要用方差和标准差测度离散程度;而对于不同的样本数据,用离散系数比较离散程度。 93. 偏态(skewness ):偏态是对数据分布对称性的测度。测度偏态的统计量是偏态系数

(coefficient of skewness ),记作SK 。根据未分组和分组的原始数据计算偏态系数的公式

为:3

k

1

i i 3

i

3

3

i ns

f )x -M

(SK ,s

)2)(1()

x -x (n SK ∑∑==

--=

n n 。如果一组数据的分布是对称

的,则偏态系数等于0,表明分布是对称的,若偏态系数大于1或小于-1,则称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5,则是中等偏态分布。根据分组的SK 公式中,很明显是将离差的三次方的平均数除以3

s ,是将偏态系数转化为相对数。

94. 相对数:是两个有联系的指标的比值,它可以从数量上反映两个相互联系的现象之间的

对比关系。 95. 峰态(kurtosis ):是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数

(coefficient of kurtosis ),记作K 。峰态通常与标准正态分布比较而言的。如果数据服从标准正态分布,则峰度为0,否则为平峰分布或尖峰分布。根据未分组和分组数据计算

峰态系数的公式为:4

22i 4i s

)3-n )(2-n )(1-n ()

1-n (])x -x ([3-)x -x ()1n (n K ∑∑+=

3-ns

f )x -M

(K 4

k

1

i i

4i

∑==

。当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁

平分布,数据的分布越分散。分组公式中也可以不减3,此时比较的标准是3。 96. 2χ分布:主要用于对两个定类变量之间的关系的分析。对定类变量进行分析,一般是把检验问题进行转化,通过考察频数与其期望频数之间的吻合程度,达到检验目的。

97. 列联表的分布:有两个方面,一个是观察值的分布,一个是期望值的分布。 98. 列联表2

χ检验:∑=e

2

e 02

f )

f -f (χ

,自由度为:(行数-1)×(列数-1),fe 表示期望值频数,f0表示观察值频数。计算出2χ以后,再根据附录表和显著性水平计算

值取整)(2显著性水平χχ。如果2χ<值取整)

(2

χχα,那么不能拒绝原假设,调查数据的差异性是由于抽样的随机性造成的。2χ越小,行列之间关系越密切。

99. 列联表2χ检验两种方法:一种是拟合优度检验,一种是独立性检验。两种方法最大的

区别在于期望值的求法。拟合优度检验期望值的计算方法是:(行合计项/总数)*列总

计项;独立性检验期望值的计算方法是:(行合计项/总数)*(列合计项/总数)*合计。独立性检验要求样本足够大,如果只有两个单元,每个单元的期望频数必须是5以上;倘若有两个以上的单元,如果20%的单元期望频数小于5,则不能用2χ检验独立性。 100. ?相关系数(? correlation coefficient ):描述2×2列联表数据相关程度最常用的一种

相关系数。公式为:)

d b )(c a )(d c )(b a (bc

-ad n

2

++++=

=

χ?。当ad=bc 时

(即对角线数值相乘相等时),?=0;若对角线数据有一对为0,?=±1,表示两个变量完全相关。

?取值主要在0~1,且?绝对值越大,相关程度越高。

101. C 系数(coefficient of contingency ):也称列相关系数或列联系数,主要用于大于2×2

列联表的情况。计算公式为:n c 22

+=

χχ。当列联表中两个变量相互独立时,c=0,

但不可能大于1,一定低于

?值。C 系数可能的最大值依赖于列联表的行数和列数,且

随着行和列的增大而增大。因此,根据不同的行和列计算的列联系数无法比较,除非两

个列联表中的行数和列数一致。C 系数中,对于2×2列表,c=0.7071;3×3列表,c=0.8165;4×4列表,c=0.87,这些都是每种列表的最大c 值。

102. V 系数:V 系数也不限列联表的大小,计算公式为:

)]1-C (,)1-R [(min n V 2

?=

χ。

min 是指行和列中较小的一个。当两个变量相互独立时,V=0;当完全相关时,V 在0~1之间。如果列联表中有一维是2,那么V=

?。

103. 单样本t 检验:目的是利用来自某总体的样本数据,推断该总体的均值是否与制定的检

验值之间存在差异,它是对总体均值的假设检验。其零假设为:总体均值与指定检验值

之间不存在显著差异。公式为

n /-X t σμ

=

104. 两配对样本t 检验:目的是利用来自两个总体的配对样本,推断两个总体的均值是否存

在显著差异。它和独立样本t 检验的差别就是要求两个样本是配对的。由于配对样本在抽样时不是相互独立的,而是相互关联的,因此在进行统计分析时必须考虑到这种相关性,否则会浪费大量统计信息。要求:两组样本容量相同;两组样本观察值顺序不能调换;保持一一对应的关系。

105. 方差分析(analysis of variance ,ANOVA ):通过检验各总体均值是否相等来判断分类型

自变量对数值型因变量是否有显著性影响。数值型数据是因变量,分类型数据是自变量。 106. 方差元素():在方差分析中,所要检验的对象称为因素或因子。因素的不同表现称为

水平或处理。每个因子水平下得到的样本数据称为观测值。比如检验行业中的四个行业的显著性差异,那么这就是个单因素(一个大的行业总体)四水平(四个行业)的试验。 107. 组内误差():来自水平内部的数据误差称为组内误差,也就是由抽样的随机性所造成

的随机误差。组内误差只含有随机误差。 108. 组间误差():来自不同水平之间的数据误差称为组间误差。这种差异可能是由抽样本

身形成的随机误差,也可能是由行业本身的系统性因素造成的系统误差。 109. 单因素方差总平方和(SST ):反映全部数据误差大小的平方和,其反映全部观测值的离

散情况。计算公式为:

2

k 1i n 1

j ij

i

)

x -x

(SST ∑∑===

,即每一个水平均值与总均值的差的平

方的和。SST=SSE+SSA 。自由度为n-1。 110. 单因素方差组内平方和(SSE ):反映组内数据误差大小的平方和,也称误差平方和或残

差平方和。计算公式为:

∑∑

===

k 1i n 1

j 2

i ij

i

x -x (SSE 。自由度为k-1。

111. 单因素方差组间平方和(SSA ):反映组间数据误差大小的平方和,也称因素平方和,反

映样本均值之间的差异程度。计算公式为:

∑==

k

1

i 2

i

x -x (n SSA 。自由度为n-k 。

112. 三种误差之间的关系:SSA 是对随机误差和系统误差大小的度量,它反映了自变量对因

变量的影响,也称为自变量效应或因子效应;SSE 是对随机误差大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的影响,SSE 也称为残差效应。 113. 方差分析的三个基本假定:每个总体都服从正态分布;各个总体的方差相同;观测值相

互独立。

114. 均方(mean squarem,MS ):由于各误差平方和的大小与观测值的多少有关,为了消除

观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以他们所对应的自由度,这一结果称为均方,也称为方差。 115. F 分布():组内均方记为MSE ,组间均方称为MSA 。将MSA 与MSE 对比,即得到方

差统计量F ,也就是F 分布。)k -n ,1-k (F ~MSE

MSA

F =

。 116. 单因素方差相关系数():为组间平方和(SSA )占总平方和(SST )的比例大小,记为2R ,

公式为:SST

SSA

R

2

=

。得到的值即自变量对因变量的影响效应的比值,该比值即为残差效应的比值。把2R 开平方即可测量关系的强度,若得0.59,说明两者之间有中等以上的关系。

117. 方差的多重比较(multiple comparison procedures ):通过对总体均值之间的配对比较来

进一步检验哪些均值之间存在差异。

118. 方差的多重比较——最小显著差异法(LSD ):(1)提出假设H 0:μi =μj ,H 1:μi ≠μj ;

(2)计算检验统计量:j i x -x ;(3)计算)n 1

n 1(

MSE t LSD j

i 2/+=α。t 的自由度为n-k ,k 是因素中水平的个数;(4)若LSD x -x j i >,则拒绝H 0。

119. 双因素方差分析(two-way analysis of variance ):在对实际问题的研究中,有时需要考

虑几个因素对试验结果的影响。如分析影响彩电销售的因素时,需要考虑品牌、销售地区、价格等多个因素的影响。当方差分析中涉及两个分类型自变量时,称为双因素方差分析。

120. 双因素方差分析的交互性:若两个因素对观测量的影响是相互独立的,那么称为无交互

作用的双因素方差分析,或无重复双因素分析;如果除了两个因素对销售量的单独影响,两个因素的搭配还会对销售量产生一种新的影响,那么称为有交互的双因素方差分析,或可重复双因素分析。 121. 双因素方差总平方和:

∑∑∑∑

∑∑

==??==?==?+++=

k 1i r

1

j 2

j i ij k 1i r

1

j 2

j k 1i r

1

j 2

i )x x -x -x ()x -x ()x -x (SST , 即总误差平方和=行因素误差平方和+列因素误差平方和+除行列因素之外的剩余因素影

响产生的误差平方和,SST=SSR+SSC+SSE 。 122. 双因素方差分析的F 分布:))1-r )(1-k (,1-k (F ~MSE

MSR

F R =

,检验行因素对因变量的影响是否显著;))1-r )(1-k (,1-r (F ~MSE

MSC

F C =

,检验列因素对因变量的影响是否显著。

123. 双因素方差相关系数():为行变量平方和(SSR )与列变量平方和(SSC )的和占总平

方和(SST )的比例大小,记为2R ,公式为:SST

SSC

SSR R

2

+=

。得到的值即自变量对

因变量的影响效应的比值,该比值即为残差效应的比值。把2R 开平方即可测量关系的强度,若得0.59,说明两者之间有中等以上的关系。

124. 方差分析中自变量因变量的确定:若要分析A 对B 是否有影响,那么A 是自变量,即

影响因变量的因素,B 是因变量。 125. 方差分析各组均值的精细比较:如果有4个总体均值,单因素分析可以对4个均值单独

总体比较,但有时候需要把4个总体均值分两组分别比较,此时就可以引入精细比较法。该方法将问题转化为研究这两组总的均值是否存在显著差异。这种事先制定均值的线性组合,再对该线性组合进行检验的分析方法就是各组均值的精细比较。

126. 协方差分析的要求:协变量是连续型数值变量,多个协变量之间相互独立,且与因素变

量之间也没有交互影响。

127. 协方差分析:将观察变量总的离差平方和分解为由因变量、因变量交互、协变量、随机

因素引起的,即在扣除了协变量对观察变量的影响后,分析因变量对观察变量的影响。协方差分析也采用F 检验法,处理计算思路和多因素方差分析相似。

128. 判断是否有协变量的方法:绘制图形,观察协变量和因变量之间有无关联性。若从图形

可以判断两者有显著关系,则可引入协方差分析。 129. 回归与相关:是数值型自变量与数值型因变量之间关系的分析方法。如果研究的是两个

变量之间的关系,则是简单相关或回归,如果是两个以上变量之间的关系,就是多元回归或相关。回归和相关还分为线性和非线性。 130. 变量之间的关系:变量之间的关系为函数关系或相关关系。函数关系是一一对应的确定

关系,而相关关系不存在完全确定的关系。由于影响一个变量的因素有很多,才造成了变量之间关系的不确定性。变量之间存在的不确定的数量关系称为相关关系。

131. 相关的种类:线性相关、非线性相关、完全相关和不相关。如果变量之间的关系近似的

表现为一条直线,那么是线性相关;如果变量之间的关系近似的表现为一条曲线,那么是非线性相关或曲线相关;如果一个变量完全依赖于另一个变量,各观测点落在一条直线上,称为完全相关;如果两个变量的观测点很分散,无任何规律,那么是不相关。 132. 相关系数(correlation coefficient ):是根据样本数据计算的度量两个变量之间线性关系

强度的统计量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数计算的,则称为样本相关系数,记为r。计算公式为:

∑∑∑∑∑∑∑?=

2

2

22)

y (-y n )x (-x n y

x -xy n r 该公式也称为线性相关系数,或皮尔逊

相关系数。皮尔逊相关系数适用于连续变量之间的相关程度。R=0只代表无线性关系,但不能代表没有关系。当r>0.8,说明盖度相关;0.5-0.8说明中度相关,0.3-0.5说明低度相关,r <0.3,说明不相关。 133. r 的显著性检验方法:(1)提出假设:H 0:ρ=0;H 1:ρ≠0;(2)计算检验的统计量:

)2-n (t ~r

-12

-n r

t 2

=;(3)决策:根据给定的α和df=n-2,查t 分布表,得出t α/2(n-2)的临界值。若|t|>t α/2,则拒绝零假设,表明总体的两个变量之间存在显著性管系。

134. 斯皮尔曼相关系数(Spearman ):该系数用来度量顺序水准变量间的线性相关关系。它

是利用两变量的秩次大小作线性分析。适用条件有二:第一,两个变量的变量值是以等级次序表示的资料;(2)一个变量的变量值是等级数据,另一个变量的变量值是等距或比率数据,且两总体不要求是正态分布,样本容量不一定大于30。缺点是计算精度不高。

斯皮尔曼系数用r R 表示,公式为:)

1-n (n D 6-

1r 2

2R ∑=,其中D 是两个变量每对数据

等级之差;n 是两列变量值的对数。 135. 肯德尔系数(kendall ):肯德尔等级相关系数用于反映分类变量相关性的指标,适用于

两个变量均为有序分类的情况。这种指标采用非参数检验方法测度变量间的相关关系,利用变量的秩计算一致对数目和非一致对数目。如果两变量具有较强的正相关,则一致对数目U 较大,否则一致对数目和非一致对数目应该相近。肯德尔系数计算公式如下:

)

1-n (n 2

)

V -U (=τ。

136. 偏相关分析:其是在扣除其他因素的作用大小以后,重新来测度这两个因素间的关联程

度。这种方法的目的在于消除其他变量关联性的传递效应。偏相关系数计算公式为:

2

23

2

13

231312)3(12r -1r -1r r -r r =

137. 距离分析:距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度,根据

变量的不同类型,可以有许多距离、相似程度测量指标供用户选择。但由于距离分析只是一个预分析过程,所以距离分析不会给出P 值,而只能给出各变量/记录间距离的大小,以供用户自行判断相似性。调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近程度,也可用于考察变量的相似程度。在距离分析中,主要利用变量间的相似性测度和不相似性测度度量研究对象之间的关系。 138. 回归分析:侧重于测度变量之间的关系强度,并通过一定数学表达式将这种关系描述出

来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。

139. 回归分析解决的问题:(1)确定变量之间的表达式;(2)对关系式的可信程度进行检验,

并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,那些是不显著的;(3)预测。

140. 自变量和因变量:被预测或被解释的变量称为因变量;用来预测或用来解释因变量的变

量称为自变量。如预测一定的贷款余额条件下的不良贷款是多少,被预测的不良贷款,是因变量,用来预测的是贷款余额,是自变量。

141. 一元线性回归:当回归中只涉及一个自变量时称为一元回归,若因变量y 与自变量x 之

间的为线性关系时,是一元线性回归。 142. 回归模型(regression model ):描述因变量y 如何依赖于自变量x 和误差ε的方程称为

回归模型。只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε。

143. 误差项ε:是一个服从正态分布的随机变量,且独立,即ε~N(0,σ2)。独立性意味着

对于一个特定的x 值,它所对应的ε与其他x 所对应的ε不相关。因此,对于一个特定的x 值,它所对应的y 值与其他x 所对应的y 值也不相关。这表明,在x 取某个确定值的情况下,y 的观察值非常靠近直线;当σ2较大时,y 的观察值将偏离直线。对于任何一个给定的x 值,y 都服从期望值为β0+β1x ,方差为σ2的正态分布,且对于不同的x 都具有相同的方差。

144. 回归方程(regression equation ):描述因变量y 的期望值如何依赖于自变量x 的方程。

一元线性回归方程为:E(y)= β0+β1x 。

145. 估计的回归方程(estimated regression equation ):用样本统计量^

0β和^

1β代替回归方程

中未知参数0β和1β,即估计的回归方程。^

0β表示回归直线在纵轴上的截距;^

1β是回归系数。

146. 最小二乘估计:用最小化图中垂直方向的离差平方和来估计参数β0和β1,根据这一方法确定模型参数β0和β1的方法称为最小二乘法,也称最小平方法。它是通过使用

因变量的观察值y i 与估计值

i y ︿

之间的离差平方和达到最小来估计β

0和β1的方法。公

式为

。在回归分析中对截距β0不赋予

任何意义。

147. 拟合优度(goodness of fit ):回归直线与各观测点的接近程度称为回归直线对数据的拟

合优度。为说明直线的拟合优度,需要计算判定系数。

148. 判定系数:判定系数是对估计的回归方程拟合优度的度量。 149. 变差:因变量y 的取值是不同的,y 取值的这种波动称为变差。变差产生的原因有两个:

第一,由自变量x 的取值不同造成的;第二,除x 以外的其他因素(非线性影响或测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值y 与其均值

y 之差(y-y )来表示。而n 次观察值的总变差可由这些离差的平方和表示,称为总平方和,

记为SST ,即

∑∑∑+

=

=

2

^

2

^

i

2

i

)

y -y ()y -y

()y -y

(SST 。在该公式中,等

号右边后半部分反映y 的总变差中由于x 和y 之间的线性关系引起的y 的变化部分,它是可以由回归直线来解释的yi 变差部分,称为回归平方和,记为SSR ;另一部分是各实际观测点与回归值的残差的平方和,它是除x 对y 的线性影响之外的其他因素对y 的变差作用,是不能由回归直线来解释的yi 变差部分,称为残差平和和或误差平方和,记为SSE 。回归直线拟合的好坏取决于(SSR/SST ),各点越靠近直线,比例越大,直线拟合越

好。该比例称为判定系数,记为2

R 。

150. 判定系数的判定:若所有观测点都落在直线上,残差平方和SSE=0,2

R =1,拟合是完全

的;如果y 的变化与x 无关,x 完全无助于解释y 的变差,此时,2R =0. 2

R 越接近于1,

回归平方和占总平方和的比率越大。

151. 估计标准误差(standard error of estimate ):度量各实际观测点在直线周围的散布状况

的一个统计量,它是均方残差的平方根,用SE 表示,其计算公式为:

MSE

2

-n SSE

2

-n )y -y (S 2

^

i

i e ==

=

∑。估计标准误差是对误差项ε的标准差σ

的估计,它可以看作在排除了x 对y 的线性影响后,y 随机波动大小的一个估计量。从

估计标准误差的实际意义看,它反映了用估计的回归方程预测因变量y 时预测误差的大小,若各观测点越靠近直线S E 越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上,则S E =0。

152. 回归分析的检验有两个内容:一是线性关系检验,二是回归系数检验。前者检验x 和y

之间的线性关系是否显著,后者是检验x 对y 的影响是否显著。 153. 线性关系检验的步骤:(1)提出假设:H 0:β1=0,即两个变量之间的线性关系不显著;

(2)计算检验统计量F :

)2-n (/SSE 1

/SSR F =

;(3)决策:确定显著性水平α,并根

据分子的df=1和分母的df=n-2查F 分布表,找到响应的临界值F α。若F>F α,拒绝H 0,

表明两个变量之间的线性关系显著;否则,不拒绝H 0,表明没有证据表明两个变量之间线性关系是显著的。 154. 回归系数检验步骤:(1)提出假设:H 0:β1=0,即回归系数β1=0;(2)计算检验统计

量:

^

1

S

t ^

1

ββ

=,其中

∑∑=

2i 2

i e

)x (n 1

-

x s S ^1

β,S e 是ε的估计值;(3)决策:确

定显著性水平α,并根据分子的df=n-2查t 分布表,找到响应的临界值t α/2。若|t|> t

α/2,拒绝H 0,否则接受H 0,表明没有证据表明两个变量之间线性关系是显著的。在一元线性回归中,线性的检验和回归的检验是等价的。

155. 点估计:对于x 的一个特定值x 0,求出y 的一个估计值就是点估计。点估计可以分为两

种:一是平均值的点估计,二是个别值的点估计。前者是对总体参数的估计,后者是对因变量的某个具体取值估计。 156. 平均值点估计和个别值点估计:平均值点估计是利用估计的回归方程,对于x 的一个特

定值x 0,求出y 的平均值的一个估计值E (y 0);个别值点估计是利用估计的回归方程,

对于x 的一个特定值x 0,求出y 的一个个别值^

0y 。在点估计条件下,对于同一个x 0,平均值的点估计和个别值的点估计的结果是一样的,但在区间估计中不同。

157. 区间估计:利用估计的回归方程,对于x 的一个特定值x 0,求出y 的一个估计值的区间

就是区间估计。区间估计有两种:一是置信区间估计,它是对x 的一个特定值x 0,求出

y 的平均值的估计区间,这一区间称为置信区间;二是预测区间估计,它是对x 的一个给定值x 0,求出y 的一个个别值的估计区间,这一区间称为预测区间。 158. 置信区间估计(confidence interval estimate )计算步骤:(1)计算点估计值;(2)计算

t α/2(n-2);(3)根据残差计算如下公式:∑=+±n

1

i 2

i 20e

2/^

0)x -x ()x -x (n

1

s t y α,即得区间。当x x 0=时,估计最精确,否则,y 的平均值的置信区间就越宽,越不精确。 159. 预测区间估计(prediction interval estimate ):方法与置信区间估计相似,但公式变成了

∑=++±n

1

i 2

i 20e

2/^

0)x -x ()x -x (n

1

1s t y α,多了一个1,因此预测区间要比置信区间宽。 160. 四种估计举例:(1)平均值点估计:估计贷款余额为100亿元,所有分行不良贷款的平

均值;(2)个别值点估计:估计贷款余额为72.8亿元的那个分行的不良贷款;(3)置信区间估计:估计贷款余额为100亿元,建立不良贷款的95%的置信区间;(4)预测区间估计:估计贷款余额为72.8亿元的那个分行的不良贷款的95%的置信区间。 161. 一元线性回归的注意:不能用样本数据之外的x 值去预测相应的y 值。 162. 残差分析(residual ):确定有关ε的假定是否成立的方法之一是残差分析。 163. 标准化残差(standardized residual ):对ε正态性假定的检验,也可通过对标准化残差

的分析来完成。标准化残差是残差除以它的标准差后得到的数值,也称为皮尔逊残差或半学生化残差(semi-studentized residuals ),用z e 表示。第i 个观察值的标准化残差表示

为:e

^

i

i

e i e s y -y s e z i ==

,se 是残差的标准差估计。如果误差项ε服从正态分布这一假设成立,那么标准化残差的分布也应服从正态分布。因此,在标准化残差图中,大约

有95%的标准化残差落在±2之间。

164. 多元回归模型(multiple regression model ):设因变量为y ,k 个自变量分别为x 1,x 2…

x k 和误差ε的方程为多元回归模型。公式为εβββ++?++=

k k 110x x y 。

165. 多元回归方程(multiple regression equation ):即k k 110x x E(y)βββ+?++=

它描述了因变量y 的期望值与自变量x i 之间的关系。 166. 多重判定系数(multiple coefficient if determination ):是多元回归中的回归平方和占总

平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量y 的变差中被估计的回归方程所解释的比例。

167. 调整的多重判定系数(adjusted multiple coefficient of determination ):调整的多重判定

系数记为2

a R ,计算公式为:)1

-k -n 1-n ()

R 1(1R 22

a

--=。2

a R 与R 方类似,不

同的是2a R 同时考虑了样本量n 和模型中自变量的个数k 的影响,这就使得2

a R 的值永远小于R 方,,而2

a R 的值却不会由于模型中自变量个数的增加而越来越接近。因此,多

元回归用调整的多重判定系数。

168. 复相关系数:R 方的平方根称为复相关系数,或者多重相关系数,它度量了因变量同k

个自变量的相关程度。 169. 多元线性回归的估计标准误差:MSE 1

-k -n SSE

1

-k -n )y -y

(S 2

^

i i

e =

=

=

∑。

170. 多元回归线性关系检验步骤:(1)作出假设:H 0:β1=β2=…βk =0;(2)计算F 统计量

)1-k -n ,k (F ~)

1-k -n (/SSE k

/SSR F =

;(3)作出决策:给定α,根据分子自

由度l ,分母自由度n-k-1,查F 分布表,若F>F α,则接受原假设。

171. 多元回归系数检验步骤:(1)提出假设:H 0:βi =0,即回归系数βi =0;(2)计算检验

统计量:^

1

S

t ^

1

i ββ=

,其中∑∑=

2i 2i

e

)x (n 1

-

x

s S ^1

β,S e 是ε的估计值;(3)决

策:确定显著性水平α,并根据分子的df=n-k-1查t 分布表,找到响应的临界值t α/2。

若|t|> t α/2,拒绝H 0,否则接受H 0,表明没有证据表明两个变量之间线性关系是显著的。在一元线性回归中,线性的检验和回归的检验是等价的。

172. 多元回归系数的置信区间:^i

s )1-k -n (t 2/^

βαβ±。

173. 多重共线性(multicollinearity ):当回归模型中两个或两个以上的自变量彼此相关时,

则称回归模型中存在多重共线性。多重共线性会带来如下问题:(1)可能会使回归的结果造成混乱,甚至会把分析引入歧途;(2)多重共线性可能对参数估计的正负号产生影响。

174. 多重共线性的判别:(1)模型中各对自变量之间显著相关;(2)当模型线性关系检验(F )

显著时,几乎所有回归系数βi 的t 检验却不显著;(3)回归系数的正负号与预期相反。 175. 回归搜寻过程:如果在进行回归时,每次只增加一个变量,并将新变量与已经存在模型

中的变量进行比较,若新变量引入模型后以前的某个变量的t 统计量不显著,这个变量就会被从模型中剔除,在这种情况下,回归分析就很难存在多重共线性的影响,这就是回归中的搜寻过程。

176. 回归分析自变量选择原理及方法:将一个或多个自变量引入回归模型时,是否使残差平

方和SSE 有显著减少。如果是,则说明应该引入这个变量。标准就是F 统计量。变量选择的方法有向前选择(forward selection )、向后剔除(backward elimination )、逐步回归(stepwise regression )、最优子集(best subset )。

177. 向前选择:首先对k 个自变量分别拟合对因变量y 的一元线性回归模型,共有k 个,然

后找出F 统计量的值最高的模型及其自变量x i ,并引入模型;然后在已经引入模型的xi 的基础上,再分别拟合引入模型外的k-1个自变量,挑选出F 统计量的值最大的含有两个自变量的模型,并将F 统计量的值最大的那个自变量x j 引入模型。 178. 向后剔除:对因变量拟合包括所有k 个自变量的线性回归模型。然后考察p 个去掉一个

自变量的模型,使模型的SSE 值减少最少的自变量被挑选出来并从模型中剔除。 179. 逐步回归:是以上两种方法的结合。前两步与前向回归相同,但在增加了一个自变量后,

对模型中所有的变量进行考察,看看有无可能剔除某变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除。

180. 非线性回归模型:i i ^

i e ),x (f e y y +=+=θ。f 是期望函数。

181. 非参数检验:是不依赖总体分布的统计推断方法。它是指在总体不服从正态分布且分布

情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。适用于计量信息较弱的资料,几乎什么类型的数据都可以做。

182. 2χ非参数检验:用于检验观测数据是否与某种概率分布的理论数值相符合,进而推断

观测数据是否是来自于该分布的样本的问题。零假设:样本X 来自的总体分布服从期望

分布的某一理论分布。2

χ值越大,观察频数和理论频数距离越远;值越小,观察频数

和理论频数越接近。

183. 二项分布检验:就是对只具有两种互斥结果的离散型随机事件的规律性进行描述的一种

概率分布。H 0:样本来自的总体与某个指定的二项分布无显著性差异;H 1:样本来自的总体与某个指定的二项分布有显著差异。二项分布检验要求变量必须是数值型变量,假如是字符型的,需要对数据进行转化。如果变量不是二元变量,需要设置断点,将数据分开。

184. 游程检验:游程可以用来检验任何序列的随机性,而不管这个序列是怎样产生的。此外,

游程检验还可以用来判断两个总体的分布是否相同,从而检验出它们的位置中心有无显著差异。一个游程就是某序列中同类元素的一个持续的最大主集。游程数太大或太小都表示变量值可能不存在随机性现象。

185. 单样本K-S 检验:K-S 检验的是利用数据推断总体是否服从某一理论分布,一般来说它

比卡方检验更精确的非参数检验法。其零假设是:样本来自的总体与指定的理论分布无显著差异。

186. 如何判断两独立样本是否独立?

看在一个总体中抽取样本对在另一个总体中抽取样本有无影响,如果没有影响,则认为两个总体是独立的。

187. 数据的秩:简单说就是数据的名次。将数据按升序排序,这时每个具体数据都会有一个

在整个数据中的位置或名次,这就是该数据的秩。

188. 两独立样本非参数检验方法:曼-惠特尼U 检验、K-S 检验、极端反应检验、游程检验。 189. 曼-惠特尼U 检验:最常用的两样本秩和检验,零假设是样本所在的两独立总体的均值

无显著差异。其主要是通过对平均秩判断的。首先将两组样本数据混合并按升序排序,求出每个数据各自的秩;然后分别对两组数据的秩求平均,得到平均秩。如果两个平均秩相差甚远,则可以说明一组样本数据偏小,一组样本数据偏大。

190. K-S 检验:零假设是两组独立样本所在的两总体分布无显著差异。与单样本K-S 检验的

区别是:这里是以变量的秩作为分析对象的,而非变量值本身。思路是:首先将两组样本数据混合并按升序排序,然后分别计算两组样本秩的累计频率的差,得到差值序列,并得到D 统计量,计算D 的P 值,判断零假设是否成立。这种方法检验的是总体分布情况是否相同,如果只是要检验中心位置是否相同,最好不要选择这种方法。

191. 极端反应检验:给出结果是单侧检验。如果施加的处理使得某些个体出现正向效应,而

另一些个体出现负向效应,应采取该方法。例如,研究居民对电信资费调整下调的反应,多数人会高兴,而电信行业会感到沮丧。基本思想是:将一组样本作为控制样本,另一组作为试验样本。以控制样本作为对照,检验试验样本相对于控制样本是否出现了极端

反应。如果没有出现,则认为两个总体分布无显著差异。

192.游程检验:检验总体分布情况是否相同,只要两样本各自所在总体有任何一点分布上的差别,无论是集中、离散以及其他,它都可以检验出其中的差异。如果只是要检验中心位置是否相同,最好不要选择这种方法。

193.多独立样本非参数检验方法:Kruskal-Wallis H检验、中位数检验、Joneckheere-Terpstra 检验。

194.Kruskal-Wallis H检验:是曼-惠特尼U检验的推广,重点分析平均秩。

195.Joneckheere-Terpstra检验:该检验对连续性资料或有序分类资料都适用,并当分组变量为有序分类资料时,此法的检验效能高于Kruskal-Wallis H检验,适用分类资料。

196.中位数检验:检验各个样本是否来自具有相同中位数的总体,三种方法其效能最低。重点分析中间位置。

197.两配对样本非参数检验:是在对两组配对样本的总体分布不甚了解的情况下,推断样本来自的两个总体的分布是否存在显著性差异的方法。这种检验对两个总体服从的分布不作要求,但必须是成对出现,且顺序不能随意调换。方法有:符号检验、Wilcoxon符号秩检验、McNemar检验和Marginal Homogeneity检验。

198.符号检验:样本数据相减所得到的差值应当大致有一半为正,一般为负,数量基本平衡。

检验效能较低,精度较差。该方法更适用于对无法用数字计量的情况进行比较,比如资料本身就是两分类,对于连续资料最好不要使用。

199.Wilcoxon符号秩检验:是符号检验的改进。它既考虑了样本差数的符号,也考虑了差数的顺序。首先,按照符号检验的方法,分别将第二组样本的各个观察值减去第一组样本的各个观察值。如果差值为正,则记为正号,差值为负,则记为负号。然后将差值数据按升序排序,并求出相应的秩。最后,分别计算正号秩总和,负号秩总和以及正号平均值和负号平均秩。如果正号平均秩和负号平均秩大致相等,则可认为量配对样本数据正负变化程度基本相当,两配对总体的分布无显著差异。

200.McNemar检验:是配对卡方检验,只适用于二分类资料,考察重点是两组间分类的差异。

201.Marginal Homogeneity检验:是McNemar方法向多分类情况下的扩展,适用于资料为有序分类的情况。

202.多配对样本非参数检验方法:Friedman检验、Kendall协和系数检验、Cochran检验。203.Friedman检验:利用秩来检验多个总体分布是否存在显著差异。首先,将不同样本同一顺序的样本排序成若干行,将各个样本数据按行升序排序并求得各数据在各自行中的秩;然后分别计算各样本的秩总和和平均秩。如果多个配对样本的分布存在显著差异,那么不同行的秩之间的差异必然较大。因此如果各样本的平均秩大体相当,那么可以认为各总体的分布无显著差异。

204.Kendall协和系数检验:用于分析评判者的评判标准是否一致公平。它将每个评判对象的分数都看作是来自多个配对总体的样本,通过计算Kendall协和系数W以检验多个相关样本是否来自同一分布的总体。它不仅可以检验k个相关样本是否来自同一分布的总体,还能检验变量间的相关性。W表示k个指标间的相互关联程度。

205.Cochran检验:适用于定性数据或二元数据,它是McNemar方法的推广。

206.因子分析:对变量作因子分析,称为R型因子分析;对样品作因子分析,称为Q型因子分析。因子分析的思想是:通过对变量的相关系数矩阵内部结构分析,从中找出少数几个能控制原始变量的随机变量。建立模型X=AF+ε,以F代替X。

207.因子分析的步骤:(1)确认待分析的原变量是否适合做因子分析:采用计算相关系数矩阵、巴特利特球度检验和KMO方法检验;(2)构造因子变量;(3)利用旋转方法使因

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

统计学知识点全归纳__全面、准确

一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 二、统计学的产生与发展 (1)政治算术学派 最早的统计学源于17世纪英国。其代表人物是威廉·配第,代表作《政治算术》。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。其被称为“无统计学之名,有统计学之实”。 (2)记述学派 亦称国势学派,创始人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。因此被称为“有统计学之名,无统计学之实”。 (3)社会统计学派 创始人和代表人物,德国恩格尔和梅尔。该学派主张统计是实质性的研究社会现象的社会科学,认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。 (4)数理统计学派 创始人是比利时统计学家凯特勒,他所著的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究,其认为统计学是一门通用的方法论科学。 从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。到20世纪中期,数理统计学的基本框架已经形成,数理统计学派成为英美等国统计学界的主流。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。 (4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析 描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。

统计学原理知识点公式

统计学原理知识点及公式 第一章统计总论 ?1.统计一词的三种含义 ?2.统计学的研究对象及特点 ?3.统计学的研究方法 ?4.统计学的几个基本概念:总体与总体单位、标志与标志表现、变异与变量、统计指标的概念、特点及分类。 ?5.国家统计兼有的职能 第二章统计调查 ?1.统计调查的概念和基本要求 ?2.统计调查的种类 ?3.统计调查方案的构成内容 ?4.统计调查方法:普查、抽样调查、重点调查、典型调查 ?5.调查误差的种类 第三章统计整理 ?1.统计整理的概念和方法 ?2.统计分组的概念、种类 ?3.统计分组的关键 ?4.统计分组的方法:品质分组方法、变量分组的方法 ?5.分配数列的概念、构成及编制方法 变量数列的编制基本步骤为: 第一步:将原始资料按数值大小依次排列。 第二步:确定变量的类型和分组方法(单项式分组或组距分组)。 第三步:确定组数和组距。当组数确定后,组距可计算得到:组距= 全距÷组数全距= 最大变量值-最小变量值。 第四步:确定组限。(第一组的下限要小于或等于最小变量值,最后一组的上限要大于最大变量值。) 第五步:汇总出各组的单位数(注意:不同方法确定的组限在汇总单位数时的区别),计算频率,并编制统计表。 间断式确定组限:汇总各组单位数时,按照“上下限均包括在本组内”的原则汇总。

重叠式确定组限:汇总各组单位数时,按照“上组限不在内”的原则汇总。 因为有了“上组限不在内”的原则,实际工作中,对于离散型变量也经常采用重叠式确定组限的方法。 ?6.统计表的结构和种类 第四章综合指标 ?1.总量指标的概念、种类和计量单位 ?2.相对指标的概念、指标数值的表现形式、相对指标的种类。相对指标包括: 结构相对指标、比例相对指标 比较相对指标、强度相对指标 动态相对指标、计划完成程度相对指标 ●3.平均指标的概念、作用和种类。 算术平均数、调和平均数、众数、中位数

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

统计学期末以及考研复习知识点内容详细

统计学知识点 第一章绪论 1、今天,“统计”一词有三种含义: ⒈统计工作:搜集、整理和分析统计数据的活动。 ⒉统计数据:统计工作的成果。 ⒊统计学:指导统计工作的理论。如数理统计学,社会统计学,经 济统计学,应用统计学等。 统计三个含义的关系十分密切:统计工作与统计数据是过程与成果的关系;统计工作与统计学是实践与理论的关系。 2、第一部统计学著作是英国人威廉·配第(1623—1687)的《政治算 术》(1690)一书。 3、统计学是一门搜集、整理、显示和分析统计数据的科学,其目的 是探索数据内在的数量规律性。 4、统计工作全过程一般可以划分为四个环节: 统计设计、统计调查、统计整理、统计分析 5.统计的基本方法 大量观察法、综合分析法(整理、分析)、归纳推断法(分析) 6、统计学与其他学科的关系 (一)统计学与数学的关系 区别:首先,数学研究抽象的数,统计学则研究具体事物的数量; 其次,数学使用纯粹的演绎方法,而统计学则使用演绎与归纳相结合的逻辑方法。

(二)统计学与其他学科的关系 凡涉及处理实质性数据的学科都要以统计方法为工具。可以说,统计学是其他学科的工具。 第二章调查与整理 1、目前,数据的计量尺度由粗略(低级)到精确(高级)分为四个层次,即列名尺度、顺序尺度、定距尺度和定比尺度。 1.列名尺度:按照事物的某种属性对其进行平行的分类。例如,人按性别分为男、女,……。该尺度的数据不能比较大小、优 劣。 2.顺序尺度:对事物之间等级差或顺序差别的一种测度。例如,考试成绩可分为优、良、中、……。该尺度的数据能比较优劣,不能进行数学运算。 3.定距尺度:对事物之间等级差或顺序差别较精确地定量测度。 如考试成绩的95 分、86 分、……;天气温度的50C、00C、-50C、……。该尺度的“0”表示一个水平。该尺度的数据能 进行加、减运算。 4.定比尺度:用来表明数值中存在绝对零点状况下数量特征的描述尺度。例如,企业利润、产品数量等。该尺度的“0”表示“没有”或“不存在”。该尺度的数据能进行加、减、乘、除运算。 2、数据的类型 1.定性数据。也称品质数据,由列名尺度或顺序尺度计量形成,说明事物品质特征,通常用文字描述。

统计学知识点全归纳全面准确

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 二、统计学的产生与发展 (1)政治算术学派 最早的统计学源于17世纪英国。其代表人物是威廉·配第,代表作《政治算术》。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张,为统计学的发展开辟了广阔的前景。其被称为“无统计学之名,有统计学之实”。 (2)记述学派 亦称国势学派,创始人和代表人物是德国康令和阿亨瓦尔,主要使用文字记述方法对国情国力进行研究,其学科内容与现代统计学有较大差别。因此被称为“有统计学之名,无统计学之实”。 (3)社会统计学派 创始人和代表人物,德国恩格尔和梅尔。该学派主张统计是实质性的研究社会现象的社会科学,认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系联系和相互关系。 (4)数理统计学派 创始人是比利时统计学家凯特勒,他所着的代表作《社会物理学》等将概率论和统计方法引入社会经济方面的研究,其认为统计学是一门通用的方法论科学。 从19世纪中叶到20世纪中叶,数理统计学得到迅速发展。到20世纪中期,数理统计学的基本框架已经形成,数理统计学派成为英美等国统计学界的主流。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。 (4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。(2)收集数据

生物统计学重要知识点

生物统计学重要知识点 (说明:下列知识点为考试内容,没涉及的不需要复习。注意加粗的部分为重中之重,一定要弄懂。大家要进行有条理性的复习,望大家考出好成绩!) 第一章概论(容易出填空题和名词解释) 1、生物统计学的目的、内容、作用及三个发展阶段 2、生物统计学的基本特点 3、会解释总体、个体、样本、样本容量、变量、参数、统计数、效应和互作 4、会区分误差(随机误差和系统误差)与错误以及产生的原因 5、会区分准确度和精确度 第二章试验资料的整理与特征数的计算(容易出填空和名词解释) 1、随机抽样必须满足的两个条件 2、能看懂次数分布表和次数分布图,会计算全距、组数、组距、组限和组中值 3、会求平均数(算数、加权和几何)、中位数、众数,算术平均数的重要特性 4、会求极差、方差、标准差和变异系数,理解标准差的性质 第三章概率与概率分布(选择、填空和计算) 1、理解事件、频率及概率,事件的相互关系,加法定理和乘法定理的运用 2、概率密度函数曲线的特点和大数定律 3、二项分布、泊松分布和正态分布的概率函数和标准分布图像特征,会计算概率值 4、理解分位数的概念,弄清什么时候用单尾,什么时候用双尾 5、样本平均数差数的分布 第四章统计推断(计算) 1、无效假设和备择假设、显著水平、双尾检验和单尾检验、假设检验的两类错误,会根据 小概率原理做出是否接受无效假设的判断 2、总体方差已知和未知情况下如何进行U检验 3、一个样本平均数的t检验(例4.5) 成组数据平均数比较的t检验(例4.6和4.7) 4、一个样本频率的假设检验(例4.11),知道连续性矫正 5、参数的区间估计(置信区间)和点估计

统计学知识点梳理

型;有下划线的重点记忆!当然整理的知识点都就是重点!都要背与理解!Fighting!) 第一章绪论 一.统计的含义 即统计工作、统计资料与统计学 统计工作:统计实践活动,搜集,整理,分析与提供关于社会现象数字资料工作总称 统计资料:统计实践活动过程中所取得的各项资料,包括原始资料与加工整理资料 统计学:关于认识客观现象总体数量特征与数量关系的科学 二.统计工作过程 就一次统计活动来讲,一个完整的认识过程一般可以分为统计调查、统计整理与统计分析三个阶段。 统计调查:第一阶段,就是认识客观经济现象的起点,就是统计整理与统计分析的基础。 统计整理:第二阶段,处于统计工作的中间环节,起着承前启后的作用。

统计分析:第三阶段,通过第三阶段,事物由感性认识上升到理性认识。 三.总体与总体单位(会辨析总体与总体单位即可) 总体,亦称统计总体,就是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体;构成总体的这些个别单位称为总体单位。 总体由总体单位构成,要认识总体必须从总体单位开始,总体就是统计认识的对象。 例如:所有的工业企业就就是一个总体,其中的每一个工业企业就就是一个总体单位。 四.标志与指标 标志就是用来说明总体单位特征的名称。 指标,亦称统计指标,就是说明总体的综合数量特征的。一个完整的统计指标包括数量指标名称与指标数值两部分。(以上内容理解即可) 1、指标与标志的区别与联系(简答) 指标与标志的区别:(1)指标就是说明总体特征的,而标志就是说明总体单位特征的;(2)指标都能用数值表示,而标志中的品质标志不能用数值表示,就是用属性表示的;(3)指标数值就是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;(4)一个完整的统计指标,一定要讲时间、地点、范围,而标志一般不具备时间、地点等条件。 指标与标志的联系:(1)有许多统计指标的数值就是从总体单位的数量标志值汇总而来的; (2)两者存在着一定的变换关系,即由于研究目的不同,原来的统计总体如果变成总体单位了,则相应的统计指标也就变成数量标志了。 2、标志与标志值(会区分) 标志分为品质标志与数量标志,数量标志用来说明总体单位量的特征,可以用数值表示,即为标志值(如:年龄、工资额、身高) 3、变异与变量(会什么就是变异,什么就是变量) 变异:品质标志在总体单位之间的不同具体表现。如:性别表现为男、女,民族表现为汉、满、蒙等。 变量:数量标志抽象化即为变量,而数量标志的不同具体表现则称为变量值(或标志值)。如:某职工的年龄就是42岁,月工资2200元。 4、统计指标的划分 (1)统计指标按其所反映的总体内容的不同,可分为数量指标与质量指标。数量指标指说明总体规模与水平的各种总量指标。质量指标指反应现象总体的社会经济效益与工作质量的各种相对指标与平均指标。 (2)统计指标按其作用与表现形式的不同,有总量指标(绝对数)、相对指标(绝对数)、平均指标(平均数)三种。 第二章统计调查与整理 一、统计调查的含义 统计调查就是统计工作过程的第一阶段。它就是按照统计任务的要求,运用科学的调查方法,有组织的向社会实际搜索各项原始资料的过程。统计调查就是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。 二、统计调查方案设计的内容+调查对象、调查单位的含义 ⒈确定调查目的;(为什么调查) 根据实际需要与可能确定 ⒉确定调查对象与调查单位;(向谁调查) 调查对象——社会现象的总体 调查单位——调查标志的承担者(总体单位)

统计学期末复习重点

统计总体:统计总体是根据一定目的确定的所要研究事物的全体,它是客观存在,并在某一相同性质基础上结合起来的由许多个别事物组成的整体,简称总体。 样本:是指在全及总体中按随机原则抽取的那部分单位所构成的集合体。 算术平均数:算术平均数是统计中最基本、最常用的一种平均数,它的基本计算形式是用总体的单位总数去除总体的标志总量。 调和平均数:是根据变量值的倒数计算的,是变量值倒数的算术平均数的倒数,也叫倒数平均数。 简单分组:是指对所研究的总体按一个标志进行分组。 复合分组:复合分组是指对所研究的总体按两个或两个以上的标志进行的多层次分组。 结构相对指标:结构相对指标是表明总体内部的各个组成部分在总体中所占比重的相对指标,也叫比重指标。 强度相对指标:是指两个性质不同,但有一定联系的总量指标数值之比。 类型抽样:又称分类抽样或分层抽样,它是先将总体按某个主要标志进行分组(或分类),再按随机原则从各组(类)中抽取样本单位的一种抽样方式。 机械抽样:它是将总体各单位按某一标志顺序排列,然后按固定顺序和相等距离或间隔抽取样本单位的抽样组织方式。 综合指数:凡是一个总量指标可以分解为两个或两个以上的因素指标时,为观察某个因素指标的变动情况,将其他因素指标固定下来计算出的指数称为综合指数。 平均指数:平均指数法是以个体指数为基础来计算总指数,根据选用的权数不同,平均指数法可以进一步分为加权算术平均法,加权调和平均法,固定权数加权平均法。 相关关系:是指现象之间客观存在的,在数量变化上受随机因素的影响,非确定性的相互依存关系。 回归分析:现象之间的相关关系,虽然不是严格的函数关系,但现象之间的一般关系值,可以通过函数关系的近似表达式来反映,这种表达式根据相关现象的实际对应资料,运用数学的方法来建立,这类数学方法称为回归分析。 统计调查:就是根据统计研究的目的、要求和任务,运用各种科学的调查方法,有计划、有组织的搜集有关现象的各个单位的资料,对客观事实进行登记,取得真实可靠的调查资料的活动过程。 统计指数:广义指数泛指社会经济现象数量变动的比较指标,及用来表明同类现象在不同空间、不同时间,实际与计划对比变动情况的相对数。狭义指数仅指反应不能直接想家的复杂社会经济现象在数量上综合变动情况的相对数。 简单随机抽样:简单随机抽样也叫纯随机抽样,它对总体单位不做任何分类排队,而是直接从总体中随机抽取一部分单位来组成样本的抽样组织方式。 季节分析的含义:是指某些现象由于自然因素和社会条件的影响在一年之内比较有规律的变动。 总量指标:是指反映一定时间、地点和条件下某种现象总体规模或水平的统计指标。 相对指标:是指说明现象之间数量对比关系的指标,用两个或两个以上有联系的指标数值对比来求得,其结果表现为相对数,故也将相对指标称为相对数。 平均指标:是同类社会经济现象总体内,各单位某一数量标志在一定时间、地点和条件下,数量差异抽象化的代表性水平指标,其数值表现为平均数。 1计算运用总量指标的原则。 (1)在计算实物指标时,应注意现象的同类性 (2)统计总量指标时要有明确的统计含义和合理的统计方法

统计学课程知识点总结

1. 统计的研究对象的特点:数量性,总体性,变异性。 2. 统计研究的基本环节:统计设计,收集数据,整理与分析,统计资料的积累、开发与应用。 3. 统计总体:根据一定数目的确定的所要研究的的事物的全体。特点:同质性、大量性。 总体可分为有限总体和无限总体。 标志:总体各单位普遍具有的属性或特征。标志分为品质标志(表明单位属性,用文字、语言描述)和数量标志(表明单位数量,用数值表现)。 不变指标:一个总体中各单位有关标志的具体表现都相同。变异指标:在一个总体中,当一个标志在各单位的具体表现有可能都相同。 第二章 1. 统计调查方式:普查,抽样调查,重点调查,定期报表制度。 调查方式按调查的范围划分,可分为全面调查和非全面调查。 按时间标志可分为连续性(经常性)调查和不连续性(一次性)调查 (一) 普查是专门组织的一种全面调查。特点:非经常性调查、最全面调查。 (二) 抽样调查是一种非全面性调查,可分为概率调查和非概率调查。 (三) 重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查,它是一种不连续的调查。 (四) 定期报表制度又称统计报表制度,它是依照国家有关法规,自上而下地统一布置,按照统一的表式、统一的指标项目、统一的报送时间和报送程序,自下而上逐级地定期提供统计资料的一种调查方式。 2. 我国现行的统计调查体系:以必要的周期性普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分定期报表综合运用的统计调查方法体系。 3.调查对象是指需要调查的现象总体。调查单位是指所要调查的具体单位,它是进行调查登记的标志的承担者。 4. 统计分组的原则:穷尽原则和互斥原则。 (先分后组) 间断型分组和连续型分组,等距和异距注意事项 第三章 1. 简单算术平均数121 n i n i x x x x x n n =++ +== ∑ 2. 加权算术平均数 11221121 n i i n n i n n i i x f x f x f x f x f f f f ==+++== +++∑∑ 3. 组距数列的算术平均数 4. 相对数的算术平均数 5. 调和平均数 6. 几何平均数 7. 算术平均数的性质: 1 1 , ()0n n i i i i nx x x x ===-=∑∑ 8. 组距数列的众数112O O O M M M L d ?=+??+? 9. 组距数列的中位数12e e e e M e M M M f S M L d f --=+?∑ 11. 方差(注意与样本方差的区别)P102: 10,11题 第四章 1. 事件的关系和运算:包含 ,相等 ,和 ,差 ,积 ,逆 ,不相容 。 2. 概率的计算:古典概型 ,几何概型 加法法则 ,乘法公式 条件概率 ,全概率与贝叶斯公式 3. 常见的随机变量的期望与方差

统计学知识点梳理

复习提纲:(计算部分全用红色标注了!其他红色的是我的推断,可能出什么题型;有下划线的重点记忆!当然整理的知识点都是重点!都要背和理解!Fighting!) 第一章绪论 一.统计的含义 即统计工作、统计资料和统计学 统计工作:统计实践活动,搜集,整理,分析和提供关于社会现象数字资料工作总称 统计资料:统计实践活动过程中所取得的各项资料,包括原始资料和加工整理资料 统计学:关于认识客观现象总体数量特征和数量关系的科学 二.统计工作过程 就一次统计活动来讲,一个完整的认识过程一般可以分为统计调查、统计整理和统计分析三个阶段。

统计调查:第一阶段,是认识客观经济现象的起点,是统计整理和统计分析的基础。 统计整理:第二阶段,处于统计工作的中间环节,起着承前启后的作用。 统计分析:第三阶段,通过第三阶段,事物由感性认识上升到理性认识。 三.总体与总体单位(会辨析总体与总体单位即可) 总体,亦称统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体;构成总体的这些个别单位称为总体单位。 总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。 例如:所有的工业企业就是一个总体,其中的每一个工业企业就是一个总体单位。 四.标志和指标 标志是用来说明总体单位特征的名称。 指标,亦称统计指标,是说明总体的综合数量特征的。一个完整的统计指标包括数量指标名称和指标数值两部分。(以上内容理解即可) 1.指标和标志的区别和联系(简答) 指标与标志的区别:(1)指标是说明总体特征的,而标志是说明总体单位特征的;(2)指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的;(3)指标数值是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;(4)一个完整的统计指标,一定要讲时间、地点、范围,而标志一般不具备时间、地点等条件。 指标与标志的联系:(1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的;(2)两者存在着一定的变换关系,即由于研究目的不同,原来的统计总体如果变成总体单位了,则相应的统计指标也就变成数量标志了。 2.标志与标志值(会区分) 标志分为品质标志和数量标志,数量标志用来说明总体单位量的特征,可以用数值表示,即为标志值(如:年龄、工资额、身高) 3.变异与变量(会什么是变异,什么是变量) 变异:品质标志在总体单位之间的不同具体表现。如:性别表现为男、女,民族表现为汉、满、蒙等。 变量:数量标志抽象化即为变量,而数量标志的不同具体表现则称为变量值(或标志值)。如:某职工的年龄是42岁,月工资2200元。 4.统计指标的划分 (1)统计指标按其所反映的总体内容的不同,可分为数量指标和质量指标。数量指标指说明总体规模和水平的各种总量指标。质量指标指反应现象总体的社会经济效益和工作质量的各种相对指标和平均指标。 (2)统计指标按其作用和表现形式的不同,有总量指标(绝对数)、相对指标(绝对数)、平均指标(平均数)三种。 第二章统计调查与整理 一.统计调查的含义 统计调查是统计工作过程的第一阶段。它是按照统计任务的要求,运用科学的调查方法,有组织的向社会实际搜索各项原始资料的过程。统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。 二.统计调查方案设计的内容+调查对象、调查单位的含义 ⒈确定调查目的;(为什么调查) 根据实际需要和可能确定

统计学原理考试知识点整理

第1章 绪论 1、统计的含义统计一词最基本的含义是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。 2、统计的特点P3 数量性 具体性 综合性 3、统计学的若干基本概念 总体与总体单位P10: 总体是指在某种共性的基础上由许多个别事物结合起来的整体,构成总体的个别事物叫总体单位; 总体的特征:同质性,大量性,差异性;总体的分类:有限总体与无限总体;标志、变异与变量P10: 标志,是指说明总体单位特征的名称。变异:总体单位之间品质和数量上的差异,即可变标志在总体各单位之间所表现出的差异。变量:可变的数量标志。 连续型变量与离散型变量联系和区别:连续型:变量值可作无限分割的变量离散型:变量值只能以整数出现的变量指标与标志P11 (指标,说明总体数量特征的概念)区别:第一,指标说明总体的特征,而标志则说明总体单位的特征。第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标。而标志既有反映数量也有反映品质。 第2 章统计调查 1、统计调查的含义及其在统计工作中的地位P13 含义:根据统计研究的目的,有组织、有计划地搜集统计资料的过程地位:是统计工作的第一阶段,是整个统计工作的基础一环 2、统计调查的基本原则P13-14 一、要实事求是,如实反映情况 二、要及时反映,及时预报 三、要数字与情况相结合 3、统计调查的组织形式:普查P14:含义:为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查、优缺点:,适用场合:主要用于一些重要项目呢的调查,如人口普查、耕地普查、基本单位普查、工业普查和库存普查等; 随机抽样调查P14:含义(按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法)以及具体的抽样方法【第七章】系统抽样、多阶 简单随机、分层抽样、整群抽样、 段抽样)及适用场合;非随机抽样:含义(调查者有意识地或随意而 非随机地从总体中抽取部分单位进行调查的统计方法)以及具体的抽样方法P15 (重点抽样:只对总体中为数不多但影响颇大的重点单位进行研究的一种非

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

卫生统计学知识点总结

卫生统计学知识点总结-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 率 两个有关联的指标A和B之比 计算 公式 A/B 有无 量纲 无有可有、可无 取值 范围 【0,1】可大于1无限制 本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强度的 似 值 表示相对于B的一个单位,A有多少 位 A和B可以是绝对数、相对数和平均

统计学重点知识点复习

1.统计的三种含义:统计活动、统计数据和统计学 2.统计活动:指收集、整理和分析统计数据,并探索数据的内在数量规律性的活动过程。 3.总体:总体是指客观存在的,在同一性质基础上结合起来的许多个别事务的整体,亦称统计总体。 4.总体单位:总体单位是指构成统计总体的个别事物的总称。 5.指标:指标是反映总体现象数量特征的概念。 6.标志:标志是说明总体单位特征的名称。 7.标志和指标: 主要区别:①标志是说明总体单位特征的,二而指标是说明总体特征的;②标志中的数量标志是可以用数值表示,而品质标志是不能用数量表示的。所有的统计指标都是用数值表示,不存在不能用数值表示的统计指标。

联系:①有些统计指标是在总体单位数量标志值基础上直接汇总得到的;②在一定条件下,指标和标志之间可以相互转化。 8.数量变量还可以细分为离散变量和连续变量。离散变量的取值是有限的,连续变量的取值是无限的。 9.定类(名类)尺度:按照它可对研究客体进行平行的分类或分组,按照研究对象的某种属性将其划分,使同类同质,异类异质。 10.定序尺度(顺序):是按照某种逻辑顺序将调查对象排列出高低或大小,确定其等级及序列的一种尺度 11.定距尺度(区间):是一种不仅能将变量(社会现象)区分类别和等级,而且可以确定变量之间的数量差别和间隔距离的方法。 12.定比尺度:也称比例尺度或等比尺度,是一种除

有上述三种尺度的全部性质之外,还有测量不同变量(社会现象)之间的比例或比率关系的方法。13.统计调查的组织方式:普查、抽样调查、统计报表、重点调查和典型调查等。 普查:为某一特定目的而专门组织的一次性全面调查方式,如人口普查、工业普查。 统计报表:按照国家有关法规规定,自上而下统一布置,自下而上住逐级填报。 14.数据分组的关键:选择分组标志;划分各组界限 15.

2018年【统计学原理】考试必备知识点复习考点归纳总结(计算题)(新)1

统计学原理复习(计算题) 1.某单位40名职工业务考核成绩分别为: 68 89 88 84 86 87 75 73 72 68 75 82 97 58 81 54 79 76 95 76 71 60 90 65 76 72 76 85 89 92 64 57 83 81 78 77 72 61 70 81 单位规定:60分以下为不及格,60─70分为及格,70─80分为中,80─90 分为良,90─100分为优。 要求: (1)将参加考试的职工按考核成绩分为不及格、及格、中、良、优五组并 编制一张考核成绩次数分配表; (2)指出分组标志及类型及采用的分组方法; (3)计算本单位职工业务考核平均成绩 (4)分析本单位职工业务考核情况。 解:(1) (2)分组标志为"成绩",其类型为"数量标志";分组方法为:变量分组中的开放组距式分组,组限表示方法是重叠组限; (3)本单位职工业务考核平均成绩 (4)本单位的职工考核成绩的分布呈两头小, 中间大的" 正态分布"的形态,说明大多数职工对业务知识的掌握达到了该单位的要求。 2.2004年某月份甲、乙两农贸市场农产品价格和成交量、成交额资料如下: 试问哪一个市场农产品的平均价格较高?并说明原因。 解:

解:先分别计算两个市场的平均价格如下: 甲市场平均价格()375.14 5 .5/==∑∑= x m m X (元/斤) 乙市场平均价格325.14 3.5==∑∑=f xf X (元/斤) 说明:两个市场销售单价是相同的,销售总量也是相同的,影响到两个市场 平均价格高低不同的原因就在于各种价格的农产品在两个市场的成交量不同。 3.某车间有甲、乙两个生产组,甲组平均每个工人的日产量为36件, 标准差为9.6件;乙组工人日产量资料如下: 要求:⑴计算乙组平均每个工人的日产量和标准差; ⑵比较甲、乙两生产小组哪个组的日产量更有代表性? 解:(1) 50.291001345343538251515=?+?+?+?== ∑∑f xf X (件) 986.8) (2 =-= ∑∑f f X x σ(件) (2)利用标准差系数进行判断: 267.0366.9===X V σ甲 305.05 .29986.8===X V σ乙 因为0.305 >0.267 故甲组工人的平均日产量更有代表性。 4.某工厂有1500个工人,用简单随机重复抽样的方法抽出50个工人作为样本,调查其月平均产量水平,得每人平均产量560件,标准差32.45 要求:(1)计算抽样平均误差(重复与不重复);

统计学基础知识要点

第一章:导论 1、什么就是统计学?统计方法可以分为哪两大类? 统计学就是收集、分析、表述与解释数据的科学。统计方法可分为描述统计方法与推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据与数值型数据;按照统计数据的收集方法,分为观测的数据与实验的数据;按照被描述的对象与时间的关系,分为截面数据与时间序列数据。 按计量尺度分时:分数数据中各类别之间就是平等的并列关系,各类别之间的顺序就是可以任意改变的;顺序数据的类别之间就是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据就是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。按被描述的对象与时间关系分时:截面数据所描述的就是现象在某一时刻的变化情况;时间序列数据所描述的就是现象随时间而变化的情况。 3、举例说明总体、样本、参数、统计量、变量这几个概念。 总体就是包含研究的全部个体的集合。比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就就是总体。样本就是从总体中抽取的一部分元素的集合。比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。参数就是用来描述总体特征的概括性数字度量。比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。统计量就是用来描述样本特征的概括性数字度量。比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。变量就是说明现象某种特征的概念。比如商品的销售额就是不确定的,这销售额就就是变量。 第二章:数据的收集 1、调查方案包括哪几个方面的内容? 调查目的,就是调查所要达到的具体目标。调查对象与调查单位,就是根据调查目的确定的调查研究的总体或调查范围。调查项目与调查表,要解决的就是调查的内容。 2、数据的间接来源(二手数据)主要就是公开出版或公开报道的数据;数据的直接来源一就是调查或观察,二就是实验。 3、统计调查方式:抽样调查、普查、统计报表等。 抽样调查就是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据收集方法。特点:经济性,时效性强,适应面广,准确性高。普查就是为某一特定目的而专门组织一次性全面调查。我国进行的普查主要有人中普查、工业普查、农业普查等。统计报表就是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。 除此之外,还有重点调查与典型调查。 4、统计数据的误差通常就是指统计数据与客观现实之间的差距,误差的主要类型有抽样误差与非抽样误差两类。 抽样误差主要就是指在样本数据进行推断时所产生的随机误差(无法消除);非抽样误差就是人为因素造成的(理论上可以消除) 5、统计数据的质量评价标准:精度,即最低的抽样误差或随机误差;准确性,即最小的非抽样误差或偏差;关联性,即满足用户决策、管理与研究的需要;及时性,即在最短的时间里取得并公布数据;一致性,即保持时间序列的可比性;最低成本,即在满足以上标准的前提下,以最经济的方式取得数据。 6、数据的收集方法分为询问调查与观察实验。 7、统计调查方案包括哪些内容? 调查目的即调查所要达到的具体目标;调查对象与调查单位,调查对象就是根据调查目的确定的调查研究的总体或调查范围,调查单位就是构成调查对象中的每一个单位;调查项目与调查表,就就是调查的具体内容;其它问题,即明确调查所采用的方式与方法、调查时间及调查组织与实施细则。 第三章:数据整理与展示 1、对于通过调查取得的原始数据,应主要从完整性与准确性两个方面去审核。 2、对分类数据与顺序数据主要就是做分类整理,对数值型数据则主要就是做分组整理。 3、数据分组的步骤:确定组数、组距,最后制成频数分布表 统计分组时“上组限不在内”,相邻两组组限间断,上限值采用小数点。 组中值=(下限值+上限值)/2 4、频数:落在各类别中的数据个数;频数分布指把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来;比例:某一类别数据占全部数据的比值;百分比:将对比的基数作为100而计算的比值;比率:不同类别数值的比值;分类数据的图示包括条形图与饼图。 5、直方图与条形图的差别:条形图就是用条形的长度表示各类别频数的多少,宽度则就是固定的,直方图就是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,直方图的各矩形通常就是连续排列,而条形图则就是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。 第四章:数据分布特征的测度 1、一组数据的分布特征可以从哪几个方面进行测度? 一就是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度;二就是分布的离散程度,反映各数据据远离其中心值的趋势;三就是分布的形状,反映数据分布偏斜程度与峰度。 2、简述众数、中位数与均值的特点与应用场合及关系。

相关文档
相关文档 最新文档