社会统计学
第一章导论
一.社会统计学的产生与发展
1.国势学派:(又称记录学派或历史学派)对国家显著事迹的记录和比较。
“有名无实”
代表人物:阿享瓦尔(1719—1772)“统计学之父”、康令(1606—1681)
2.政治算术学派:对国家事项首创数字对比、分析。“有实无名”
代表人物:威廉 配第(1623—1687)“政治经济学之父”、格朗特(1620—1674)3.数理统计学派:将法国古典概率论引入统计学,用纯数学的方法对社会现象进
行研究。
代表人物:凯特勒(1796—1874)“现代统计学之父”
4.社会统计学派:研究社会现象
代表人物:克尼斯(1821—1898)、梅尔(1841—1925)、恩格尔(1821—1896)二.社会统计学的对象和特点
社会统计学:用于统计的一般原理,对社会各种静态结构和动态趋势进行定量描述或推断的一种方法与技术。研究对象概括而言是指社会现象的数
量方面。
社会统计学特点:就研究对象而言,社会统计学主要是从研究和反映一定经济基础之上的上层建筑方面去认识社会;就研究内容而言,社会统计需
要对人们的态度、观念、行为进行度量,测量这些社会现象目前还
没有一个精确而统一的尺度,只能以近似估算或词语表达等方式来
代替;就调查方法而言,社会统计中,由于其研究对象所具有的特
征,抽样调查更为常用。
三.社会统计学的方法
1.大量观察法:就总体中足够多的单位进行调查和综合分析,用以反映社会总体
的数量特征。
2.大数定理:是随机现象出现的基本规律,一般意义为:观察过程中每次取得的
结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。
3.综合指标法
4.统计推断法
四.社会统计学的几个基本概念
1.总体与单位
总体:作为统计研究对象的,由许多具有共性的单位构成的整体。
单位:构成整体的每一个个体。
2.标志与变量,
标志:总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志。
数量标志:凡能用数量的多少来表示的标志,称为数量标志,如年龄,它们用以说明事物量的规定性。
品质标志:凡不能用数量的多少来表示而只能文字表述的标志称为品质标志,如性别,它们用以说明事物质的规定性。
变量:可变的数量标志能够用数值表示,我们称之为变量。
3.指标与指标体系
指标:反映总体数量特征的概念或范畴。
数量指标:说明总体在外延上的数量特征,如人口总数、居民收入、产品产量等,一般都以总量指标的形式出现。
质量指标:说明总体在内涵上的数量特征,如人口密度、劳动生产率、产品价格等,一般都以相对指标或平均指标的形式出现。
!数量指标数值的大小随总体范围的大小而增减变动,而质量指标数值的大小与总体范围的大小没有直接关系。
第二章社会统计资料的搜集
一.统计调查的方法
1.普查:即全面调查,就是对研究对象的全体作无一遗漏的逐个调查
2.重点调查就是在研究现象的总体中,选取其中的重点单位进行调查。所谓重点单位,就是在总体中虽然所占数目不多,但这些单位的被研究的标志总量在总体的标志总量中却占有很大比重。
3.典型调查就是根据调查的目的和要求,在对所研究对象进行初步全面分析的基础上,从中选择有代表性的单位,做周密细致的调查。
4.抽样调查:是按照科学的原理和计算,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,然后用所得到的调查结果来推断总体。
简单随机抽样,首先它对总体中所有单位不进行分组只进行编号;然后为组成样本,它赋予总体中每一个单位以相同的被抽中的机会。
!重点区分重点调查、典型调查、与抽样调查
二.概念的操作化与测量
测量水平:
1. 定类尺度:将调查对象的不同属性或特征加以区分,标以不同的名称或符号以确定其类别。具有对称性和传递性,常见的定类尺度有性别、血型、宗教信仰等。
2.定序尺度:按照某种逻辑顺序将调查对象排列出高低大小,确定其等级及次序。具有反对称性和传递性,也具有方向性。无法进行加减乘除运算,只能进行大于和小于的运算。
3.定距尺度:不仅能够将社会现象或事物区分为不同的类别,不同的等级,而且可以确定它们相互之间的间隔距离和数量差别。可进行减法运算,无法进行除法运算。
4.定比尺度:可以确定一个绝对的或非任意性的零点,特征是两个数可以组成一个有意义的比率。常见的定比尺度有身高、体重、人数、收入等。
三.统计误差
登记性误差:是指在调查和统计过程中,由于各种主客观因素而引起的技术性、操作性误差以及由于责任心缘故造成的误差等。
代表性误差:是指由调查方式本身所决定的统计指标和总体指标之间存在的差数。全面调查只产生登记性误差没有代表性误差,而进行非全面调查时两种误差都可能发生。
第三章社会统计资料的整理
一.统计分组的原则:
1.分组应使各类别构成之和等于总体。
首先,分组应当穷尽总体的全部单位,即“穷举”;其次,分组界限的选择应使划分后每一数据只归属一组,不能造成各组的重叠和混淆,即“互斥”。
2.分组设计应能反映统计总体的分布规律性。
二.频数分布数列:在统计资料收集的基础上,按分组原则,将总体中所有单位依一定顺序归类整理,即可得到能够表明总体单位总数在各组分配情况的频数(或次数)分布数列,简称数列。频数分布数列是统计分组工作的产物。
1.品质数列:按品质标志进行分组;与定类尺度与定序尺度相联系;
2.数量数列:按数量标志进行分组。与定距尺度和定比尺度相联系;
三.统计总体的性质:同质性、大量性、变异性
四.变量数列的两个构成要素:1.变量值――用来分组并按大小顺序排列的数量标志的具体数值,用符号X i表示;2.频数――总体单位在各组中出现的次数,用符号f i表示;将各组频数除以总体单位总数N就得到相对频数,简称频率,用符号P i表示。变量数列分为离散型变量数列和连续性变量数列。
1.离散变量数列所描述的对象的数量特征,可以按一定次序列出它的整数值,相邻两变量值不会出现小数。离散变量的整数值如果变动幅度较小,可以将每一个变量值列为一组,编制单项数列;整数值如果变动幅度较大,而且总体单位数N 又很大,则要编制组距数列。
2.连续变量数列因在一个区间可以有无限多数值,无法按顺序一一列举,只能编制组距数列,相邻两组交界处的组限重合。至于恰等于某一组限的数据,应按照“上限不包括在内”的原则处理。
五.累计频数一般用大写字母F来表示,累计又分为向上累计和向下累计。1.所谓向上累计,是以变量数列首组的频数为始点,逐个累计各组的频数,每组累计频数展示了小于该组上限的频数合计有多少。
2.所谓向下累积,则是以变量数列末组的频数为始点,逐个累计各组的频数,每组累计频数展示了大于该组下限的频数合计有多少。
六.直方图是用矩形(或长条)的高度来表示数列各组的频数或频率。
七.偏态分布:按偏离方向不同,分为右偏(正偏)和左偏(负偏)。右偏,曲线向右拖较长尾巴;左偏,曲线向左拖较长尾巴。
第四章集中趋势测量法
一.算术平均数:表示某一总体之总体单位平均所得的标志值的水平。
算数平均数的性质:
1.各变量值与算术平均数的离差之和为0.即∑(x?x)=0
2.各变量值对算术平均数的离差的平方和小于它们对任何其他数偏差的平方和
3.受抽样变动的影响较小
4.受极端值影响较大
5.分组资料如果有开放组距时,不经特殊处理不能进行计算
二.中位数:
(1)性质:
1.各变量与中位数之差的绝对值总和小于他们对任何他数之差的绝对值
总和;
2.中位数不受极端值的影响;
3.对于分组资料有开放组距可以求出中位数;
4.中位数受抽样变动的影响与算术平均数相比较大。
(2).按中位数所在组的下限求中位数:
组距数列M d=L+N
2
?F n?1
f n
×?
其中:L为中位数所在组的下限;
f n为中位数所在组的频数;
F n?1为小于中位数所在组的各组频数之和(向上累计);
N为总体单位数;
?为中位数所在组组距;
(3).按中位数所在组的上限求中位数:
组距数列:M d=U?F n?N/2
f n
×?
其中:u为中位数所在组的上限;
f n为中位数所在组的频数;
F n为包括中位数所在组的各组频数之和(向上累计);
N为总体单位;
h为中位数所在组的组距;
三.四分位数
第一四分位数:Q1=l1+N/4?F1
f1
×?1
第三四分位数:Q3=l3+3N/4?F3
f3
×?3
其中:F1为小于第一四分位数所在组的各组累计频数(向上累计);
l1为第一四分位数所在组的下限;
f1为第一四分位数所在组的频数;
?1为第一四分位数组所在组的组距;
N为总体单位数
第三四分位数各符号以此类推!
四.众数:频数出现的峰值
组距数列求众数:M0=L0+?1
?1+?2
×?0
其中:L0为众数所在组的下限;
?1为众数所在组频数与前一组频数之差;
?2为众数所在组频数于后一组频数之差;
?0为众数所在组组距;
第五章离散趋势测量
一.全距:最大变量值与最小变量值之差,用R表示。极差越大,表明变量值之间的差异越大。极差适用于定序变量和定比变量。
全距最大的优点是:计算简单,便于理解。缺点是:1.受极端值影响大,遇含开口组的资料时将无法计算;2.由于没有量度中间各个单位间的差异性,所以数据利用率很低,信息丧失严重;3.受抽样变动影响很大。
二.四分位差:第三四分位数和第一四分位数的半距。用Q D表示
Q D=Q3?Q1
2
四分位差的意义是去掉数列中四分之一最小的部分和四分之一最大的部分,再根据中间50%部分测定四分之一的全距为多少,四分位差的优点是避免了极端值变动的影响。
三.平均差:各变量值对其算术平均数(或中位数)离差绝对值的算术平均数。
用A D表示A D=∑|X?X|
N
对于分组资料。计算平均差需要加权式:A D=∑f|X?X|
∑f
四.标准差:各变量值对其算术平均数的离差平方的算术平均数的算术平方根,标准差是测定总体各单位标志值的离散状况和差异程度的最佳指标。对于未分组资料,求标准差公式:(总体标准差可用σ表示)
s(σ)=√∑(X?X)2
N =√∑X2
N
?(∑X
N
)
2
对于分组资料,要用加权式处理:σ(s)=√∑f(X?X)2
N
五.异众比率:指非众数出现的次数占总数的比率。用V R来表示
V R=N?f m0
N
其中:f m
为众数的频数,N为总体单位
异众比率的意义在于能够表明众数不能代表的那一部分变量值在总体中的比重,异众比率越大,各变量值相对于众数越离散;异众比率越小,各变量值相对于众数越集中
六.变异系数:用离势的绝对指标除以其平均指标来求离势的相对指标,就可以在计量单位或平均水平不一的对象之间进行直接比较,这种由绝对离势转化而来的相对离势称为变异系数,用符号V表示。变异系数越大表明离散程度越大。
1.全距系数:是众数据的全距与其算术平均数之比。计算公式为:V R=X
2.平均差系数:众数据的平均差与其算术平均数之比。计算公式:V A D=X
3.标准差系数:众数据的标准差与其算术平均数之比。计算公式:V S=X
第六章相关与回归分析
一.变量之间的相互关系
1.相关程度:完全相关、不完全相关、完全不相关
2.相关方向:(区分)
正相关关系:指一个变量的值增加时,另一个变量的值也增加
负相关关系:指一个变量的值增加时,另一个变量的值却减少
3.因果关系与对称关系:
因果关系满足条件:
(1)两个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化。(2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的。
(3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
对称关系:对于表现为对称关系的相关关系来讲,在两个变量之间分不清哪个是自变量,哪个是因变量,或者说自变量和因变量可以根据研究目的任
意选定。
二.定类变量的相关分析
(一)列联表是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需要同时满足两个变量的要求,所以列联表又称条件频数表。
(学会根据列联表进行分析——张彦课本P198页)
(二).消减误差比例(记为PRE):表示根据一个变量(自变量X)的值去预测另一个变量(因变量Y)的值时,所减少的误差比率。即减少了百分之多少的误
差。PRE=原来的误差?后来的误差
原来的误差
=E0?E1
E0
0≤PRE≤1
(三).λ系数,统计值域[0,1],0表示没有相关,1表示全相关。(1).对称的λ系数(假设X为自变量,Y为因变量)
λ=∑f X0+∑f Y0?(F X0+F Y0)
2n?(F X0+F Y0)
式中:f Y
为X的每一分类中Y分布的众数的频数
f X
为Y的每一分类中X分布的众数的频数
F X
为X边际分布中的众数的频数
F Y
为Y边际分布中的众数的频数
n为样本单位数
(2).不对称的λ系数(假设X为自变量,Y为因变量)
λ=∑f Y
?F Y
0 n?F Y
式中: f Y
为X的每一分类中Y分布的众数的频数
F Y
为Y边际分布中的众数的频数
n为样本单位数
(3).λ系数特征:
1.0<=λ<=1
2.具有PRE意义
3.对称与不对称公式不同
4.以众数为预测的准则,对众数以外的条件频数不予理会
5.如果众数频数集中在列联表的同一行时,λ=0.无法显示变量间相关性(四).τ系数,求值公式为:
τ=∑∑f
2
F X
?∑F Y
2
n n?∑F Y
2
n
式中:f为列联表中的诸条件频数
F X为X边际分布中的诸频数
F Y为Y边际分布中的诸频数
n为样本单位数
1.当众数很突出,且众数分布不在同一行、同一列时,用λ系数较好
2.当众数不突出时,用τ系数更好
3.若众数集中在某一行或某一列,一定用τ系数
六.定序变量的相关分析(区分同序对、异序对、同分对)
1.同序对:在观察X序列时如果我们看到X i 称这一配对为同序对。同序对只要求X变化方向和Y变化方向相同,并不要求其变化大小相同,同序对的总数用符号n s表示。 2.异序对:在观察X序列时如果我们看到X i 则称这一配对为异序对。同样,异序对只要求X变化方向和Y变化方向相反,并不要求其变化大小相同,异序对的总数用符号n d表示 3.同分对:(参考张彦课本P212页) 七.Gamma系数,适用于测量两对称的定序变项的相关系数。 计算公式为G=n s?n d n s+n d 八.定比变量的相关分析 积差系数、皮尔逊相关系数或r系数,计算公式为: γ=x?x)(y?y) √∑(x?x)2∑(y?y)2= √[∑2(∑)2][∑2(∑)2] 1.r的取值在-1到1之间,绝对值越大,相关程度越高;绝对值越小。相关程 度越小。一般认为:|γ|≤0.3表示不相关;0.3<|γ|≤0.5表示低度相关;0.5< |γ|≤0.8表示中度相关;|γ|>0.8表示高度相关。 2.积差系数不解释两变量之间的因果关系,在r公式中,变量X和Y的关系是 对等的。 3.R公式中的两个变量都是随机的,因而改变两者的位置并不影响r数值。八.回归分析 { a=y?bx b=∑(x?x)(y?y) ∑(x?x)2 b值的意义:b值得大小反映了X对Y有多大影响,b的绝对值越大,表示X 对Y的影响也越大;b有正负之分,正值表示X对Y有正向影响,即X增加Y也增加,负值则是负向影响,即X增加Y却减少。 相关系数与回归系数的区分: 首先,b的大小不限于-1到1之间,而是取决于回归直线的斜率,b的单位取决于变量X和Y的测量单位;r的取值范围在-1到1之间,它也没有量纲,是个纯数; 其次,计算r时,公式中X和Y是对等的,即将二者位置互换,r的值不变,表明r是一种对称关系的测量;在估算b时。X与Y位置不能互换,b系数具有非对称性,只能用X预测Y,不能用Y预测X。 再次,r公式中的两个变量都是随机的,而回归方程要表示因果关系,因而自变量不是随机的,只有因变量才是随机的。 第七章概率与概率分布 一.概率与频率区分 频率是在一次试验中某一事件出现的次数与试验总数的比值.概率是某一事件所固有的性质;频率是变化的每次试验可能不同,概率是稳定值不变;在一定条件下频率可以近似代替概率. 二.概率分布:当随机变量(X)的取值(x1,x2,…)满足了完备性和互不相容性 时,其取值和概率对的集合(x1,p1)(x2,p2)…….就是随机变量的概率分布。 三.频率分布与概率分布的原则: 1.经验分布/理论分布 2.随样本不同而不同/是先验的,具有唯一性 3.有对应的频数分布/无频率分布所对应的频数分布 四.概率的数学性质: 1.非负性:(0≤P(A)≤1) 2.加法规则:P(A+B)=P(A)+P(B)?P(AB) 3.乘法规则:P(AB)=P(A)?P(B A )=P(B)?P(A B ) P(A+B)为A或B发生的概率;P(AB)为A且B发生的概率;P(A B ) 为B已经发生条件下A发生的概率。 五.离数型随机变量及其概率分布 如果随机变量x的所有可能的取值可以一一列举出来,即所有可能的取值为有限个,则称x为离散型随机变量。如果对x的每一个可能取值,计算其实现的概率P,我们便可得到离散型随机变量的概率分布。离散型随机变量的概率分布的表示方法有3种,即公式法、列表法和图示法。 如果随机变量x的所有可能的取值不能一一列举出来,而是连续地充满某个区间,则称x为连续型随机变量。