文档库 最新最全的文档下载
当前位置:文档库 › 社会统计学笔记

社会统计学笔记

社会统计学笔记
社会统计学笔记

第一章绪论

第一节社会学研究过程及统计学的应用

一.确定研究课题:遵循重要性,创造性,可行性原则

方法文化基础不同,研究课题不同:人文主义:定性

实证主义:定量

二.探索性研究

提出理论假设——解释性研究

建构指标体系——描述性研究

三.操作化——社会现象数量化的过程

四.社会测量:统计思想和统计方法直接应用的阶段

五.问卷设计

六.调查实施

七.审核录入

八.统计分析

九.得出研究结论

第二节统计分析方法在社会学研究中的应用

一.统计方法的应用是社会学研究科学性的重要标志

二.统计方法的应用的目的是要发现和描述社会现象的统计规律性,很多不确定的现象虽然在个体有不同表现,但通过大量研究会揭示其统计规律性。

三.统计学在社会学研究中的地位——工具

1.不能代替深度的理论思考

2.不能弥补在研究设计中的任何不足

第三节变量的层次及统计分析方法的选择

一.变量的层次:变量之间是可以转化的

(一)类别变量:定类

定序:有序类别变量

(二)尺度变量:定距

定比

二.统计分析方法的选择

(一)不同抽样方法的影响:随机抽样:推论统计

非随机抽样:描述统计

(二)不同层次的变量的影响:

描述:定类比率

尺度平均值

关系:类别—类别x2,列联相关

类别—尺度方差分析

尺度—尺度皮尔逊相关,回归分析

上篇描述统计

描述统计:对调查数据进行整理分类浓缩概括的过程

第二章单变量的描述统计分析

第一节变量的分布及其描述方法

一.变量及其分布:常量常用来界定总体

(一)变量的特征

随机性:有两个以上的取值

变量的取值:1.完备性2.互斥性

(二)变量的分布:个体在变量取值上的分布

频次分布{x1,n1} 频率分布{x1,p1}

{x2,n2} {x2,p2}

{x3,n3} {x3,p3}

{x i,n i} {x i,p i}

二. 统计表:是将数据按照一定顺序排列在横行纵栏交叉的表格中

(一)统计表的结构:简单的统计表基本组成——横线三条,纵线一条

表头

表身

主词宾词

(二)制作统计表的原则

1.每个表的正上方必须有标题,用以简明扼要,准确的说明表的内容

2.表的左上方应该有表的编号

3.数字部分的横行间不标划线条,两侧不画纵线(开口),呈开口式

4.数字书写要工整,小数点上下要对位

5.当整项数字缺少时,要用“——”标示

6.如有资料来源或对表的其它说明可在表的下面写出标注

表2-1 统计表

表头 1 2 3

a a a

b b —

c — b

— d c

资料来源:————

(三)简单表(主词表)

简单表是指主词没有经过任何分组,只按变量的取值,列出的统计表,不适用于尺度变量,适用于表现类别变量的分布

(四)分组表:分组表的主词是将变量的取值按一定的标准分组或分段的统计表组上限:每一组的最大值

组下限:每一组的最小值

制作过程:

1.确定全距:R=最大值-最小值

2.确定组距与组数(不宜过多)

组距:一般选择2,3,5及其倍数

组距决定组数,一般根据数据多少成正比例

3.确定各组上下限

最高组上限必须大于数据的最大值

最低组下限必须小于数据的最小值

尺度变量:离散型数据高组下限与低组下限不重合,是相邻的数据

连续型数据高组下限与低组下限重合,是同一数据

解决方法:确定组上限与下限哪个为实,哪个为虚

三. 统计图:统计图就是用图的形式来表示变量的分布与状态。它比统计表更直观、生动、容易记忆,但缺点是不如统计表精确

原则:1.每个图的左下方要有图的编号

2.每个图的正下方要有图的名称

(一)简单条形图:适用于类别变量

简单条形图是用条形的长短或高低来表示数据的大小,但条的宽度没有意义,条与条之间是分离的,适用于描述类别变量的分布。

图的横轴为类别变量的取值,高度表示频次,频率等。

(二)直方图—描述尺度变量的特征

直方图与条形图不同的是,条的宽度表示组距,条与条之间是不分离的,以尺度变量为横轴,分组的组距为横轴的数据标志,高度来表示频次,频率等。

(三)累计频率直方图

以尺度变量为横轴,以分组的组距为横轴的数据标志,以纵轴表示累积频率(条间差代表前组数据与后组数据之差)

(四)点状分布图:以尺度变量与横轴,用点的累积表现变量取值上的个体数。如果数据足够大,可以用点状分布图来详细地表现变量的分布特征。

(五)图形图(饼图)

用于表示每一部分在总体中所占的比例,以一个圆为总体,以每一个部分所占比例来分割圆心角,该圆心角所对应的扇形表示这部分所占的比例。

(六)线形图

在坐标系用折线或连续曲线来表示事物的分布或变化,由于可以把多条线画在同一坐标系内,所以线形图特别有利于进行比较分析。

第二节集中趋势

概括地说明变量的状态或水平的统计特征值,由于测量层次不同,变量取值的数据特征不同,用于概括变量状态的集中趋势也不同。

一. 众数M0

众数M0根据频次来确定。在一个变量的取值中出现频次最多的变量的值就是众数,适用类别变量的描述,对于定类变量只能用众数描述。

一般认为,用出现频次最高的变量的值来概括变量的状态,代表性是最好的。

注意点:

1.适合于任何层次的变量,只要知道了频次分布就可以找到众数,但主要用于类别变量的描述。

2.对于分组的尺度变量,出现频次最高的组称为众数组,可以用众数组的组中值[ 组中值=1/2(组上限+组下限)]近似的代替众数。

3.众数较适用于单峰分布的情况,在多峰分布时,由于众数不唯一,所以通常不使用众数来表示变量分布的状态。

二.中位数Md

中位数是位于数列中点的数值,恰好地把全部数据分为两半,确定中位数需要比较数据

的大小,因此定序以上变量,才可以使用。

(一)未分组数据资料只要将数据大小按顺序排成数列即可找到中位数。

奇数位置的数值

偶数位置的数据

(二)分组数据的中位数

第个数据所在的组为中位数组,确定中位数组后利用下式进行计算:

L中位数组的下限,h组距,n中位数组的频次,N调查总数,cf↑ L以下的累计频次

一般式: Md=L+X

中位值

中位值

三. 算术平均数

(一)未分组数据(均值)

1.根据原始数据计算 (i=1,2,…,n)

2.根据频次分布计算

第i个变量的值,第i个变量的频次,K变量值的总个数

例2-3 表2-5是某社区志愿者的年龄分布情况

年龄16 17 18 19 20

个数 1 8 14 5 2

解:=

(二)分组数据

如果数据存在于分组表中,计算分组数据的平均值时是以组中值来代替原始值进行计算,为组中值,,为第i组的频次,k为总组数

例:10人每天看电视的统计,计算他们平均每天看电视的时间

时间频次组中值()

0-2 7 1 7

2-4 2 3 6

4-6 1 5 5

解:=

四. 众数,中位数和平均值的比较

三个集中趋势量都是通过一个数值来描述数据的整体特征以简化资料,一般来说平均值适用于尺度变量,中位数适用于定序以上变量,而众数适用于所有的变量,但是求平均值时所有数据的值都参与了计算,所以平均值是概括性最好,代表性最强的集中趋势量,尺度变量大多取值很多,有时可能呈现多峰分布,所以一般不用人数,也很少用中位数来描述尺度变量。第三节离散趋势

对于一个变量的一组观察值,仅用集中趋势来描述是不够的,首先变量的取值范围不同,集中趋势的代表性不同,离散程度越大,集中趋势代表性越差,反之亦然,其次集中值告诉我们怎样去估计和预测总体,而离散趋势则告诉我们估计值误差的大小。

一. 异众比率r fm0为众数的频次,n为数据总个数

异众比率是对众数的补充,当r=0时,说明变量只有一个取值,那就是众值,其代表性最大。

二.极差(全距):极差是变量取值的范围,主要配合中位值或平均值说明数据的离散趋势程度的统计特征值。

极差一般用R表示R=最大值—最小值

极差小表示数据分布集中,反之亦然

三.四分位差:对于定序以上变量,也可以用四分位差来描述变量分布的离散趋势,将数据按大小排成数列以后,以从下向上数第25%数据所在位置的值为下四分位数,用Q25表示,以从下向上数第75%的数据所在的位置为上四分位数用Q75表示,上下四分位数之差即为四分位差,一般用Q表示:Q=Q75—Q25,四分位差反映了中间50%数据的分散程度,它既比较好的说明了数据的分散状况,又减少了极端数据所造成的影响,由于中位数处于中间位置,四分位差在一定程度上说明了中位数的代表性。

(一)未分组数据的四分位差的计算Q25的位置= Q75的位置=

未除尽Q25=位置前一位数据+25%(位置后一位数据)

Q75=位置前一位数据+75%(位置后一位数据)

(二)分组数据的四分位差的计算

L是第25%数据所在组的下限,n是第25%个数据所在组的频次,h是组距,N为数据总个数,cf↑是L以下的累计频次。U含有50%区间的上界值,L含有50%区间的下界值,U%上界累计百分比,L%下界累计百分比

h=(U—L)

四. 方差与标准差(对应平均数)

虽然极差和四分位数能够比较好的说明数据的离散情况,但它们只给出了数据的范围,只利用了数据的一部分信息,极差和四分位差相等的两组数据分布情况可能差异很大,对于尺度变量,概括其离散程度最好的特征值是方差和标准差。

(一)平均差

离差:变量的一个观察值与变量平均之间的差用d表示,,它反映的是个体相对于平均值的离散情况。平均差是离差绝对值的平均值。也称平均离差。

平均差用D表示:

(二)方差,标准差

方差:

标准差:

1.用原始数据计算方差、标准差

2.用分组数据计算方差、标准差

方差:标准差:

如果数据呈正态分布,数据的平均值左右各加减三个标准差,表示数据的全距,点99.9%。例中国平均身高1.7m,标准差为0.1m,则中国身高分布1.4—2.0米之间。

第三章两个类别变量关系的描述统计

采用交叉列表的方法,从变量分布上分析两变量之间的联系。

第一节交叉列表分析

一. 交叉列表

两个类别变量之间的关系,要通过两个变量的变量交叉分布来描述。这种分析方法称为交叉列表分析,构成的表格称为交叉列表,或列联表。

如果两个类别变量相关,就是有一个变量取不同类别时,另一个变量的分布有显著差异,如果一个变量取不同类别时,另一个变量的分布没有显著差异,则认为这两个变量不相关。

表:不同性别残疾人文化程度的交叉列表

文化程度男女总计

未上过学540 722 1262

小学842 570 1412

初中641 346 987

高中178 69 247

中专38 24 62

大专24 12 36

大学13 3 16

统计2276 1746 4022

1.列联表的种类

设两个类别变量x与y,x分为共c类,y分为共R类,数据总个数为n,为单元格x=x i,y=y j的频次,则频次分布的交叉列表的一般形式如下,n*j是对应行j的频次和,n i* 是对应列i的频次和。P ij与其意义相同,为频率交叉列表。

2.列联表的分布

交叉列表中间部分数n ij或p ij是由两个变量共同决定的,称为联合分布。最下面一行是x的分布,最右面的一列是变量y 的分布,称之为边缘分布。

如果将一个变量取固定值,另一个变量的分布就是就是条件分布。条件分布都采用频率分布,使用条件分布的目的是要看当一个变量取不同类别时,另一个变量的分布是否有差异。这次差异通过频次分布难以表现。

用单元格的频次除以对应列的总频次,即n ij/n i* 构成的分布称为关于y的条件分布,也就是当x取固定值时y的分布。关于x的条件分布,(y取固定值)。

二. 列联表中变量的相互独立性

如果一个变量取不同值时,另一个变量的条件分布只有微小的差异或是根本无差异,则认为两个变量不相关,即两个变量相互独立。以频率分布看,表现形式是条件分布等于边缘分布。

通式:

将上式左侧的分子分母同乘以n得:→

又因为:所以:

若两个变量相互独立,在频率分布的交叉列表中,联合分布等于边缘分布的乘积。(书276页表10-16)

第二节分类图(分类圆形图和多线图、条形图)

一. 分类条形图

二. 分类圆形图更容易表明数据的内部结构

三. 多线图便于数据的比较

定量的指标得出定性的结论

第三节列联相关系数

用图和表可以粗略地说明两个变量之间是否相关,但难以对两个变量的关系进行度量,为准确清晰地度量变量之间的关系的强度与方向,就用相关系数。

列联相关系数建构:1.基于削减误差比例的方法2.基于卡方值

一. 消减误差比例的思想

设两个变量x和y,直接猜测y时产生的误差为E1,借助x来猜测y时所产生的误差为E2,消减误差比例PRE (Percent reduce error),则:

若x与y完全不相关,借助于x来猜测y时所产生的误差与直接猜测y时所产生的误差相同,

此时E1=E2,PRE=0 ,若x与y完全相关,借助于x能准确猜测y,不产生任何误差此时E2=0,PRE=1,可见,PRE是一个取值范围在0和1之间的相对数,其值越接近1,说明两个变量的相关性越强,取值接近于0,说明相关性越弱。

二. λ系数

不同性别老年人对去公寓养老的态度

态度男女总计

愿意30 60 90

不愿意70 40 110

总计100 100 200

假设只知道样本中90人愿意去,110人不愿意去。在这种情况下猜测:

E1=200-110=90 E2=(100-70)+(100-60)=70

消减误差比例为:

在c*R列联表中,设y变量众数的频次为max(n ij),猜测误差E1为:

设第一列的众数分别为max(n1j),max(n2j),... ,max(n cj),猜测误差

则λ系数为:

当变量x与y不相关时,边缘频率分布等于条件频率分布,所有的众数都在同一行,则:,此时λy=0 ,当变量x与y完全相关时,每一列都只有一人不为0的频次,因此有:,此时,从上述λy系数的计算中可以看出,是借助x来定义的

当两个变量之间的因果关系不太明确的情况下可以计算λy和λx的加权平均数来作为两个变量的列联相关系数。

λ系数的E1,E2 定义简洁、明确、计算简单,有较多的应用,但是,由于λ系数的计算只使用了各行的或各列的众数,没有充分利用数据信息。

三. τ系数

在不知道x与y有关的情况下,猜测每个个案的y值时,只能参考y的边缘分布,将200人随机的分为90 ,110人两组。将90人这一组的个案都猜测为不愿意去养老院,对于这组人猜错的人数为,将110人这组都猜测为愿意去养老院,对于这组人猜错的人数为。

这样猜测产生的误差E1为

当知道x与y有关后,将男性的100人随机分为30人和70人两组。将30人这一组的个案都猜测为愿意去养老院,而将70人这一组的个案都猜测为不愿意去养老院,女性同理,这样猜测产生的误差E2为:

消减误差比例为

按照τ系数计算中E1的定义方法可得:

则τ系数为:

理解:{每一个单元格(包括横纵列除去边缘和的所有单元格)的平方除以对应列的边缘和依次相加减去1/n(最后列的每一个边缘和平方依次相加)} 除以{ n-1/n(最后列的每一个边缘和平方依次相加)}

τ值和λ值是有区别的,而λ值由于只使用了众值的频次,资料信息使用不充分,因此出现了有显著差异的列联表,而λ值却等于0,如果众数代表性强,λ系数也能体现很好的代表

性,一般来说λ系数比τ系数数值更大。

第四节等级相关(定序变量—定序变量)

变量之间关系的强度可以用等级相关系数来描述。

两个变量的变化方向一致,两个变量正相关,不一致负相关。

一. Spearman (斯皮尔曼)等级相关系数

斯皮尔曼等级相关系数是根据对偶等级差值的大小来测量相关程度的指标。对偶等级差用d 表示。

例:

X X等级Y Y等级d i

90 1 60 3 d1=1-3=-2

80 2 90 1 d2=2-1=1

70 3 80 2 d3=3-2=1

1,2,3为排序(秩),要说明“1”代表最大值还是最小值

斯皮尔曼等级相关系数的计算公式为:

其中,d i是对偶等级的差值,n是样本总数,也是等级总数。

当两个变量完全相关时,任意个案对偶等级的差值为零,d i2为零,r s=1 当两个变量完全负相关时,r s=-1 。即r s 的取值范围为[ -1,1]。

如果在一个变量中两个个案的取值相等,就会出现相同等级。一般情况下,当相同等级不太多时,可以采用平均等级差来计算斯皮尔曼等级相关系数。

相关系数:

l r l < 0.1 不太相关0.6 < l r l < 0.8 较强相关

0.1 < l r l < 0.2 微弱相关0.8 < l r l < 0.9 强相关

0.2 < l r l < 0.4 弱相关0.9 < l r l 线性相关

0.4 < l r l < 0.6 中度相关

二. Gamma等级相关系数

如果存在太多相同等级,可以用Gamma等级相关系数描述两个定序变量之间的相关程度,Gamma等级相关系数是用同序对与异序对的数量差来测量两个变量相关程度的描述。(一)同序对与异序对

设两个变量x和y ,若x i >x j 且y i >y j 称两个个案为同序对;若x i >x j 且y i

表数学成绩与物理成绩的等级表

序号数学成绩物理成绩

1 99 96

2 95 98

3 85 86

4 8

5 81

5 77 72

6 71 78

7 64 72

在表中,序号为1与3,1与4,1与5,1与6,1与7的个案均为同序对,序号为1与2,5与6的个案是异序对,序号3与4,5与7的个案是同分对。

设x与y取值情况为x3> x2> x1,且y3> y2> y1 ,

x1x2x3

y1n11 n21n31

y2n12n22n32

y3n13n23n33

设n s为同序对数目,则3*3列联表中同序对数为:

设n d 为异序对数目,则3*3列联表中同序对数为:

(二)Gamma等级相关系数的计算

在两个变量分布中,如果同序对多异序对少,则表明两个变量之间有正相关,反之,则负相关,相等,则不相关。

Gamma等级相关系数计算公式为:

当两个变量完全正相关时,n d=0 ,G=1 ,完全负相关时,n s=0 ,G=-1 ,

三. Kendall’ Tall (肯德尔τ)系数

肯德尔相关系数的分子仍然是n s ,n d 的差,但分母有所不同,加入了同分对的考虑。

Kendall’ Tall – c 系数,表示为τc,

n为样本容量,也是等级总数,m=min(r,c)

例表2 文化程度与环境满意的交叉列表

不满意不好说满意

满意程度

文化程度

小学及以下99 203 40

高中,中专111 199 31

大专及以上94 91 14

解:由表2可知:n s=56741,n d=85856

这是一个3*3交叉列表,所以m=min(3,3),带入Kendall’s Tall-c 等级相关系数计算公式得:

利用同组数据计算的Gamma等级相关系数要比肯德尔τ系数大。

四. Somer’s d 系数

Somer’s d 系数的分子仍然是同序对与异序对之差,d yx是y变量与x变量的相关,d xy是x变量与y变量的相关,两个相关系数的计算公式为:

n y是y变量的同分对数,n x是x变量的同分对数。

如果不考虑两个变量相互依存中的方向性,通常将两个相关系数的均值作为两个变量的相关系数。

例:表2

解:n s=56741 n d=85856

第四章两个尺度变量关系的描述统计

社会调查中涉及的尺度变量有两个特点:一是数据分布的全距大,二是变量的取值多。

如果变量之间存在因果关系,可以用回归方程来描述因变量随自变量变化的情况。

第一节相关分析

一. 相关概念

两个尺度变量之间的相关关系是指两个变量在变化过程中数量上的依存关系。

正相关x↑y↑x↓y↓

负相关x↑y↓x↓y↑

两个变量不存在依存性,则两个变量无相关。

二. 相关散点图

散点图可以形象地描述变量的相关状况和相关程度,设两个尺度变量x和y ,以x为横坐标,以y为纵坐标,根据任意个案x和y的取值可以在坐标系里确定一个点,众多个案在坐标系中呈现一种点状分布,这样的图形就是散点图。

分布的状态可以表明变量之间的相关性

第象限强(正)相关第象限弱(正)相关

第象限零相关第象限强(负)相关

三. 相关系数

统计学中将称为协方差,协方差的大小受变量单位的影响,将协方差标准化,就构成了描述变量相关程度的相关系数,这个相关系数就称为皮尔逊相关系数,计算公式如下:

列联计算表

x y

例:10名同学数学成绩与物理成绩

序号数学x 物理y

1 61 58 372.49 424.36

2 70 66 106.09 158.76

3 75 81 28.09 5.76

4 77 68 10.89 112.36

5 80 85 0.09 40.96

6 82 79 2.89 0.16

7 83 83 7.29 19.36

8 89 85 75.69 40.96

9 92 87 138.89 70.56

10 94 94 187.69 237.16

解:

第二节回归分析

回归分析能够分析自变量对因变量有多大的影响。

一. 回归分析的基本思想

设x为自变量,y为因变量,他们之间的关系可以分为确定关系与非确定关系。

确定性的关系即一一对应的关系,当x取一定值时,两个变量相关,y有确定的值与之

对应。

非确定性的关系则是一种数量上的依存关系,表现为两个变量相关,但并不一一对应。

回归分析基本出发点:如果用函数的方法来描述两个变量之间的关系结构,同时又能够明确自变量对因变量的解释作用有多大,或是产生的误差有多大,就可以用确定性的方法来研究非确定性的变量关系。

二. 直线回归

(一)线性回归方程的建立

回归分析最简单的方法是对一组观察值拟合一条直线,这种方法叫线性回归分析,拟合的直线叫回归直线,也称回归方程。

回归直线的一般表达式为:;a 截距,b 斜率,也称回归系数

设(x i,y i)(i=1,2,……)是变量x,y的几个观察值,是这组观察值的拟合回归直线,如果不加限制的话,就会拟合出多条回归直线,所以用最小二乘法来确定回归直线。

当x=x i时,拟合回归直线与观察值y i的差异用表示,也称为残差。,求的平方和使它最小,为总误差平方和,用Q表示:

求法步骤:

①求偏导

a的偏导:

b的偏导:

②令偏导函数为0,求解二元一次方程

③求a ,b

(二)线性回归方程的拟合优度的检验

使用最小二乘法可以给任意的变量x,y拟合一条直线,无论x,y是否存在关系,都可以拟合出直线。

拟合优度好意味着用该条拟合线猜测数据产生的误差小。

进行回归分析不能只建立方程,还要明确回归方程的拟合优度。

当其他条件未知时,一般用变量y的均值来猜测每个个案的y值,此时产生的误差为,利用回归方程来猜测y值,产生的误差为,与利用进行猜测相比,减少误差。

这个减少误差比例就是回归方程的拟合优度,用R2表示,R2也叫判定系数,实际上是x,y相关系数的平方值,说明回归方程能减少猜测误差的百分比。

如:R2=0.6 表示自变量可以解释因变量变化的60%

将以a与b的表达式代入上式,整理后得:

三. 曲线回归

如果x,y 之间不是简单的线性关系,用直线回归无法很好的说明变量之间的关系,可以用二次性曲线(一元二次方程曲线的一部分)来拟合:

第五章类别变量与尺度变量关系的描述统计

第一节平均值的比较分析

一. 平均值比较分析的基本思想

自变量的不同值称为影响因素的不同水平。

如果类别变量与尺度变量存在因果关系,此时,自变量是类别变量,因变量是尺度变量,也把自变量称为影响因素变量。

如果自变量取不同值时,因变量的平均值有较大差异,则认为自变量与因变量有相关,因变量的平均值基本相等或者差异不大,则认为自变量与因变量不相关。

类别变量与尺度变量之间关系的分析方法是比较在自变量不同值时,因变量的平均值是否有差异。

例:不同性别学生的考试成绩

性别成绩

男65 61 69 70 74 75 82 83 83 85 89 94 95 99 98

女64 59 68 70 75 76 81 83 84 85 87 92 94 98 96

已知:n1=n2=15 男生平均成绩,女生平均成绩

无显著差异,认为本班性别与成绩不相关。

二. 描述统计表,条形图与线形图

(一)描述统计表

(二)条形图与线性图

用类别变量的每个取值代表一个条,用条的高度代表属于该类别的所有个案在所研究的尺度变量上的平均值,可以画出两个变量关系的条形图。

如果将条形图顶端的中点相用拆线相连,就形成了线性图。

第二节相关比率

对于平均值进行比较只能粗略地说明两个变量之间是否相关,要相精确地说明两个变量的相关程度还要用相关系数来描述,类别变量与尺度变量之间的相关系数被称为相关比率,用eta表示,相关比率也是基于减少误差比例的思想。

假设已知y变量的平均值,要猜测每个个体y变量的值y1,只能将每个值都猜测为平均值,此时误差为:

如果知道y与一个类别变量x相关,且x有m个取值,每个类别的个案数分别为n1,n2 ,…,n m,在x的每个类别上y的均值分别为。这时再猜测每个个体y变量的值时要看它属于x的哪个类别,并用这个类别y的均值来猜测它时所产生的误差为:

总结描述统计:

单变量分布类别:简单表(频次、频率)图:条、线、圆

尺度:分组表图:直方图,线

特征值集中趋势类别:众数

有序类:中位数

尺度:平均值

离散趋势类别:异众比率

有序类:全距、四分位差

尺度:方差、标准差

双变量类别—类别分布:交叉列表图:分类图,条,圆,线

特征值:列联相关系数:λ、τ、ф、d、V

等级相关系数:Gamma、τc、Somer’s d、Spearman 尺度—尺度分布:列联表(损失信息)、散点图

特征值:皮尔逊相关系数

回归分析—回归方程—拟合优度

类别—尺度分布:简单描述统计表图:条形图、线图

特征值:相关比率eta

中篇概率论基础

第六章概率与随机变量的分布

第一节概率及其计算

一. 随机现象与随机变量

概率论研究的是非确定性现象,在社会学研究中几乎没有确定现象,常见的都是非确定性现象。

非确定性现象结果都会呈现出某种规律性,这种规律就称为统计规律性。

这类在个别观察中呈现出不确定性,在大量重复试验或观察中,又有统计规律性的现象就称为随机现象。概率论与数理统计就是研究和揭示随机现象统计规律性。

我们把随机变量视为一个变量,把这个随机现象的所有结果视为这个变量的取值,就是把这个随机现象称为随机变量。

二. 概率

(一)随机事件

随机变量的每一个取值或是这些取值的集合,就是随机事件。

共同点:

1.在相同条件下可以重复进行

2.每次试验的结果不只一个,而且事先能明确所有可能的结果

3.实验或观察不能确定哪个结果会出现

随机事件是在一次试验或观察中可能出现也可能不出现,但在大量重复试验或观察中其出现的情况具有某种规律性。

在试验或观察中必然发生的事件叫必然事件,不论做多少次试验或观察,都不可能发生的事件叫不可能事件。

(二)概率

概率是某一随机事件在一次或多次观察试验发生的可能性的定量的表现形式,即统计规律的定量表现。用E表示随机事件,用P(E)表示E出现的概率。S表示必然事件P(S)=1,用Q表示不可能事件,P(Q)=0。

(三)概率与频率

在相同条件下进行N次实验,事件E出现n次,则称n为频数,在N次实验中E出现次数所占比例称为频率,用f(E)表示,即

频率f(E)性质:

1.

2.对于必然事件S,f(s)=1,不可能事件Q,f(Q)=0

3.频率具有双重性质,即随机性和规律性

当试验次数N相同,但N的次数不太多时,重复做实验,f(E)有不同值,且差异很大,这就是频率的随机性,当N足够大时,f(E)会稳定于一个固定常数P,这就是频率的规律性。

虽然频率近似代替概率,但频率和概率是两个意义完全不同的值,频率是实验值,具有随机性,概率是理论值,具有唯一性,是由事物的本质特征决定的。

三. 概率的计算

(一)古典概型

随机试验的每一个结果称为一个样本点,也称为基本事件,所有样本点的集合称为样本空间。如果一个随机试验满足下面条件:1.样本空间只有有限个样本点,2.每个样本点出现的

可能性相同。这个随机试验就称为古典概型。

古典概型,样本空间中有n个样本点,事件A包含了m个样本点,则A的概率为:。(二)概率的加法公式

1.简化式

有两个事件A和B,如果A发生必然导致B不发生,则A与B是互不相容事件,在这种情况下,A事件与B事件的和的概率等于它们的概率的和,P(A+B)=P(A)+P(B)。

如果有n个事件,A1,A2,…,A n事件,则P(A1+A2+…+A n)= P(A1)+ P(A2)+…+ P(A n) 2.一般式

如果两个事件A和B不满足不相容的条件,在这种情况下,事件A与事件B和的概率等于它们概率的和减去它们概率的积。

P(A+B)=P(A)+P(B)- P(AB)

如果三个事件A,B,C不满足不相容的条件,它们和事件的概率为:

P(A+B+C)=P(A)+P(B)+ P(C)- P(AB)- P(BC)- P(AC)+ P(ABC)

例:在某校学生父亲有大学文化程度占25%,母亲占15%,父母双方占10%,问任抽一名学生父母至少有一名具有大学文化程度的概率?

解:P(A)=0.25 P(B)=0.15 P(AB)=0.1

P(A+B)=P(A)+P(B)- P(AB)=0.3

(二)概率的乘法公式

1.概率乘法公式的简化式

如果事件A发生与否不影响B的发生,反之亦然,则事件A与B是相互独立的,那么事件A与B同时发生的概率与事件B发生概率的乘积P(AB)= P(A)*P(B)

2.条件概率

如果事件A发生影响B发生的可能性,反之亦然,A与B就是相互不独立事件。

两个随机事件相互不独立,在一个事件已经发生的情况下,另一个事件发生的概率,这个概率就是条件概率。

P(B/A)表示事件A发生的条件下,事件B发生的概率,事件A与B的积的概率等于其中一个事件发生的概率与这个事件发生的条件下另一个事件发生的条件概率的乘积。

即:P(AB)=P(A)P(B/A)或P(AB)=P(B)P(A/B)。如果多个事件A1,A2,…,A n相互不独立,这多个事件同时发生的概率为:P(A1A2…A n)=P(A1)P(A2/A1)P(A3/A1A2)…P(A n/A1A2…A n-1)

例:居民楼48户,12户居民有小学生,抽3户调查,问3户中都有小学生的概率?

P(A1)=12/48=0.25 P(A2/ A1)=11/47=0.234 P(A3/ A1 A2)=10/46=0.217

三户中都有小学生的的概率为:P(A1A2A3)=P(A1)P(A2/A1)P(A3/A1A2)=0.25*0.234*0.217=0.0217 第二节随机变量的描述统计

一. 随机变量的概率分布

(一)随机变量的概率分布的意义

一个随机变量的所有取值及每个取值所对应的概率的集合就是随机变量的概率分布,随机变量的概率分布可以用数学表达式,概率分布表和概率分布图来表示。

根据随机变量的数学特征可以分为离散型和连续型随机变量。

(二)离散型随机变量的概率分布

离散型随机变量的两个相邻取值不同时,之间不存在第三个有实际意义的取值。

P(ε=x i)=P i i=1,2,3…

随机概率分布表

εx1 x2x3 x4 x5 ... …

D i p1 p2 p 3 p 4 p 5 ... …

例:120户居民,8户贫困户,随机抽10户,抽出贫困户数的概率分布。

解:设…………..

(三)连续型随机变量的概率分布

连续型随机变量在任意两个取值之间都有无穷多个取值。

从严格意义上说,社会调查所获取的变量都是离散型变量,但当变量取值比较小,取值又很多时,我们就认为它是连续型随机变量。

随机变量ε在区间上的概率为:

对于确定的x,这个概率值的大小由△x所决定。△x越小,概率值就越小,△x为0时,概率值也为0,△x值越大,概率值也越大。当△x包含了变量ε的全部取值范围,这个概率就等于1.当△x取值不同时,概率也不同,这样不便于表述变量的分布状态,为消除△x的影响,可以计算概率密度。对于这个概率密度求△x→0的极限,得到ε=x时的概率,就随机变量ε的概率密度函数,的大小只与x有关。

随机变量在任意两点(x1 ,x2)之间出现的概率: .

概率密度函数的性质:

1.,这是概率的非负性。

2. ,一个变量的全部取值的概率为1。

(四)随机变量的分布函数

对于随机变量可以用累积概率分布描述其分布特征,这就是随机变量的分布函数。

用F(x)表示随机变量的分布函数,分布函数定义为:F(x)= P(ε≤x i)。

对于离散型变量,如果概率分布为已知,通过按变量取值的排列顺序累加各取值的概率即可求得分布函数。

如值域为(-∞,+ ∞)分布函数为:,这是对小于等于x的一切x i的概率求和。

对于连续型随机变量,概率密度已知,通过简单定积分,可求得其函数为:

二.随机变量的集中趋势与离散趋势

(一)数学期望

描述随机变量状态或水平的参数是数学期望,数学期望实际就是随机变量取值的平均水平,数学期望是理论值。

1.离散型随机变量的数学期望

对于离散型的随机变量ε,如果其概率分布为:

离散型随机变量的概率分布

εx i x2x3x4……x n

p i p1p 2p 3p 4……p n

数学期望值为:

例:随机抽100个产品,检测废品出现的概率分布,求检测100个产品出现废品数的数学期望。

离散性随机变量的概率分布

ε0 1 2 3 4 5

p i0.3 0.3 0.3 0.04 0.009 0.001

解:

2.连续型随机变量的数学期望

对于连续型随机变量ε,如果它的概率密度为,则其数学期望为:

3.数学期望的性质

(1)常数的期望等于该常数 E(C)=C

(2)随机变量与常数和的期望等于随机变量的期望与该常数之和

(3)常数与随机变量的积的期望等于常数与随机变量期望的积

(4)两个随机变量和期望等于它们期望的和

同理:多个随机变量和的期望等于它们期望的和

(5)两个随机变量积的期望等于它们期望的积

同理:多个随机变量积的期望等于它们期望的积

(二)方差与标准差

描述随机变量离散程度的特征值,这就是随机变量的方差或标准差。

1.方差与标准差

方差表现的是随机变量的取值相对于数学期望的离散情况,随机变量的方差用表示,

对于离散型随机变量,方差为:

对于连续型随机变量,方差为:

标准差:

方差和标准差都反映了变量在数学期望周围分布的密集程度,密集程度高,方差和标准差小,密集程度低,方差和标准差大。

例:随机变量的概率分布

1 2 3 4 5 6 7

P(ξ=x i) 0.02 0.1 0.50 0.2 0.11 0.06 0.01 随机变量的方差计算

P i

1 0.0

2 -2.5 6.25 0.125

2 0.1 -1.5 2.25 0.225

3 0.50 -0.5 0.25 0.125

4 0.2 0.

5 0.2 0.5

5 0.11 1.5 2.25 0.2475

6 0.06 2.5 6.25 0.375

7 0.01 3.5 12.25 0.1225

方差的性质:

(1)常数的方法为零,

(2)变量与常数的和方差等于变量的方差

(3)常数与变量积的方差等于常数的平方与变量方差的积

(4)两个独立随机变量和的方差等于他们方差的和

推广:多个独立随机变量和的方差等于它们方差的和

(三)矩,偏态与峰态

描述它们的分布是否对称,分布曲线是尖锐还是扁平的,这些特征可以用各阶矩来描述。

1.中心距

矩是各点对某一固定点的离差幂的平均差,幂指数称为矩的除数,固定点的选择不同,矩的名称也不同,将固定点选为平均值,这个矩就称为中心矩,一般都为0。

一阶中心矩

二阶中心矩

三阶中心矩

四阶中心矩

可知:一阶中心距是离差,由于正负相互抵消,一阶中心矩为0;二阶中心距是方差,它反映的是随机变量的分布对数学期望的离散程度;三阶可以表示随机变量分布的偏态;四阶可以表示随机变量分布的峰态。

2.偏态

描述随机变量的分布是否对称的特征值是偏态系数:

当分布对称时,离差三次方后再求和,正负可以抵消,偏态系数为0,当分布不对称时,离差三次后再求和时,正负不能抵消,形成正或负的偏态系数SK。

SK>0时,表示正偏态,概率分布曲线的右尾伸展较远,也称为右偏态,SK<0时,表示负偏态,概率分布曲线的左尾伸展较远,也称为左偏态。

3.峰态

描述随机变量分布的尖锐程度的特征值是峰态系数。

峰态系数用K表示:

随机变量的峰态是与正态分布相比较而言,正态分布的情况下,因此正态分布的峰态系数K=0,K>0尖峰,K<0扁平峰。

第三节离散型随机变量的分布特征

一. 二点分布

当变量的取值只有两个时,这个变量的分布称为二点分布,通常用0,1作为这两个取值的代码,所以也叫0-1分布。

两点分布的随机变量的数学期望与方差为:

0,1变量也称为虚拟变量

二. 二项分布

二项分布的数学表达式:

二项分布有两个参数n和p,当n和p确定以后,二项分布就被唯一的确定B,因此,二项分布可以简写为B(n,p),B表示二项分布(Binomial)

二项分布的方差为:

二项分布的数学期望为:

三. 超几何分布

设总体共分为两类,A与,总数为N,A类为M个,从总体中抽出n个,则n中含有A 类的个数“ξ”的概率就是超几何分布,超几何分布的数学表达式为:

例:从工大10000名学生中随机抽取5000人,计算抽取女生人数的概率,假如女生为3000人,则M=3000人,则n=5000,l=3000 。

超几何分布的数学期望:

方差:

如:,则有

超几何分布适合于小总体研究,但如果总体规模逐渐增大,由于抽样所造成的个体间概率的改变可以忽略不计,超几何分布将越向于二次分布。

第四节连续型随机变量的分布特征

一. 连续型随机变量的概率计算

随机变量ξ的概率密度函数为,变量值在区间(x1 ,x2)出现的概率为:

二. 正态分布

正态分布又称常态分布或高斯分布,正态分布是最重要的统计分布。

(一)正态分布的概率密度函数与概率密度曲线

1.正态分布的概率密度函数为:其中μ和σ是正态分布的两个参数,它们决定了正态分布曲线的形状和位置,和e是两个常数,,e=

2.72

通过对概率密度函数进行和积分,可以得到正态分布的分布函数为:

2.正态分布的概率密度曲线

正态分布的概率密度曲线的开状如图

正态分布有如下特点:

(1)单峰,有一个极大值

(2)有一个对称轴,两个拐点

(3)横轴为渐进线

从正态分布的概率密度,μ和б确定,形状和位置确定

错误!未找到引用源。μ决定了正态分布曲线的位置,以x=μ这一直线为对称轴,在x=μ处达到极大值,在б一定的情况下,若μ增大,图形右移,μ减小,图形左移,但形状不变错误!未找到引用源。б决定了正太分布曲线的形状,在μ不变的情况下,б越小,图形越尖瘦,即分布的越集中,б越大,图形越矮胖,即分布的越分散。 x=μ+б处为拐点。(二)正态分布的期望与方差

期望:

方差:

即:正态分布的两个参数μ和б2正是它的数学期望和标准差。

(三)正态分布的概率计算

对于正态分布,在任意区间(x1,x2)的概率是对应区间的概率密度曲线的面积。

正态分布有以下几个典型的取值区间:

变量在之间的概率,,即68.27%分布在期望两边正负一个标准差内。

三. 标准正态分布

(一)特征

1.标准正态分布的概率密度函数

当μ=0,б=1时的正态分布称为标准正态分布,标准正态分布的概率密度函数:

2.数学期望和方差:

(二)标准正态分布表的作用及标准正态分布的概率计算

1.标准正态分布表的使用

例:当z=1.96时,查表得

2.求分布函数的值

当Z等于0时,查表得,它表示小于0的所有变量值出现的概率为0.5。也就是只有50%的变量值大于0。

3.求某一区间的概率值

标准正态分布上出现的概率,即:

这个概率值可以通过标准正态分布表得:

标准正态分布几个典型取值区间:

变量在[-1,1]之间的概率

变量在[-2,2]之间的概率

变量在[-3,3]之间的概率

(三)Z变换与Z分数

一般的正态分布,其分布函数为:

令则,将其代入上式得:

Z变换也称变量的标准化。

例:正态分布 N(μ,б2)

平均成绩70分,标准差10分,某人90分,问成绩高于90分人数的比例。

解:μ=70 б=10 t=90

设:考试成绩为ξ,则ξ~N(70,100)

查表得:

成绩高于该学生的人数比例为2.28%。

(四)标准分的实际意义与作用

1.标准分意义

正态分布的变量值t与标准正态分布的变量Z值是一一对应的。通过公式计算的Z值也称为Z分数,同时也称为标准分。根据Z变换的公式可知:

当时,

当时,

当时,

当时,

当时,

当时,

Z分数的意义是以均值为基点,以标准差为度量单位,表现的是某一变量值在总体中的相对位置。也就是该变量值与均值之间有几个标准差的距离。

2.标准分的作用

(1)可以使同一总体不同测量的结果具有可比性

(2)使不同总体不同测量结果具有可比性

四. 其它几种常用统计分布

(一)x2分布

1.如果K个随机变量ξ 1 ,ξ2,…,ξk相互独立且都服从N(0,1)分布,则它们的平方和服从K的x2分布。记作x2(K)。

如果随机变量ξ 1 ,ξ2,…,ξk服从的不是N(0,1)分布,而是N(μ,б2),则可将随机变量进行Z变换,得

2. x2分布的性质

设随机变量ξ和η相互独立,并分别服从自由度为K1,K2的x2分布。ξ~x2(K1),η~x2(K2),则它们的和服从自由度为K1+K2的x2分布ξ+η~x2(K1+ K2)

3. x2分布表的使用

表明给定了概率为时,是临界值,也就是说,在自由度为K的情况下,值大于的概率为。根据分布表,可以在已知概率的情况下,求变量。

(二)t分布(Student)分布

设随机变量ξ和η相互独立,ξ~N(0,1),η~x2(K),则随机变量服从自由度为K的

分布,记作t~t(K)。t分布的概率密度为:,t分布的形状受自由度k的影响,随着k的增大,t分布将趋近于标准正态分布,当k>0时,它们的分布曲线就差不多是相同的了。t分布的分布曲线是关于x=0对称的。

2.t分布表的使用

(三)F分布

1.F分布的概率密度函数

设随机变量ξ和η相互独立,并分别服从自由度为K1,K2的x2分布。则随机变量: ,服从自由度为(K1,K2)的F分布,记为F(K1,K2)。F分布的分布密度为:

2.F分布表的使用

第七章大数定律,中心极限定理与抽样分布

第一节大数定律

一. 贝努里大数定理

设m是在n次独立观察中事件A出现的次数。P是事件A在每次观察中出现的概率,则对于任何正数ε有:,贝努里在数定律为用样本的频率来估计总体的频率P奠定了理论基础。当N足够大,样本频率无限接近总体概率。

二. 切贝谢夫大数定律

设ξ 1 ,ξ2,…,ξn是n个相互独立,且服从同一分布的随机变量,有数学期望和方差,则对于任何一个正数ε有:

为ξ 1 ,ξ2,…,ξn,n个随机变量的算术平均值。

切贝谢夫大数定理从数量关系的角度阐明了随机变量的平均值与数学期望二者之间的关系。它表示:当试验次数n足够大时,n个随机变量的平均值与单个随机变量的数学期望可以任意的小。也就是说,随着样本容量的无限增大,样本均值无限接近总体均值。这个事实以接近于1的很大概率来说是正确的,即趋近于数学期望。因此在实际调查中,可以用抽样的均值作为总体均值的近似值。

第二节中心极限定理

一. 中心极限定理的内容

中心极限定理说明了大量随机现象在分布上所表现的稳定性,中心极限定理是研究随机抽样结果科学性的理论基础。

设设ξ 1 ,ξ2,…,ξn是独立分布的随机变量,则不论其分布如何,只要:

, (i=1,2,…)存在,则随机变量:的分布函数F(x)对于任意x都满足,

当n足够大时,随机变量y n服从标准正态分布,中心极限定理还有以下几个表现形式。

1.对于上述的随机变量ξ 1 ,ξ2,…,ξn,只要n足够大,近似地服从标准正态分布:

2.对于上述的随机变量ξ 1 ,ξ2,…,ξn,只要n足够大有:

3.对于上述的随机变量ξ 1 ,ξ2,…,ξn,只要n足够大有:

4. 对于上述的随机变量ξ 1 ,ξ2,…,ξn,只要n足够大有:

二. 中心极限定理的实例说明

(一)总体均匀分布在中心极限定理中的证实

不论总体服从什么样的分布,只要总体的均值μ和方差б2存在,从总体中进行随机抽样,当样本容量n足够大时,样本均值都服从正态分布。

社会统计学复习题(有答案)

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=-=-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% +=-=+B 产品产量计划超额完成程度 。 9、按照标志表现划分,学生的民族、性别、籍贯属于 品质 标志;学生的体重、年龄、成绩属于 数量 标志。 10、从内容上看,统计表由 主词 和 宾词 两个部分组成;从格式上看,统计表由 总标题 、 横行标题 、 纵栏标题 和 指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于 正 相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于 负 相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于 数量 指标;单位成本属于 质量 指标。 13、如果相关系数r=0,则表明两个变量之间 不存在线性相关关系 。 二、判断题

社会统计学讲义

《社会统计学》讲义 教学目的和要求: 通过本课程的学习,使学生熟悉常用的统计方法,并且学会如何将统计分析知识应用于社会调查研究之中,掌握统计方法的灵活运用。本课程偏重统计方法的实际应用,而非其数理基础。在教学过程中,注重对于不同统计分析方法适用条件的说明,统计公式的讲解,以及对于统计值意义的说明。 教学重点和难点: 本课程的教学重点是不同统计分析方法所适用的条件以及统计值意义的解释。难点是统计公式的讲解以及不同统计分析方法在实际社会调查研究中的应用。 教法特点说明: 课堂讲授为主,注重对实例的讲解。 教材和参考书目: 1、卢淑华著:《社会统计学(第三版)》,北京大学出版社,2007年。 2、李沛良著:《社会研究的统计应用》,社会科学文献出版社,2002年。 3、柯惠新等著:《调查研究中的统计分析法》,北京广播学院出版社,1992年。 4、风笑天著:《现代社会调查方法》,华中科技大学出版社,2001年。 5、袁方主编:《社会研究方法教程》,北京大学出版社,1997年。

第一章统计学简史 教学目的和要求: 通过本章的学习使学生了解统计学的产生、发展历程有初步的认识。 教学重点和难点: 重点是国势学派与政治算数学派的差异,难点是文字记述与数字记述各自的特点。 教学方法: 课堂讲授 教学内容: 一、统计学的起源 统计技术:古埃及、古中国(大禹治水) 统计学:17世纪中叶Status(拉丁词汇,国家、状态)——Statistics 研究国家的宏观状态①国势学②政治算术 二、国势学(17世纪的德国) 德国大学学派:H·Coring 用文字记录一个国家的状况和制度 G·Achenwall 第一个定义——把国家的显著事项全部记录 下来的学科 三、政治算术(17世纪的英国) 英国的经验主义者:用数量或数字的方法说明国家的特征 J·Graunt 《关于伦敦死亡表的观察》用数量分析社 会、政治问题 William Petty 《政治算术》 四、概率论(数理特征更加明显) 1.J Bernoulli(贝努里)瑞士大数法则借助大数法则可以从社会现象复杂 不定的偶然性中寻找规律,它说明了社会现象的稳定性 2.Gauss(高斯)德国正态分布(中心极限定理的基础) 五、数理统计学 Adolphe Quetelet(阿道夫·凯特勒)法籍比利时人 数理统计学派的创始人“经验社会学之父”《社会物理学》

《概率论与数理统计》笔记

《概率论和数理统计》笔记 一、课程导读 “概率论和数理统计”是研究随机现象的规律性的一门学科 在自然界,在人们的实践活动中,所遇到的现象一般可以分为两类: 确定性现象随机现象 确定性现象 在一定的条件下,必然会出现某种确定的结果.例如,向上抛一枚硬币,由于受到地心引力的作用,硬币上升到某一高度后必定会下落.我们把这类现象称为确定性现象(或必然现象).同样,任何物体没有受到外力作用时,必定保持其原有的静止或等速运动状态;导线通电后,必定会发热;等等也都是确定性现象. 随机现象 在一定的条件下,可能会出现各种不同的结果,也就是说,在完全相同的条件下,进行一系列观测或实验,却未必出现相同的结果.例如,抛掷一枚硬币,当硬币落在地面上时,可能是正面(有国徽的一面)朝上,也可能是反面朝上,在硬币落地前我们不能预知究竟哪一面朝上.我们把这类现象称为随机现象(或偶然现象).同样,自动机床加工制造一个零件,可能是合格品,也可能是不合格品;射击运

动员一次射击,可能击中10环,也可能击中9环8环……甚至脱靶;等等也都是随机现象. 统计规律性 对随机现象,从表面上看,由于人们事先不能知道会出现哪一种结果,似乎是不可捉摸的;其实不然.人们通过实践观察到并且证明了,在相同的条件下,对随机现象进行大量的重复试验(观测),其结果总能呈现出某种规律性.例如,多次重复抛一枚硬币,正面 朝上和反面朝上的次数几乎相等;对某个靶进行多次射击,虽然各次弹着点不完全相同,但这些点却按一定的规律分布;等等.我们把随机现象的这种规律性称为统计规律性. ●使用例子 摸球游戏中谁是真正的赢家 在街头巷尾常见一类“摸球游戏”.游戏是这样的:一袋中装有16个大小、形状相同,光滑程度一致的玻璃球.其中8个红色、8个白色.游戏者从中一次摸出8个,8个球中.当红白两种颜色出现以下比数时.摸球者可得到相应的“奖励”或“处罚”: 结果(比数) A (8:0) B (7:1) C (6:2) D (5:3) E (4:4) 奖金(元)10 1 0.5 0.2 -2 注:表中“-2”表示受罚2元

社会统计学试卷A及答案解析

级专业2010学年第 1 学期《社会统计学》试卷 A 姓名:学号: (□开卷□闭卷) 一、选择题:2*10=20分 1、要了解400个学生的学习情况,则总体单位是( B ) 。 A 400个学生 B 每一个学生 C 400个学生的成绩 D 每一个学生的成绩 2、只与一个自由度有关的是( A ) 分布 B 超几何分布C 泊松分布 D F分布 A 2 3、将总体按与研究有关的标志进行分组,然后再随机地从各组中抽选单位组成样本。这种 抽样方式叫( B )。 A 简单随机抽样 B 类型抽样 C 等距抽样 D 整群抽样。 4、在方差分析中,自变量是(A )。 A 定类变量 B 定序变量 C 定距变量 D 定比变量 5、某城市男性青年27岁结婚的人最多,该城市男性青年结婚平均年龄为26.2岁,则该城 市男性青年结婚的年龄分布为(B)。 A.正偏B.负偏 C.对称D.不能作出结论 6、分析统计资料,可能不存在的平均指标是( A )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 7、在一个左偏的分布中,小于平均数的数据个数将( C )。 A 超过一半 B 等于一半 C 不到一半 D 视情况而定 8、若P(A)=0.2,P(B)=0.6,P(A/B)=0.4,则) P =( D )。 A (B A 0.8 B 0.08 C 0.12 D 0.24。 9、关于学生t分布,下面哪种说法不正确(B )。 A 要求随机样本 B 适用于任何形式的总体分布

C 可用于小样本 D 可用样本标准差S 代替总体标准差σ 10、对于大样本双侧检验,如果根据显著性水平查正态分布表得 Z α/2=1.96,则当零假 设被否定时,犯第一类错误的概率是( C )。 A 20% B 10% C 5% D .1% 二、判断题:2*10=20分 1、所有的统计指标都是变量。 ( 对 ) 2、统计所研究的对象就是社会经济现象的数量方面。 (错 ) 3、随机变量在相同的条件下进行观测,其可能实现的值不止一个。 (对 ) 4、在社会现象中,即使相同的意识作用也完全可能有不确定的结果,这就提供了概率论应用的可能性。 ( 对 ) 5、成功次数的期望值λ是决定泊松分布的关键因素。 ( 对 ) 6、进行区间估计,置信水平总是预先给定的。 ( 对 ) 7、可以对置信水平作如下解释:“总体参数落在置信区间的概率是(1-α)”。(错 ) 8、将收集到得的数据分组,组数越多,丧失的信息越多。 (错 ) 9、N 个变量值连乘积的平方根,即为几何平均数。 (错 ) 10、当样本容量n 无限增大时,样本均值与总体均值的绝对离差小于任意正数的概率趋于零。 (错 ) 三、简答题:5*7=35分 1、大数规律 大数规律是随机现象出现的基本规律,它的一般意义是:观察过程中每次取得的结果可能不同(因为具有偶然性),但大量重复观察结果的平均值却几乎接近某个确定的数值。 2、配对样本 所谓配对样本,指只有一个总体,双样本是由于样本中的个体两两匹配成对而产生的。 3、消减误差比例 变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的误差0E ,减去知道Y 与X 有关 系时预测Y 的误差1E ,再将其化为比例来度量。将削减误差比例记为PRE 。 4、同分对 如果在X 序列中,我们观察到i j X =X (此时Y 序列中无i j Y =Y ),则这个配对仅是X 方向而非Y 方向的同分对;如果在Y 序列中,我们观察到i j Y =Y (此时X 序列中无i j X =X ),则这个配对仅是Y 方向而非X 方向的同分对;我们观察到i j X =X ,也观察到i j Y =Y ,则称这个配对为X 与Y 同分对。 5、什么是分层抽样? 分层抽样也叫类型抽样,就是先将总体按某种特征或属性分若干类别或层次,再按照一定比 例在各个子类别或层次中随机抽取,最后将各抽取的单位合并成样本。 6、简述回归分析和相关分析之间的密切联系。 一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE 性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。 7、P 值决策与统计量的比较 P 值是被称为观察到的(或实测的)显著性水平。用P 值进行检验比根据统计量检验提供更多

社会统计学习题和答案--相关与回归分析报告

第十二章 相关与回归分析 第一节 变量之间的相关关系 相关程度与方向·因果关系与对称关系 第二节 定类变量的相关 双变量交互分类(列联表)·削减误差比例(PRE )·λ系数与τ系数 第三节 定序变量的相关分析 同序对、异序对和同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔和谐系数 第四节 定距变量的相关分析 相关表和相关图·积差系数的导出和计算·积差系数的性质 第五节 回归分析 线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归 可线性化的非线性函数·实例分析(二次曲线指数曲线) 一、填空 1.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,依变量则一般是( 随机性 )变量。 2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就是( 削减误差比例 )。 3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 是服从( );(2)分布中围绕每个可能的c Y 值的( )是相同的。 4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( 变化根据 )的变量,因变量是随( 自变量 )的变化而发生相应变化的变量。 5.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计和预测。这种分析方法,通常又称为( 回归分析 )。 6.积差系数r 是( 协方差 )与X 和Y 的标准差的乘积之比。 二、单项选择 1.当x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说x 与y 之间 存在( A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关

贾俊平《统计学》复习笔记课后习题详解及典型题详解(数据的搜集)【圣才出品】

第2章数据的搜集 2.1 复习笔记 一、数据的来源 1.数据的直接来源 数据的直接来源是指通过直接调查或实验活动直接获得一手数据,直接来源的数据又分为调查数据和实验数据。它们的不同之处在于: (1)调查数据为通过调查方法得到的数据,而实验数据为通过实验方法得到的数据。 (2)调查数据通常是针对社会现象而获取的,而实验数据大多是针对自然现象而获取的; (3)调查数据通常取自有限总体,即总体所包含的个体单位是有限的;而实验数据是指在实验中通过控制实验对象所搜集到的变量的数据。 2.数据的间接来源 (1)间接来源的数据(二手资料) 如果与研究内容有关的原信息已经客观存在,只是对这些原信息重新加工、整理,使之成为进行统计分析可以使用的数据,则称为间接来源的数据。 (2)二手资料的优点 搜集方便;数据采集快;采集成本低。 (3)二手资料的作用

分析所要研究的问题;提供研究问题的背景,帮助研究者更好地定义问题,检验和回答某些假设和疑问,寻找研究问题的思路和途径。 (4)二手资料的局限性 针对性不够;资料的相关性不够;口径可能不一致;数据也许不准确,也许过时等。 (5)对二手资料进行评估的内容 ①资料是谁搜集的?数据搜集者的实力和社会信誉度会在一定程度上影响数据说服力; ②搜集的目的是什么?为了某种特殊的利益而搜集的数据是值得怀疑的; ③数据是怎样搜集的?搜集数据的方法有很多,不同方法所采集到的数据,其解释力和说服力都是不同的。如果不了解搜集数据所用的方法,很难对数据的质量做出客观的评价。数据的质量来源于数据的产生过程; ④什么时候搜集的?过时的数据的说服力会受到质疑。 (6)使用二手数据的注意事项 使用二手数据,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。 二、调查方法 1.概率抽样和非概率抽样 (1)概率抽样 概率抽样(随机抽样):指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。 ①概率抽样的特点 a.抽样时是按一定的概率以随机原则抽取样本,随机原则就是在抽取样本时排除主观

社会统计学复习题有答案

社会统计学复习题有答 案 集团标准化工作小组 #Q8QGGQT-GX8G08Q8-GNQGJ8-MHHGN#

社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为 比较 相对指标;某企业男女职工人数之比为 比例 相对指标;某产品的废品率为 结构 相对指标;某地区福利机构网点密度为 强度 相对指标。 2、各变量值与其算术平均数离差之和为 零 ;各变量值与其算术平均数离差的平方和为 最小值 。 3、在回归分析中,各实际观测值y 与估计值y ?的离差平方和称为 剩余 变差。 4、平均增长速度= 平均发展速度 —1(或100%)。 5、 正J 形 反J 形 曲线的特征是变量值分布的次数随变量值的增大而逐步增多; 曲线的特征是变量值分布的次数随变量值的增大而逐步减少。 6、调查宝钢、鞍钢等几家主要钢铁企业来了解我国钢铁生产的基本情况,这种调查方式属于 重点 调查。 7、要了解某市大学多媒体教学设备情况,则总体是 该市大学中的全部多媒体教学设备 ;总体单位是 该市大学中的每一套多媒体教学设备; 。 8、若某厂计划规定A 产品单位成本较上年降低6%,实际降低了7%,则A 产品单位成本计划超额完成程度为 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度 ;若某厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程度为 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度 。

9、按照标志表现划分,学生的民族、性别、籍贯属于品质标志;学生的体重、年龄、成绩属于数量标志。 10、从内容上看,统计表由主词和宾词两个部分组成;从格式上看,统计表由 总标题、横行标题、纵栏标题和指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于正相关;而市场价格与消费者需求数量的相关关系,单位产品成本与产品产量的相关关系属于负相关。 12、按指标所反映的数量性质不同划分,国民生产总值属于数量指标;单位成本属于质量指标。 13、如果相关系数r=0,则表明两个变量之间不存在线性相关关系。 二、判断题 1、在季节变动分析中,若季节比率大于100%,说明现象处在淡季;若季节比率小于100%,说明现象处在旺季。(×;答案提示:在季节变动分析中,若季节比率大于100%,说明现象处在旺季;若季节比率小于100%,说明现象处在淡季。 ) 2、工业产值属于离散变量;设备数量属于连续变量。(×;答案提示:工业产值属于连续变量;设备数量属于离散变量) 3、中位数与众数不容易受到原始数据中极值的影响。(√;) 4、有意识地选择十个具有代表性的城市调查居民消费情况,这种调查方式属于典型调查。(√)

社会统计学试题1

社会统计学试题[二] 一、选择题[每小题1分,共10分] 1.电话号码属于哪一个测量层次[ ] A 定类 B 定序 C 定距 D 定比 2.智商属于哪一个测量层次[ ] A 定类 B 定序 C 定距 D 定比 3.某君工资单上的实发工资额属于哪一个测量层次[ ] A 定类 B 定序 C定距 D 定比 4.下列哪些变量是连续变量[ ] A 人均收入 B 人口数 C 适龄儿童入学率 D 国民生产总值 5.下列哪些变量是离散型变量[ ] A 劳动生产率 B 计划生育率 C 农村每万人拥有的床住数 D 工资额 6.众数是[ ] A 代表值 B 非代表值 C 总体中出现次数最多的取值 D 总体中出现最多的次数 7.Eat平方的值域是[ ] A [-1,0,1] B [0,1] C [-1,0] D 大于1 8.如果用一端检验去代替两端检验,那么[ ] A 该检验能力增强 B 该检验能力减弱 C 该检验能力可能增弱也可能减弱 D 检验能力不受影响 9.在社会统计中大样本是指样本容量大于等于[ ] A 30 B 50 C 25 D 100 10.一般T分布表中,样本数不超过100,是因为[ ] A.不可能有样本大于100的情况 B.当样本增大时,T分布趋近于正态分布 C.T分布不常用 D.T 分布检验效果差 二、判断题[对的O,错的×,每小题1分,共5分] 1.统计假设检验的基本原理是小概率原理。[ ] 2.正态分布中均值形响分布的形状。[ ] 3.标准差愈大,表明该总体的中位值的代表性愈差。[ ] 4.区间估计的基本思路是,先对总体情况有一个假设,再从总体 中随机抽取一个样本,根据样本资料的统计量来验证对总体的 先前假设是否正确。[ ] 5.Eat测量要求自变量为定距或以上测量层次,因变量为定类测量层次。[ ]

统计学笔记(精修版)

绪论 第一节统计学的含义和作用 一、什么是统计学 1.统计学的含义 统计学是有效收集、处理、分析和解释数据,发现规律,以便更好决策的一门方法论学科。 2. 分析数据的方法有描述统计、推断统计。 ⑴描述统计 ①描述统计是将所收集的数据处理后,用数值、表格或图形形式表现的有用信息。 ②描述统计是基础,它为推断统计、统计咨询、统计决策提供必要 ⑵推断统计就是根据样本数据特征去估计或检验总体的数据特征。 二、统计学的作用和重要性 1.统计学的作用 人们用数据发现的规律做出更好的决策。 2.要发现规律,对统计数据通常有要求:客观性、适用性、准确性和及时性。 三、统计学是如何解决实际问题的? 统计学解决实际问题的基本思路是: ①提出与统计有关的实际问题; ②建立有效的指标体系; ③收集数据; ④选用或创造有效的统计方法处理、显示所收集数据的特征; ⑤根据所收集数据的特征、结合定性、定量知识作出总体特征的合理推断; ⑥根据推断给出更好决策的建议; 不解决问题时,重复第②-⑥步。 第二节统计学的基本概念 一、总体、单位和样本 1.总体 统计总体是根据一定目的确定的,由客观存在的、具有某种同质性的许多个别事物构成的整体。 ⑴同质性是确定统计总体的基本标准,它是根据统计的研究目的而定的。研究目的不同,所确定的总体也不同,其同质性的意义也随之变化。 ⑵统计总体还应具备大量性,即统计总体应应该由足够数量的同质性单位构成。 2.总体单位(简称单位)是组成总体的各个个体。如典型案例1中英军的每架战机;事例4中的每个居民。 3.由总体的部分单位组成的集合称为样本(又称子样)。构成样本的单位称为样品,样本中样品的数目称为样本容量。 4. 统计学解决问题的目的是认识总体的数据特征。但是,当调查是破坏性的,或者出于成本、时间等因素考虑时,不必要或不可能对构成总体的所有单位都进行调查。

社会统计学习题和答案--相关与回归分析

第十二章 相关与回归分析 第一节 变量之间的相关关系 相关程度与方向·因果关系与对称关系 第二节 定类变量的相关 双变量交互分类(列联表)·削减误差比例(PRE)·λ系数与τ系数 第三节 定序变量的相关分析 同序对、异序对与同分对·Gamma 系数·肯德尔等级相关系数(τa 系数、τb 与τc 系数)·萨默斯系数(d 系数)·斯皮尔曼等级相关(ρ相关)·肯德尔与谐系数 第四节 定距变量的相关分析 相关表与相关图·积差系数的导出与计算·积差系数的性质 第五节 回归分析 线性回归·积差系数的PRE 性质·相关指数R 第六节 曲线相关与回归 可线性化的非线性函数·实例分析(二次曲线指数曲线) 一、填空 1.对于表现为因果关系的相关关系来说,自变量一般都就是确定性变量,依变量则一般就是( 随机性 )变量。 2.变量间的相关程度,可以用不知Y 与X 有关系时预测Y 的全部误差E 1,减去知道Y 与X 有关系时预测Y 的联系误差E 2,再将其化为比例来度量,这就就是( 削减误差比例 )。 3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y 围绕每个估计值c Y 就是服从( );(2)分布中围绕每个可能的c Y 值的( )就是相同的。 4.在数量上表现为现象依存关系的两个变量,通常称为自变量与因变量。自变量就是作为( 变化根据 )的变量,因变量就是随( 自变量 )的变化而发生相应变化的变量。 5.根据资料,分析现象之间就是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( 回归方程 ),并据以进行估计与预测。这种分析方法,通常又称为( 回归分析 )。 6.积差系数r 就是( 协方差 )与X 与Y 的标准差的乘积之比。 二、单项选择 1.当x 按一定数额增加时,y 也近似地按一定数额随之增加,那么可以说x 与y 之间 存在( A )关系。 A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关 2.评价直线相关关系的密切程度,当r 在0、5~0、8之间时,表示( C )。 A 无相关 B 低度相关 C 中等相关 D 高度相关 3.相关分析与回归分析相辅相成,又各有特点,下面正确的描述有( D )。 A 在相关分析中,相关的两变量都不就是随机的;

统计学原理读书笔记

统计学原理读书笔记 1、统计工作是指对社会经济现象数量方面进行搜集、整理和分析工作的总称,它是一种社会调查研究活动。统计资料也即统计信息,是统计部门或单位进行工作所搜集、整理、编制的各种统计数据资料的总称,它是进行国民经济宏观调控的决策依据,是社会公众了解国情、国力和社会经济发展状况的信息主题。统计学是关于统计过程的理论和方法的科学。 2、统计学在研究社会经济现象时,首先从定性研究开始,即在搜集原始统计资料(统计调查)之前,就要根据所要研究对象的性质和研究任务、目的,确定调查对象的范围,规定分析这个对象的统计指标、指标体系和分组方法。——定性工作,为定量分析做准备。在定量分析基础上再达到认识社会经济现象的本质、特征或规律。 3、质——量——质 4、统计学特点: ①数量性(用大量数字资料说明事物的规模、水平、结构、比例关系、差别程度、普遍程度、发展速度、平均规模和水平、平均发展速度等) ②总体性(针对总体,研究过程是从个体到总体,即必须对足够大量的个体进行登记、整理和综合,是它过度到总体的数量方面,从而把握社会经济现象的总规模、总水平及其变化与发展的总趋势。 ③具体性(一定的质规定一定的量,一定的量表现一定的质。) ④社会性 5、统计工作的基本任务 ①全面、准确、及时地提供有关社会经济发展情况的资料为决策管理服务。 会议记录 买单率X 客单价 ‖‖ 商圈人流X20%=进店客流X(买单人数/进店客流数)X(营收/买单人数)=营收 进店客流少——行销品牌问题 买单率低——产品组合问题 客单价高——商圈和选址问题 选址在远离市区,开大商场,要求开车来,这样买单率和客单价会高,件单价会低,一买一车。选址在市内,开便利店,要求件单价高,客单价低,客流大。 人口变项——目的是做市调 人口结构——消费结构。 人口 品 项

社会统计学习题 卢淑华

1、P58习题十五 人数户数 0 1 2 3 4 5 6 7 8 417 240 366 222 134 63 39 24 21 (1)试作频率统计表,直方图和折线图 (2)试求均值和标准差 2、P59习题十六 设以下是七十二名离婚者的婚龄的统计(见下表)。 (1)试作频率统计表、直方图和折线图 (2)试求众值、中位值和均值,并做简单讨论。 (3)试求四分互差和标准差。 婚龄人数 1-3 4-6 7-9 10-12 13-15 16-18 19-21 22-24 25-27 28-30 5 10 20 14 9 4 3 2 4 1 3、P59习题十七 设以下是1209名抽烟者年龄的统计(见下表) 年龄人数 21-24 25-34 35-44 45-54 55-64 65岁以上212 273 257 226 152 89 (1)试作频率统计表、直方图和折线图 (2)试求四分互差。 4、P72例10 某年级共有学生一百名,其中来自广东省的有二十五名,来自广西省的有十名,问任抽一名,来自两广的概率是多少?

5、P73例12 根据某市职业代际流动的统计,服务性行业代际向下流动的概率为0.07,静止不流动的概率为0.85,求服务性行业代际向上流动的概率是多少? 6、P75例13 为了呀牛父代文化程度对子代文化程度的影响,某大学统计出学生中父亲具有大学文化程度的占30%,母亲具有大学文化程度的占20%,而父母双方都具有大学文化程度的占10%,问学生中任抽一名,父代至少有一名具有大学文化程度的概率是多少? 7、P75例14 某地对外国旅游者旅游动机进行了调查,发现旅游者处于游览名胜的概率为0.219;处于异族文化的吸引占0.509;而两种动机兼而有之的占0.102.问旅游动机为游览名胜或为异族文化吸引的概率是多少? 8、P76例16 根据统计结果,在自然生育情况下,男婴出生的概率为22/43;女婴出生的概率为21/43.某单位有两名孕妇,问两名孕妇都生男婴的概率是多少?两名孕妇都生女婴的概率是多少?其中一名孕妇生男婴、一名孕妇生女婴的概率是多少? 9、P77例17 某居民楼共十二户,其中直系家庭为两户,问访问两户都是直系家庭的概率是多少? 10、P78例18 某居民楼共二十户,其中直系家庭为两户,问访问第二户才是直系家庭的概率是多少?11、P78例20 设居民楼共有住户一千户,其中核心家庭占60%,问访谈中散户都是核心家庭的概率是多少? 12、P83例22 10人抓阄,其中共有2张球票,问第2个人抓到球票的概率? 13、P85例23 设出口商标为Made in China的产品,其中有50%为上海厂的产品;30%为北京厂得产品;20%为天津厂的产品。设上海厂得正品率为90%;北京厂的正品率为95%,天津厂的正品率为97%。问(1)任抽一件为正品的概率是多少?(2)在抽得产品是正品的情况下,是上海厂的概率是多少? 14、P99例27 已知随机变量的概率分布为 ξ13.4 13.5 13.6 13.7 13.8 P(ξ=Xi)0.05 0.15 0.60 0.15 0.05 求σ2=? 15、P106习题三 某班对全班订报纸情况进行了统计,中订《人民日报》的有45%;订《北京晚报》的有80%;两种报纸都订的有30%,试求以下事件的概率。 (1)只定人民日报的 (2)至少订以上一种报纸的 (3)只订以上一种报纸的 (4)以上两种报纸都不订的 16、P107习题6 根据统计,由出生活到60岁的概率为0.8,活到70岁的概率为0.4,问现年60岁的人活到70岁的概率为多少?

卢淑华 《社会统计学》讲义

社会统计学讲义 第一章导论 一、社会统计学 1、社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势进行定量描述或推断的一种专门方法和技术。 研究对象:概括而言是指社会现象的数量方面。 2、选择统计分析方法的原则是根据研究目的和资料本身的特点选择。 3、统计分析的作用:(1)可对资料进行简化和描述;(2)可对变量间的关系进行描述和深入地分析(统计分析通过事后解释使得探讨变量间复杂的因果联系成为可能);(3)可通过样本资料推断总体(通过参数估计和假设检验,将样本推论到总体并指出这种推论的误差及做出这种推论的把握有多大)。 4、社会统计的基本程序 (1)制定计划;(2)统计调查;(3)统计整理;(4)统计分析;(5)统计报告。 5、几个基本概念 (1)总体与单位 总体又称母体,是作为统计研究对象的、由许多具有共性的单位构成的整体。构成总体的每一个个体称为总体单位,简称单位或个体。3个基本特征:大量性、同质性和变异性。(2)标志与变量 总体的每个单位都具有许多属性和特性,说明总体单位属性或数量特征的名称在统计上称为标志,分为数量标志和品质标志。 可变的品质标志无法用数值表示,我们称之为变项;可变的数量标志能够用数值表示,我们称之为变量。 (3)指标与指标体系 统计指标是反映总体(或样本总体)的数量特征的概念或范畴。一个完整的统计指标由两部分构成:指标名称和指标数值。 在社会统计中,如要全面把握对象总体情况,就不能单凭一个指标,而要靠一组相互联系的并与之相适应的指标来完整地反映对象总体。指标体系就是一系列有内在联系的统计指标的集合体。 二、社会调查研究的程序 社会学研究之阶段与步骤 (1)确定课题:来源与社会学理论、当前社会现实和要解决的实际问题;具有强烈的时代感、为国家现代化服务; (2)了解情况:查阅文献和向有经验、有知识的人了解,运用个案调查、典型调查进行探

(完整版)社会统计学复习题(有答案),DOC

o o 海量资源,欢迎共阅 社会统计学课程期末复习题 一、填空题(计算结果一般保留两位小数) 1、第五次人口普查南京市和上海市的人口总数之比为比较相对指标;某企业男女职工人数之比为比例相对指标;某产品的废品率为结构相对指标;某地区福利机构网点密度为强度相 对指标。2最小 值。345、正J 6于 重点7;总 8计划超额完成程度为;若某 100%7% A 100% 1.06%100%6% -=- =-产品单位成本计划超额完成程度厂计划规定B 产品产量较上年增长5%,实际增长了10%,则B 产品产量计划超额完成程 度为。 100%10% 100% 4.76%100%5% += -=+B 产品产量计划超额完成程度9、按照标志表现划分,学生的民族、性别、籍贯属于品质标志;学生的体重、年龄、成绩属于数量标志。

海量资源,欢迎共阅 10、从内容上看,统计表由主词和宾词两个部分组成;从格式上看,统计表由 总标题、横行标题、纵栏标题和指标数值(或统计数值); 四个部分组成。 11、从变量间的变化方向来看,企业广告费支出与销售额的相关关系,单位产品成本与单位产品原材料消耗量的相关关系属于正相关;而市场价格与消费者需求数量的相关关系,单位 13 1 100%, ) 2 3 4、有意识地选择十个具有代表性的城市调查居民消费情况,这种调查方式属于典型调查。(√) 5、统计调查按调查范围划分可以分为全面调查和非全面调查。(√) 6、用移动平均法修匀时间数列时,如果移动项数为偶数项,只要进行一次移动平均;如果移动项数为奇数项,则要进行二次移动平均。(×;答案提示:用移动平均法修匀时间数列 时,如果移动项数为奇数项,只要进行一次移动平均;如果移动项数为偶数项,则要进行二

黄良文《统计学》(第2版)笔记和课后习题(含考研真题)详解 第1章 导 论【圣才出品】

第1章导论 1.1复习笔记 一、统计学的对象和方法 1.统计和统计学 (1)统计工作的产生和发展 统计工作就是通过社会调查或科学实验,搜集客观现象的现实数据,用来描述和分析自然、社会、经济、政治、文化现象的变化情况。其产生和发展过程包括: ①适应市场经济的发展以及国家对外扩张的需要,大大拓展了统计的活动范围。 ②设立统计专业机构,促成统计活动专业化、独立化。 ③统计方法的完善,大大提高了统计的认识能力。 ④电子计算技术为统计活动的现代化进程提供了手段。 (2)统计学的产生和发展 最初的统计学是作为国家重大事项的记述。这一学派称为国势学派或记述学派,其创始人是17、18世纪德国的海尔曼·康令(H.Conring,1606—1681)和高特弗洛里特·阿亨瓦尔(G.Achenwall,1719—1772)。 经历18世纪到19世纪中叶,把概率论引入统计学,使统计方法发生了重大的飞跃。其代表人物有法国的拉普拉斯(https://www.wendangku.net/doc/6b7055613.html,place,1749—1827)和比利时统计学家阿道夫·凯特勒(A.Quetelet,1796—1874)。政治算术派是以总体数量比较的方法对社会经济问题进行分析,代表人物有威廉·配第(W.Petty,1623—1687)和约翰·格朗特(J.Graunt,1620—1674)。 此后,应用概率论研究随机现象数量规律的数理统计方法及其在各个领域的应用迅速得

到发展。描述统计学以卡尔·皮尔逊(K.Pearson,1857—1936)为代表,到了20世纪20年代的推断统计学以费歇尔(R.A.Fisher,1880一1962)为创始人。 2.统计学的研究对象 统计学的研究对象是指统计研究所要认识的事物客体。统计对象的特点包括数量性、总体性、单位的变异性的特点。而社会经济统计学的研究对象除了具有上述的数量性、总体性、变异性外还具有社会性。 3.统计学的研究方法 (1)统计的组织系统 ①统计的社会系统 统计活动系统包括统计主体、统计客体和统计宿体三个组成部分。其统计流程图,如图1-1所示。 图1-1统计流程图 ②统计工作系统 统计主体的认识活动,有一个严密的工作系统。这个系统具有明显的层次性和阶段性。 统计工作过程一般分为统计设计、统计资料搜集、统计资料整理、统计资料分析、统计资料提供和管理等阶段。 2.统计研究的方法 (1)大量观察法 大量观察法:统计研究客观现象和过程的规律,是从现象总体上加以考察,就总体中的

社会统计学期末复习题与答案整理

社会统计学期末复习训练 一、单项选择题(20=2×10) 1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样 本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是.样本 2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查, 以推断所有家庭的年均收入水平。这项研究的总体是 332.1户家庭的年均收入 3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查, 以推断所有学生的每月生活费用水平。这项研究的总体是 22000名学生的每月生活费用 4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是样本5.从变量分类看,下列变量属于定序变量的是产品等级 6.下列变量属于数值型变量的是工资收入 7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的 机会入选样本,这样的抽样方式称为.简单随机抽样 8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从 女生中抽取8名学生进行调查。这种调查方法属于分层抽样 9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽 样的方式抽取子样本,这样的抽样方式称为分层抽样 10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前 十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于系统抽样 11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率 12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率 13.在频数分布表中,频率是指各组频数与总频数之比 14.在频数分布表中,比率是指不同小组的频数之比 15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据线图 17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图 18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 89 20.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分 别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.2 22.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那 么该班考试成绩的中位数是88 23.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值 近似为5.5小时

社会统计学习题 卢淑华

1、P58习题十五 (1)试作频率统计表,直方图和折线图 (2)试求均值和标准差 2、P59习题十六 设以下是七十二名离婚者的婚龄的统计(见下表)。 (1)试作频率统计表、直方图和折线图 (2)试求众值、中位值和均值,并做简单讨论。 3、P59习题十七 设以下是1209名抽烟者年龄的统计(见下表) (1)试作频率统计表、直方图和折线图 (2)试求四分互差。 4、P72例10 某年级共有学生一百名,其中来自广东省的有二十五名,来自广西省的有十名,问任抽一名,来自两广的概率是多少

5、P73例12 根据某市职业代际流动的统计,服务性行业代际向下流动的概率为,静止不流动的概率为,求服务性行业代际向上流动的概率是多少 6、P75例13 为了呀牛父代文化程度对子代文化程度的影响,某大学统计出学生中父亲具有大学文化程度的占30%,母亲具有大学文化程度的占20%,而父母双方都具有大学文化程度的占10%,问学生中任抽一名,父代至少有一名具有大学文化程度的概率是多少 7、P75例14 某地对外国旅游者旅游动机进行了调查,发现旅游者处于游览名胜的概率为;处于异族文化的吸引占;而两种动机兼而有之的占.问旅游动机为游览名胜或为异族文化吸引的概率是多少 8、P76例16 根据统计结果,在自然生育情况下,男婴出生的概率为22/43;女婴出生的概率为21/43.某单位有两名孕妇,问两名孕妇都生男婴的概率是多少两名孕妇都生女婴的概率是多少其中一名孕妇生男婴、一名孕妇生女婴的概率是多少 9、P77例17 某居民楼共十二户,其中直系家庭为两户,问访问两户都是直系家庭的概率是多少 10、P78例18 某居民楼共二十户,其中直系家庭为两户,问访问第二户才是直系家庭的概率是多少 11、P78例20 设居民楼共有住户一千户,其中核心家庭占60%,问访谈中散户都是核心家庭的概率是多少12、P83例22 10人抓阄,其中共有2张球票,问第2个人抓到球票的概率 13、P85例23 设出口商标为Made in China的产品,其中有50%为上海厂的产品;30%为北京厂得产品;20%为天津厂的产品。设上海厂得正品率为90%;北京厂的正品率为95%,天津厂的正品率为97%。问(1)任抽一件为正品的概率是多少(2)在抽得产品是正品的情况下,是上海厂的概率是多少 14、P99例27 15、P106习题三 某班对全班订报纸情况进行了统计,中订《人民日报》的有45%;订《北京晚报》的有80%;两种报纸都订的有30%,试求以下事件的概率。 (1)只定人民日报的 (2)至少订以上一种报纸的 (3)只订以上一种报纸的 (4)以上两种报纸都不订的 16、P107习题6 根据统计,由出生活到60岁的概率为,活到70岁的概率为,问现年60岁的人活到70岁的概率为多少 17、P107习题7

相关文档