文档库

最新最全的文档下载
当前位置:文档库 > 社会统计学期末复习题与答案整理

社会统计学期末复习题与答案整理

社会统计学期末复习题与答案整理

社会统计学期末复习训练

一、单项选择题(20=2×10)

1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是.样本

2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是 332.1户家庭的年均收入

3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是 22000名学生的每月生活费用

4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是样本5.从变量分类看,下列变量属于定序变量的是产品等级

6.下列变量属于数值型变量的是工资收入

7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为.简单随机抽样8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于分层抽样

9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,这样的抽样方式称为分层抽样

10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于系统抽样

11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率

12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率

13.在频数分布表中,频率是指各组频数与总频

数之比

14.在频数分布表中,比率是指不同小组的频数之比

15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图

16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据线图

17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图

18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19

19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 89

20.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元

21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.2

22.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是88

23.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为5.5小时

24.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数

25.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数

26.离散系数的主要目的是比较多组数据的离散程度

27.两组数据的平均数不相等,但是标准差相等。那么平均数大的,离散程度小

28.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为700

29.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么二班学生体重的离散程度大

30.已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为3500 31. 正态分布中, 值越小,则离散趋势越小

32.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的68%

33.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低1.5个标准差34.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的68%

35.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有 95%的数据

36.期中考试中,某班级学生统计学平均成绩为

80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的95%

37.如果一组数据中某个数值的标准分值为1.8,这表明该数值比平均数高出1.8个标准差38.某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的68%

39.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 68%的数据

40.用样本统计量的值直接作为总体参数的估计值,这种方法称为点估计

41.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计42.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(π)偏高。如果要检验该说法是否正确,则假设形式应该是H:π≥0.1;1H:π<0.1

43.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例(π)偏高。如

果要检验该说法是否正确,则假设形式应该为H:π≥0.13;1H:π<0.13

44.在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的

45.在假设检验中,虚无假设和备择假设有且只有一个成立

46.在假设检验中,如果所计算出的P值越大,那么检验的结果越不显著

47.在假设检验中,如果所计算出的P值越小,那么检验的结果越显著

48.根据一个具体的样本求出的总体均值90%的置信区间以90%的概率包含总体均值

49.根据一个样本均值求出的90%的置信区间表明总体均值有90%的概率会落入该区间内

50.根据一个具体的样本求出的总体均值95%的置信区间以95%的概率包含总体均值

51.用于说明回归方程中拟合优度的统计量主要是判定系数

52.两个定类变量之间的相关分析可以使用λ系数

53.判断下列哪一个不可能是相关系数1.2 54.判断下列哪一个不可能是相关系数1.32

55.如果收入与支出之间的线性相关系数为0.92,那么二者之间存在着高度相关

56.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关

57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适回归58.在回归方程中,若回归系数等于0,这表明自变量x对因变量y的影响是不显著的

59.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明消费每增加1元,收入增加0.8元60.在因变量的总离差平方和中,如果回归和所占的比例越大,则两变量之间相关程度越高61.回归平方和(SSR)反映y的总变差中由于x与y之间的线性关系引起的y的变化部分62.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小

63.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大

64.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低

65.方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著

66.下面哪一项不是方差分析中的假定各总体的方差等于0

67.下列哪种情况不适合用方差分析年龄对收入的影响

68.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为234,48.4

69.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为432,71

70.在方差分析中,某一水平下样本数据之间的误差称为组内误差

二、名词解释

1.离散变量与连续变量P10

(1)离散变量如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,

1,2,3…。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。

(2)连续变量

如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。

2.总体与样本 P11

总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。样本就是从总体中按照一定方式抽取的一部分个体的集合。例如,要从某省所有育龄妇女中抽取1000人进行调查进行调查,那么,该省所有育龄妇女就是研究总体,其中每一位育龄妇女就是个体,而抽取出的1000名育龄妇女就构成为了该总体的一个样本。

3.抽样单位与抽样框 P11

抽样单位就是一次直接的抽样所使用的基本单位。抽样单位有时与构成总体的个体是相同的,有时是不同的。例如对育龄妇女的调查,当直接抽取育龄妇女时,两者是相同的;当我们从总体中一次直接抽取户时,以抽中的户中的育龄妇女作为样本时,抽样单位(户)与个体(育龄妇女)就不相同了。

抽样框是指一次直接抽样时样本中所有抽样单位的名单。例如,从某校中抽取200名学生进行就业观的调查,那么这所学校的所有学生的名单就是这次抽样的抽

样框。但是,当我们先抽取班级,以抽中班级中的所有学生作为样本时,这所学校所有班级的名单就是这次抽样的抽样框。

4.普查与抽样调查P12

(1)普查

普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

(2)抽样调查

抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的

在于根据样本的调查结果推断总体特征。根据抽取样本的方法不同,抽样调查

可以分为:概率抽样和非概率抽样。

5.普查P12

普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

6.概率抽样 P13

概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。

7.众数P68

1、众数

众数是一组数据中出现频数最多的数值,用Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。

8.中位数 P73

2、中位数

中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大的单位,要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。

9.均值 P78

4、均值

均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。

10.方差与标准差 P95

6、方差

方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。

7、标准差

标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。

11.离散系数P100

8、离散系数

离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程度的相对指标,通常用Vs适用于数值型数据离散程度的测量。

12.正态分布P103

1、正态分布

连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution),也称为常态分布,是一种连续型随机变量的概率分布。学生的身高、体重、成绩等都是正态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。

13.参数与统计量P127,P128

4、参数与统计量

参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主要有总体平均数(μ)、标准差(σ)、比例(π)等。

统计量是根据样本数据计算出来的一个量。样本统计量主要有样本平均数(X)、样本标准差(S)、样本比例(P)等。与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。

14.抽样分布 P129

5、抽样分布

抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分布等。

15. 中心极限定理P130

1、中心极限定理

中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为μ、方差为σ2的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

16.区间估计 P134

区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能

性大小。也就是要在给定α值的前提下,去寻找两个统计量1?θ和2?θ,使其满足

上述不等式。从而知道θ落在区间12??(,)θθ内的概率为1α-,故也称12??(,)θθ为θ的

区间估计。

17.置信水平 P135

置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数

真值的次数所占的比例。

18. 假设检验 P140

假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一

假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌

灯泡的寿命X 服从正态分布(μ,125),厂方说它的平均工作寿命是1800小时。随机测试16次,得到的平

均工作温度是1750度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设

检验要解决的问题。

19. 虚无假设与替换假设 P140

P141

将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假

设或者零假设,通常用0H 表示。如果虚无假设不成立,我们就拒绝虚无假设,

需要在另个一假设中进行选择,这就是替换假设,替换假设通常用1H 表示。

上面例子中,虚无假设为:

0H :μ=1800替换假设为:1H :μ≠1800a

20.二维表 P152

二维表

二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,

行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位职工学历进行分析,随机抽取262名进行调查,性别、学历二维表如下所示:

对某项政策态度的调查结果

男女合计初中及以下24 32 56

高中35 40 75

专科34 21 55

本科及以上54 22 76

合计147 115 262

21.误差减少比例P158

1、误差减少比例

在预测变量Y的值时,知道变量X的值时所减少的误差(1E-2E)与总误差1E的比值称为误差减少比例(proportional reduction of error),简称PRE。取值范围为0~1,PRE值越大,说明用变量X去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大。

公式为:PRE=12

1 E E

E

例如,PRE=0.7,说明以变量X预测变量Y时能减少70%的误差,说明二者之间关系较强。

22.散点图P165

散点图

散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。

散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之

间关系强度如何,但是对于具体关系强度则需要相关系数来判断。

23.相关系数 P170

相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的

相关关系时我们称之为简单相关系数。总体相关系数用ρ表示,样本相关系数

一般用r 表示。

24.最小二乘法 P180

对于变量x 和y 的观察值,有多条直线可以描述,其中距离各观测值最近的

一条直线对x 与y 之间的关系的描述与实际的误差最小。最小二乘法是使因变

量的观察值与估计值之间的离差平方和达到最小来求参数0?β合1?β的方法,即使

得:

()()∑∑=--=-最小2102???i i n i x y y y ββ

25.独立样本与配对样本 P207,

P203

独立样本

独立样本(independent sample )是指我

们得到的样本总体之间是相互独立的。比如我们

要研究一个地区百姓的生活水平,要同时考察家庭的子女数x ,父母的教育水平y ,这就可以看

做是独立样本。两个样本容量

1n 和2n 都小于30,或其中一个小于30的两独立样本为独立小样本。当总体标准差1σ和2σ未知时,独立小样本均值之差的检验采用t 检验。

配对样本

配对样本(matched sample )就是一个样本中的数据与另一个样本

中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平

造成的差异。在选择配对样本时,可以将两种同质对象分别接受两种不

同的处理。

26. 组内均方 P218

组内误差的自由度为全部观察值个数减去因素水平个数,即n -k ,