文档库 最新最全的文档下载
当前位置:文档库 › 统计案例分析典型例题

统计案例分析典型例题

统计案例分析典型例题
统计案例分析典型例题

统计案例分析及典型例题

§抽样方法

1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 .

答案 200个零件的长度

2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 .

答案①②③

3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 .

答案3,9,18

4.某工厂生产A、B、C三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n的样本,样本中A型号产品有16件,那么此样本的容量n= .

答案80

例1某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请

用抽签法和随机数表法设计抽样方案.

解抽签法:

第一步:将18名志愿者编号,编号为1,2,3, (18)

第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签;

第三步:将18个号签放入一个不透明的盒子里,充分搅匀;

第四步:从盒子中逐个抽取6个号签,并记录上面的编号;

基础自测

第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:

第一步:将18名志愿者编号,编号为01,02,03, (18)

第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;

第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.

第四步:找出以上号码对应的志愿者,就是志愿小组的成员.

例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=

10

0001=100将总体均分为10段,每段含100个工人.

(5)从第一段即为0001号到0100号中随机抽取一个号l.

(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人

的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法并写出具体过程.

解 应采取分层抽样的方法.

3分

过程如下:

(1)将3万人分为五层,其中一个乡镇为一层.

5分

(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×

15

2

=40(人); 300×155=100(人);300×15

2=40(人); 300×

15

3=60(人),

10分

因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.

12分

(3)将300人组到一起即得到一个样本.

14分

练习:

一、填空题

1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .

答案15,10,20

2.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .

答案系统抽样,简单随机抽样

3.下列抽样实验中,最适宜用系统抽样的是(填序号).

①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样

②某厂生产的2 000个电子元件中随机抽取5个入样

③从某厂生产的2 000个电子元件中随机抽取200个入样

④从某厂生产的20个电子元件中随机抽取5个入样

答案③

4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .

答案分层抽样法

5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).

①高一学生被抽到的概率最大

②高三学生被抽到的概率最大

③高三学生被抽到的概率最小

④每名学生被抽到的概率相等

答案①②③

6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .

答案 6

7.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 10

8.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 0795

9.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴5

10=2,5

70=14,5

20=4

∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.

(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.

(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.

10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.

解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n

36,分层抽样的比例

36

n ,抽取工程师

36

n ×6=6n (人),

抽取技术人员36

n ×12=3

n (人),

抽取技工

36

n

×18=2

n (人).

所以n 应是6的倍数,36的约数即n=6,12,18,36.

当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为1

35

+n ,因为

1

35+n 必须是

整数,所以n 只能取6,即样本容量为6.

总体分布的估计与总体特征数的估计

1.一个容量为20

的样本,已知某组的频率为,则该组的频数为 . 答案 5

2.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案

3.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 h

m

4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .

分数 5 4 3 2 1 人数

20

10

30

30

10

答案 5

10

2

5.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为岁~18岁的男生体重(kg ),得到频率分布直方图如下:

根据上图可得这100名学生中体重在[,)的学生人数是 . 答案 40

基础自测

典型例题:

例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比 (2)哪组上交的作品数量最多有多少件

(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高 解 (1)第三组的频率为1464324

+++++=5

1

又因为第三组的频数为12,∴参评作品数为5

1

12=60.

(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1

464326

+++++=18(件).

(3)第四组的获奖率是18

10=9

5,第六组上交的作品数量为60×

1

464321

+++++=3(件),

∴第六组的获奖率为3

2=9

6,显然第六组的获奖率高.

例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,

99;

乙:110, 115, 90,

85,

75,

115, 110.

(1)这种抽样方法是哪一种 (2)将这两组数据用茎叶图表示;

(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样.

2分

(2)茎叶图如下:

5分

(3)甲车间: 平均值:

1x =7

1(102+101+99+98+103+98+99)=100,

7分 方差:s 12=7

1[(102-100)2+(101-100)2+…+(99-100)2]≈ 6.

9分

乙车间:

平均值:2x =71(110+115+90+85+75+115+110)=100,

11分 方差:s 22=7

1[(110-100)2+(115-100)2+…+(110-100)2]≈ 4.

13分

∵1x =2x ,s 12<s 22,∴甲车间产品稳定.

14分

练习:

1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是,,,第一小组的频数为5.

(1)求第四小组的频率;

(2)参加这次测试的学生人数是多少

(3)在这次测试中,学生跳绳次数的中位数落在第几小组内 解 (1)第四小组的频率=1-++=. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率

第一小组频数=5÷=50(人).

(3)因为×50=5,×50=15,×50=20,×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内.

练习:

一、填空题

1.下列关于频率分布直方图的说法中不正确的是 .

①直方图的高表示取某数的频率

②直方图的高表示该组上的个体在样本中出现的频率

③直方图的高表示该组上的个体数与组距的比值

④直方图的高表示该组上的个体在样本中出现的频率与组距的比值

答案①②③

2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩比稳定.

答案甲乙

4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分

成六组:右图是得到的频率分布直方图.

设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于

17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为 .

答案, 35

6.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩

分别是x

甲、x

,则x

x

,比稳定.

答案<乙甲

7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,,,20,且总体的中位数为.若要使该总体的方差最小,则a、b的取值分别是 .

答案、

二、解答题

10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,

画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.

(1)第二小组的频率是多少样本容量是多少

(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少 (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内请说明理由.

解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:

3

91517424

+++++=.

又因为频率=样本容量

第二小组频数, 所以样本容量=第二小组频率

第二小组频数=

08

.012

=150. (2)由图可估计该学校高一学生的达标率约为

3

9151742391517++++++++×100%=88%.

(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.

线性回归方程

1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系.

基础自测

答案①②

2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利

用最小二乘法求得回归直线分别为l

1和l

2

.已知在两人的试验中发现变量x的观测数据的平均值恰好

相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).

①直线l

1,l

2

有交点(s,t)

②直线l

1,l

2

相交,但是交点未必是(s,t)

③直线l

1,l

2

由于斜率相等,所以必定平行

④直线l

1,l

2

必定重合

答案①

3.下列有关线性回归的说法,正确的是(填序号).

①相关关系的两个变量不一定是因果关系

②散点图能直观地反映数据的相关程度

③回归直线最能代表线性相关的两个变量之间的关系

④任一组数据都有回归直线方程

答案①②③

4.下列命题:

①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;

②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;

③通过回归直线y?=b?x+a?及回归系数b?,可以估计和预测变量的取值和变化趋势.其中正确命题的序号是 .

答案①②③

5.已知回归方程为y?=则x=25时,y?的估计值为 .

答案

例1下面是水稻产量与施化肥量的一组观测数据:

施化肥量15 20 25 30 35 40 45

水稻产量320 330 360 410 460 470 480

(1)将上述数据制成散点图;

(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗水稻产量会一直随施化肥量的增加而增长吗

解(1)散点图如下:

(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.

例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出

的关系,该市统计部门随机调查了10个家庭,得数据如下:

家庭编号12345678910

(收入)

x

i

千元

y

(支出)

i

千元

(1)判断家庭平均收入与月平均生活支出是否相关

(2)若二者线性相关,求回归直线方程.

解(1)作出散点图:

5分

观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分

1 +++++++++=,

(2)x=

10

y =

10

1(+++++++++

)=, 9分

b

?=∑∑==-?-n

i i

n

i i i x n x

y

x n y x 1

2

21

≈ 6,

a ?= 6≈ 3, 13分 ∴回归方程y

?= 6x+ 3.

14分

例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.

x 3 4 5 6 y

3

4

(1)请画出上表数据的散点图;

(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y

?=b ?x+a ?; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤 (参考数值:3×+4×3+5×4+6×= 解 (1)散点图如下图:

(2)x =4

6543+++=,y =4

5.4435.2+++=

∑=4

1i i

i y

x =3×+4×3+4×5+6×=.

=4

1

2

i i x =32+42+52+62=86

∴b?

=

2

4

1

2

4

1

4

4

x

x

y

x

y

x

i

i

i

i

i

-

?

-

=

==

2

5.4

4

86

5.4

5.3

4

5.

66

?

-

?

?

-=

a? =y-b?x=所求的线性回归方程为y?=+.

(3)现在生产100吨甲产品用煤

y=×100+=,

∴降低=(吨)标准煤.

1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.

年平均气

年降雨量748542507813574701432

(1)试画出散点图;

(2)判断两个变量是否具有相关关系.

解(1)作出散点图如图所示,

(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.

2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:

温度(x)010205070

溶解度

(y)

由资料看y与x呈线性相关,试求回归方程.

解x=30,y=

5

0.

128

3.

112

0.

85

0.

76

7.

66+

+

+

+=.

b

?=2

5

1

25

1

55x x

y

x y

x i i

i i

i -?-∑∑==≈ 9.

a

?=y -b ?x = 9×30=. ∴回归方程为y

?= 9x+.

3.某企业上半年产品产量与单位成本资料如下:

(1)求出线性回归方程;

(2)指出产量每增加1 000件时,单位成本平均变动多少 (3)假定产量为6 000件时,单位成本为多少元 解 (1)n=6,∑=6

1

i i x =21,∑=6

1

i i y =426,x =,y =71,

=6

1

2

i i x =79,∑=6

1

i i i y x =1 481,

b

?=2

6

1

26

166x x

y

x y

x i i

i i

i -?-∑∑===2

5.3679715.364811

?-??-=.

a

?=y -b ?x =71+×=. 回归方程为y ?=a ?+b ?x=(2)因为单位成本平均变动b

?=<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有:

产量每增加一个单位即1 000件时,单位成本平均减少元. (3)当产量为6 000件时,即x=6,代入回归方程:

y?=(元)

当产量为6 000件时,单位成本为元.

一、填空题

1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .

答案a,c,b

2.回归方程y?=,则下列说法正确的有个.

①y=x

②15是回归系数a

③是回归系数a

④x=10时,y=0

答案1

3.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为y?=+,下列叙述正确的是 .

①该地区一个10岁儿童的身高为 cm

②该地区2~9岁的儿童每年身高约增加 cm

③该地区9岁儿童的平均身高是 cm

④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高

答案②

4.三点(3,10),(7,20),(11,24)的回归方程是 .

答案y?=+

5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y与x有相关关系,得到回归直线方程y?=+.若该地区的人均消费水平为千元,估计该地区的人均消费额占人均工资收入的百分比约为 .

答案 83%

6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=8

1

i i x =52, ∑=8

1

i i y =228, ∑

=8

1

2

i i x =478, ∑=8

1

i i i y x =1 849,则其线性回归方程为 .

答案 y

?=+ 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④

8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:

若y 对x 呈线性相关关系,则回归直线方程y

?=b ?x+a ?表示的直线一定过定点 . 答案 (4,5) 二、解答题

9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:

(1)数学成绩和物理成绩具有相关关系吗

(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.

(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:

由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近.

10.以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:

房屋面积x(m2)11511080135105

销售价格y(万

元)

22(1)画出数据对应的散点图;

(2)求线性回归方程,并在散点图中加上回归直线.

解(1)数据对应的散点图如图所示:

(2)x=109,y=,∑

=

5

1

2

i

i

x=60 975,

=

5

1

i

i

i

y

x=12 952,

b?=

2

5

1

2

5

1

5

5

x

x

y

x

y

x

i

i

i

i

i

-

?

-

=

=≈ 2

a?=y-b?x≈ 2

∴所求回归直线方程为

y?= 2x+ 2.

11.某公司利润y与销售总额x(单位:千万元)之间有如下对应数据:

x10151720252832

y12

(1)画出散点图;

(2)求回归直线方程;

(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:

(2)x =7

1(10+15+17+20+25+28+32)=21,

y =

7

1(1+++2+++=,

=7

12

i i x =102

+152

+172

+202

+252

+282

+322

=3 447,

∑=7

1

i i

i

y x

=10×1+15×+17×+20×2+25×+28×+32×=,

b

?=2

7

1

27

1

77x x y

x y

x i i i i

i -?-∑

∑===2

21

744731

.22173.346?-??-≈, a ?=y -b ?x =y ?把x=24(千万元)代入方程得,

y

?=(千万元). ∴估计销售总额为24千万元时,利润为千万元.

12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:

x 2 4 5 6 8 y

30

40

60

50

70

(1)画出散点图; (2)求回归直线方程;

(3)试预测广告费支出为10百万元时,销售额多大 解 (1)根据表中所列数据可得散点图如下:

(2)列出下表,并用科学计算器进行有关计算:

i12345

x

i

24568

y

i

3040605070

x

i

y

i

60160300300560

因此,x=

5

25=5,y=

5

250 =50,

=

5

1

2

i

i

x=145, ∑

=

5

1

2

i

i

y=13 500, ∑

=

5

1

i

i

i

y

x=1 380.

于是可得:b?=

2

5

1

2

5

1

5

5

x

x

y

x

y

x

i

i

i

i

i

-

?

-

=

==

5

5

5

145

50

5

5

380

1

?

?

-

?

?

-=;

a?=y-b?x=×5=.

因此,所求回归直线方程为:y?=+.

(3)根据上面求得的回归直线方程,当广告费支出为10百万元时,y?=×10+=(百万元),即这种产品的销售收入大约为百万元.

§统计案例

基础自测

1.对有线性相关关系的两个变量建立的回归直线方程y?=a?+b?x中,回归系数b?与0的大小关系为 .(填序号)

①大于或小于②大于③小于④不小于

答案①

2.如果有90%的把握说事件A和B有关系,那么具体计算出的数据 2 .(用“>”,“<”,“=”填空)

答案>

3.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是 .

①模型Ⅰ的相关系数r为

②模型Ⅱ的相关系数r为

③模型Ⅲ的相关系数r为

④模型Ⅳ的相关系数r为

答案①

4.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 .

答案①③

例1(14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:

未患慢性气管

患慢性气管炎

总计

吸烟43162205

不吸烟13121134

合计56283339

试问:(1)吸烟习惯与患慢性气管炎是否有关

(2)用假设检验的思想给予证明.

新编应用统计学大题汇总

新编应用统计学大题汇总

1、品质标志和质量指标有什么不同?品质标志可否加总? 1.品质标志是表明总体单位属性方面的特征,其标志表现不是数量的,只能用文字表现。质量指标是统计基本指标之一,它反映社会经济现象的相对水平或工作质量。它反映的是统计总体的综合数量特征,可用数值表示,具体表现为相对数和平均数。 品质标志本身不能直接汇总为统计指标,只有对其的标志表现所对应的单位进行总计时才形成统计指标,也并非就是质量指标,而是数量指标。 2、统计指标和标志有何区别与联系? 2.统计指标是反映社会经济现象总体某一综合数量特征的社会经济范畴。也可以说统计指标是指反映实际存在的一定社会总体现象的数量概念和具体数值。我们按一定统计方法对总体各单位标志的标志表现进行登记、核算、汇总、综合,就形成各种说明总体数量特征的统计指标。例如,对某地区国有企业(总体)的每一工厂(总体单位)的总产值(标志)的不同数量(标志值)进行登记核算,最后汇总为全地区的工业总产值(指标)。 统计指标和标志的区别表现为:首先,指标和标志的概念明显不同,标志是说明单位属性的,一般不具有综合的特征。指标是说明总体的综合数量特征的。具有综合的性质。 其次,统计指标分为数量指标和质量指标,它们都是可以用数量来表示的。标志分为数量标志和品质标志,它们不是都可以用数量来表示,品质标志只能用文字表示。 统计指标和标志的联系表现为: 统计指标数值是由各单位的标志值汇总成或计算得来的。数量标志可以综合为数量指标和质量指标,品质标志只有对它的标志表现所对应的单位加以总计才能形成统计指标。总体单位的某一标志往往是总体某一统计指标的名称; 随研究目的不同,指标与标志之间可以互相转化。二者体现这样的关系:指标在标志的基础上形成,指标又是确定标志的依据。 1、统计分组的关键是什么?怎样正确选择分组标志? 分组标志的选择是统计分组的关键,一般应遵循以下原则: 1、应根据研究问题的目的和任务选择分组标志。每一总体都可以按照许多个标志来进行分组,具体按什么标志分组,主要取决于统计研究

应用统计学期末复习

应用统计学期末复习重点(按题型整理) 一、填空题(10分) 1.统计学的三种含义:统计工作;统计数据或统计信息;统计学 2.统计学的研究对象是群体现象 3.根据统计方法的构成不同,可将统计学分为描述统计学和推断统计学,根据统计方法研究和应用的侧重不同,可将统计学分为理论统计学和应用统计学。 4.统计研究的基本方法:大量观察法,实验设计法,统计描述法和统计推断法 5.标志是说明总体单位特征的,而指标是说明总体特征的, 6.标志按其性质不同分为数量标志和品质标志两种。按其变异情况可以分为不变标志和可变标志,可变标志称为变量。 7.统计总体具有三个基本特征,即同质性、大量性和变异性。 8.统计指标按其作用可分为总量指标、相对指标、平均指标,按所反映总体的内容不同,可以分为数量指标和质量指标。 9.总量指标指在一定时间、地点条件下说明现象总体的规模和水平的指标,其表现形式为绝对数。 10.总量指标按其反映时间状况不同,可以分为时点指标和时期指标,按指标数值采用的计量单位不同可以分为实物指标,价值指标,劳动量指标。总量指标按其说明总体内容不同,可分为总体标志总量和总体单位总量 11.平均指标说明分配数列中各变量值分布的集中趋势,变异指标说明

各变量值分布的离中趋势 12.计量尺度的类型有定类尺度,定序尺度,定距尺度,定比尺度,根据四种计量尺度计量结果,可将统计数据分为三种类型:名义级数据,顺序级数据,刻度级数据。 13.对名义级数据通常是计算众数,对顺序级数据,通常可以计算众数、中位数;对刻度级数据,同样可以计算众数和中位数,还可以计算平均数。 14.全面调查方式有统计报表制度,普查;非全面调查有重点调查、典型调查、抽样调查。 15.常用的抽样调查组织形式有简单随机抽样,类型随机抽样,机械随机抽样,整群随机抽样,阶段随机抽样。 16.统计分组的关键在于正确选择分组标志和合理划分各组界限 17.按分组标志的多少,统计分组可以分为简单分组和复合分组;按分组标志性质不同,统计分组可以分为品质分组和数量分组;按分组作用和任务不同,有类型分组、结构分组和分析分组。 18.离散变量可作单项式分组或组距式分组,连续变量只能做组距式分组。 19.从统计表的内容看:统计表由主词和宾词两部分构成,从统计表的形式看:统计表包括总标题、横行和纵栏标题、数字资料 20.平均指标可分为两类:计算均值和位置均值。 21.根据算术平均数、众数和中位数的关系,次数分布可以分为对称分布,左偏分布,右偏分布。

典型相关分析及其应用实例

摘要 典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性. 【关键词】典型相关分析,样本典型相关,性质,实际应用

ABSTRACT The Canonical Correlation Analysis is an important studying topic of the Multivariate Statistical Analysis. It is the statistical analysis method which studies the correlation between two sets of variables. It can work to reveal the mutual line dependence relation availably between two sets of variables. With the help of the thought about the Principal Components, we can use a few comprehensive variables to reflect the linear relationship between two sets of variables. Nowadays It has already been used widely in the correlation analysis and forecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysis firstly, and then defines the total canonical correlation variables and canonical correlation coefficient, and sum up their solution method briefly. After it I go deep into discuss some algorithm of the sample canonical correlation analysis thoroughly. According to the reasoning of the Canonical Correlation Analysis, sum up some of its important properties and give the identification, following it, I infer the significance testing about the canonical correlation coefficient. According to the analysis from the theories and the application, we can achieve the possibility and the superiority from canonical correlation analysis in the real life. 【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications

统计学经典习题集参考答案

1.要了解某班50名学生的性别构成情况,则总体是()。 A.每一个学生 B.每一个学生的性别 C.全体学生 D.全体学生的性别 2.要了解全国的人口情况,总体单位是()。 A.每一个人 B.每一户 C.每个省的人口 D.全国总人口 3.某班四名学生金融考试成绩分别为70分、80分、86分和90分,这四个数字是()。 A.变量值 B.标志 C.指标值 D.指标 4.工业企业的职工人数、职工工资是()。 A.离散变量 B.前者是离散变量,后者是连续变量 C.连续变量 D.前者是连续变量,后者是离散变量 5.统计学与统计工作的关系是()。 A.理论与应用的关系 B.工作与结果的关系 C.理论与实践的关系 D.工作与经验的关系 6.某地区为了掌握该地区水泥生产的质量情况,拟对占该地区水泥总产量的90%的五个大型水泥厂的生产情况进行调查,这种调查方式是()。 A.典型调查 B.重点调查 C.抽样调查 D.普查 7.某地进行国有商业企业经营情况调查,则调查对象是()。 A.该地所有商业企业 B.该地所有国有商业企业 C.该地每一家商业企业 D.该地每一家国有商业企业 8.对企业先按经济类型分组,再按企业规模分组,属于()。 A.简单分组 B.平行分组 C.复合分组 D.再分组 9.某变量数列,其末组为开口组,下限为600,又知其相邻组的组中值为550,则末组的组中值是()。 A.100 B.500 C.650 D.700 10.统计表的宾词是用来说明总体特征的()。 A.统计指标 B.总体单位 C.标志 D.统计对象 11.下面属于时期指标的是()。 A.商品销售额 B.商场数量 C.商品价格 D.营业员人数 12.用水平法检查长期计划完成程度,应规定()。 A.计划期初应达到的水平 B.计划期末应达到的水平 C.计划期中应达到的水平 D.整个计划期应达到的水平 13.第五次人口普查结果,我国每10万人中具有大学程度的为3611人。该数字资料为()。 A.绝对数 B.结构相对数 C.比较相对数 D.强度相对数 14.某商场计划11月份销售利润比10月份提高2%,实际提高了3%,则销售利润计划完成程度为()。 A.100.98% B.95.10% C.99.00% D.105.10% 15.平均数反映了()。 A.总体分布的集中趋势 B.总体分布的离中趋势 C.总体中各单位分布的集中趋势 D.总体变动的趋势 16.中位数和众数是一种()。 A.常见值 B.代表值 C.实际值 D.典型值 17.计算发展速度的分母是()。 A.计划期水平 B.固定期水平 C.报告期水平 D.基期水平 18.由一个10项的时间序列可以计算的环比发展速度有()。 A.8个 B.9个 C.10个 D.11个

概率与数理统计典型例题

《概率与数理统计》 第一章 随机事件与概率 典型例题 一、利用概率的性质、事件间的关系和运算律进行求解 1.设,,A B C 为三个事件,且()0.9,()0.97P A B P A B C ==U U U ,则()________.P AB C -= 2.设,A B 为两个任意事件,证明:1|()()()|.4 P AB P A P B -≤ 二、古典概型与几何概型的概率计算 1.袋中有a 个红球,b 个白球,现从袋中每次任取一球,取后不放回,试求第k 次 取到红球的概率.(a a b +) 2.从数字1,2,,9L 中可重复地任取n 次,试求所取的n 个数的乘积能被10整除的 概率.(58419n n n n +--) 3.50只铆钉随机地取来用在10个部件上,其中有3个铆钉强度太弱,每个部件用3只铆钉,若将3只强度太弱的铆钉都装在一个部件上,则这个部件强度就太 弱,从而成为不合格品,试求10个部件都是合格品的概率.(19591960 ) 4.掷n 颗骰子,求出现最大的点数为5的概率. 5.(配对问题)某人写了n 封信给不同的n 个人,并在n 个信封上写好了各人的地址,现在每个信封里随意地塞进一封信,试求至少有一封信放对了信封的概率. (01(1)! n k k k =-∑)

6.在线段AD上任取两点,B C,在,B C处折断而得三条线段,求“这三条线段能构成三角形”的概率.(0.25) 7.从(0,1)中任取两个数,试求这两个数之和小于1,且其积小于 3 16 的概率. (13 ln3 416 +) 三、事件独立性 1.设事件A与B独立,且两个事件仅发生一个的概率都是 3 16 ,试求() P A. 2.甲、乙两人轮流投篮,甲先投,且甲每轮只投一次,而乙每轮可投两次,先投 中者为胜.已知甲、乙每次投篮的命中率分别为p和1 3 .(1)求甲取胜的概率; (2)p求何值时,甲、乙两人的胜负概率相同?( 95 ; 5414 p p p = + ) 四、条件概率与积事件概率的计算 1.已知10件产品中有2件次品,现从中取产品两次,每次取一件,去后不放回,求下列事件的概率:(1)两次均取到正品;(2)在第一次取到正品的条件下第二次取到正品;(3)第二次取到正品;(4)两次中恰有一次取到正品;(5)两次中 至少有一次取到正品.(28741644 ;;;; 45954545 ) 2.某人忘记了电话号码的最后一个数字,因而他随意地拨号,假设拨过了的数字不再重复,试求下列事件的概率:(1)拨号不超过3次而接通电话;(2)第3次拨号才接通电话.(0.3;0.1) 五、全概率公式和贝叶斯公式概型 1.假设有两箱同种零件:第一箱内装50件,其中10件为一等品;第二箱内装30件,其中18件为一等品,现从两箱中随意挑选出一箱,然后从该箱中先后随机取出两个零件(取出的零件均不放回),试求:(1)先取出的零件是一等品的概率;(2)在先取出的零件是一等品的条件下,第二次取出的零件仍然是一等品 的概率.(2690 ; 51421 ) 2.有100个零件,其中90个一等品,10个二等品,随机地取2个,安装在一台设备上,若2个零件中有i个(0,1,2 i=)二等品,则该设备的使用寿命服从参

统计学计算题整理

: 典型计算题一 1、某地区销售某种商品的价格和销售量资料如下: 根据资料计算三种规格商品的平均销售价格。 解: 36== ∑∑ f f x x (元) 点评: 第一,此题给出销售单价和销售量资料,即给出了计算平均指标的分母资料,所以需采用算术平均数计算平均价格。第二,所给资料是组距数列,因此需计算出组中值。采用加权算术平均数计算平均价格。第三,此题所给的是比重权数,因此需采用以比重形式

表示的加权算术平均数公式计算。 2、某企业1992年产值计划是1991年的105%,1992年实际产值是1991的的116%,问1992年产值计划完成程度是多少? 解: %110% 105% 116=== 计划相对数实际相对数计划完成程度。即1992年计划完成程度为 110%,超额完成计划10%。 点评:此题中的计划任务和实际完成都是“含基数”百分数,所以可以直接代入基本公式计算。 3、某企业1992年单位成本计划是1991年的95%,实际单位成本是1991年的90%,问1992年单位成本计划完成程度是多少? 解: 计划完成程度 %74.94% 95% 90==计划相对数实际相对数。即92年单位成本计划完成程度是 94.74%,超额完成计划5.26%。 点评:本题是“含基数”的相对数,直接套用公式计算计划完成程度。 4、某企业1992年产值计划比91年增长5%,实际增长16%,问1992年产值计划完成程度是多少? 解: 计划完成程度%110% 51% 161=++= 点评:这是“不含基数”的相对数计算计划完成程度,应先将“不含基数”的相对数还原成“含基数”的相对数,才能进行计算。 5、某企业1992年单位成本计划比1991年降低5%,实际降低10%,问1992年单位成

应用统计学期末试卷

南京邮电大学 2010 /2011 学年第 一 学期 《应用统计》期末 试卷(A ) 院(系) 班级 学号 姓名 一、单项选择题(每题2分,共10题,合计20分) (1)一个旅游景点的管理员根据以往的经验,有80%游客照相留念,则接下来的两名游客都照相留念的概率是( )。 A.0.65 B.0.36 C.0.5 D.0.4 (2)从一个装有3个红球2个白球的盒子摸球(不放回),则连续两次摸到红球的概率为( )。 A.0.6 B.0.3 C.0.5 D.0.4 (3)下面属于时期指标的是( )。 A.商品销售额 B.商场数量 C.商品价格 D.营业员人数 (4)平均发展速度是( )。 A. 定基发展速度的算术平均数 B. 环比发展速度的算术平均数 C. 环比发展速度的几何平均数 D. 增长速度加上100% (5)在回归直线Y =a +bx 中,回归系数b 的意义为( )。 A .x =0时,Y 的期望值 B .X 每变动一个单位引起的Y 的平均变动量 C .Y 每变动一个单位引起的X 的平均变动量 D .X 每变动一个单位时Y 的变动总量 (6)设随机变量2~(3,)X N σ,且(36)0.4P X <<=,则( )0P X <=( )。 A .0.1 B .0.4 C .0.6 D .1 (7)某企业生产某种产品,其产量每年增加5万吨,则该产品的产量环比增长速度( )。 A . 年年下降 B . 年年增长 C . 年年保持不变 D . 无法做结论 (8)设()~X P λ,已知()()12P X P X ===,则()3P X =的数值为( )。 装 订 线 内 不 要 答 题 自 觉 遵 守 考 试 规 则,诚 信 考 试,绝 不 作 弊

数理统计复习题第五章

第五章 大数定律与中心极限定理 一、 典型题解 例1设随机变量X 的数学期望()(){}2,3E X u D X X u σσ==-≥方差,求P 的大小区间。 解 令3εσ=,则有切比雪夫不等式有: ()() ()22 221 ,339D X P X E X P X E X σεσεσ????-≥≤ -≥≤=????有 例2在n 次独立试验中,设事件A 在第i 次试验中发生的概率为()1,2,....i p i n = 试证明:A 发生的频率稳定于概率的平均值。 证 设X 表示n 次试验中A 发生的次数,引入新的随机变量0i A X A ?=??1,发生? ,不发生 ()12,...i n =, ,则X 服从()01-分布,故 ()()(),1i i i i i i i E X p D X p p p q ==-=, 又因为 () ()2 2 4140i i i i i i i i p q p q p q p q -=+-=-≥, 所以 ()()1 1,2, (4) i i i D X p q i n =≤ = 由切比雪夫大数定理,对,o ε?>有()11lim 1n i i n i p X E X n ε→∞ =?? -<=???????? ∑ 即 11lim 1n i n i X p p n n ε→∞ =?? -<=???? ∑ 例 3 对于一个学生而言,来参加家长会的家长人数是一个随机变量,设一个学 生无家长,1名家长、2名家长来参加会议的概率分别为。若学校共有400名学生,设各学生参加会议的家长数相互独立,且服从同一分布。(1)求参加会议的家长数X 超过450的概率;(2)求有1名家长来参加会议的学生数不多于340的概率。 解(1)以()400,,2,1 =k X k 记第k 个学生来参加会议的家长数,则k X 的分布律为 k X 0 1 2 k P 0.05 0.8 0.15

《应用统计学》期末考试试题++a+)+卷

一、单项选择题(每题 2分,共30分) △ 1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距取( B )。 A 、9.3 B 、9 C 、6 D 、10 2.某商业局对其所属商店的销售计划完成百分比采用如下分组, 请指出哪项是正确的( C )。 A 、80—89% 90—99% 100—109% 110%以上 B 、80%以下 80.1—90% 90.1—100% 100.1—110% C 、90%以下 90—100% 100—110% 110%以上 D 、85%以下 85—95% 95—105% 105—115% 3.以下是根据8位销售员一个月销售某产品的数量制作的茎叶图 3 02 6785 5654 则销售的中位数为( C ) 。 A. 5 B. 45 C. 56.5 D. 7.5 4.按使用寿命分组的产品损坏率一般表现为( D )分布。 A 、钟型 B 、对称 C 、J 型 D 、U 型 5.某11位举重运动员体重分别为:101斤、102斤、103斤、108 斤、102斤、105斤、102斤、110斤、105斤、102斤,据此计 算平均数,结果满足( D )。 A 、算术平均数=中位数=众数 B 、众数>中位数>算术平均数 C 、中位数>算术平均数>众数 D 、算术平均数>中位数>众数

6.甲数列的标准差为7.07,平均数为70,乙数列的标准差为3.41, 平均数为7,则( D )。 A 、甲数列平均数代表性高; B 、乙数列平均数代表性高; C 、两数列的平均数代表性相同; D 、甲数列离散程度大; 7.某银行想知道平均每户活期存款余额和估计其总量,根据存折 账号的顺序,每50本存折抽出一本登记其余额。这样的抽样组 织形式是( C ) A 、类型抽样 B 、整群抽样 C 、机械抽样 D 、纯随机抽样 8.在方差分析中,检验统计量F 是( B )。 A 、组间平方和除以组内平方和 B 、组间均方和除以组内均方 C 、组间平方和除以总平方和 D 、组内均方和除以组间均方 9. 回归方程中,若回归系数为正,则( A )。 A 、表明现象正相关 B 、表明现象负相关 C 、表明相关程度很弱 D 、不能说明相关的方向和程度 △10.已知某工厂甲产品产量和生产成本有直线关系,在这条直 线上,当产量为1000时,其生产成本为30000元,其中不随产量 变化的成本为6000元,则成本总额对产量的回归方程是( A ) A 、x y 246000?+= B 、x y 24.06?+= C 、x y 624000?+= D 、x y 600024?+= 11.速度和环比发展速度的关系是( A )。 A 、两个相邻时期的定基发展速度之商等于相应的环比发展速度 B 、两个相邻时期的定基发展速度之差等于相应的环比发展速度

数理统计复习题第八章

第七章 假设检验 三、典型题解 例1:某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随机变量, 它服从正态分布.当机器正常时, 其均值为0.5千克, 标准差为0.015千克.某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖9袋, 称得净重为(千克): 0.498 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512, 问机器是否正常? 解: 根据样本值判断5.05.0≠=μμ还是.提出两个对立假设 0100:5.0:μμμμ≠==H H 和 选择统计量:)1,0(~/0 N n X Z σμ-= 取定0.05a =,则/20.025 1.96,z z a ==又已知 9, 0.015, n s ==由样本计算得0.511x =, 2.2 1.96=>,于是拒绝假设 0H , 认为包装机工作不正常. 例2:某工厂生产的固体燃料推进器的燃烧率服从正态分布),(2 σμN , s cm s cm /2,/40==σμ,现用新方法生产了一批推进器,从中随机取25n =只,测得燃 烧率的样本均值为s cm x /25.41=.设在新方法下总体均方差仍为s cm /2,问这批推进器的燃烧率是否较以往生产的推进器的燃烧率有显著的提高?(取显著性水平05.0=α) 解:根据题意需要检验假设 00 :40H m m ?(即假设新方法没有提高了燃烧率), 10 :H m m >(即假设新方法提高了燃烧率), 这是右边检验问题,拒绝域为 0.05 1.645x z z = ?,由 3.125 1.645 x z = =>可得z 值落到拒绝域中故在显著性水平0.05 a =下拒绝0 H . 即认为这批推进器的燃烧率较以往有显著提高. 例3:某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今

典型相关分析SPSS例析

典型相关分析 典型相关分析(Canonical correlation )又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。 典型相关与主成分相关有类似,不过主成分考虑的是一组变量,而典型相关考虑的是两组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的成分使之与另一组的成分具有最大的线性关系。 典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共线性。典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因变量。 典型相关会找出一组变量的线性组合**=i i j j X a x Y b y =∑∑与 ,称 为典型变量;以使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。i a 和j b 称为典型系数。如果对变量进 行标准化后再进行上述操作,得到的是标准化的典型系数。 典型变量的性质 每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关;原来所有变量的总方差通过典型变量而成为几个相互独立的维度。一个典型相关系数只是两个典型变量之间的相关,不能代

表两个变量组的相关;各对典型变量构成的多维典型相关,共同代表两组变量间的整体相关。 典型负荷系数和交叉负荷系数 典型负荷系数也称结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数,交叉负荷系数指的是一个典型变量与另一组变量组各个变量的简单相关系数。典型系数隐含着偏相关的意思,而典型负荷系数代表的是典型变量与变量间的简单相关,两者有很大区别。 重叠指数 如果一组变量的部分方差可以又另一个变量的方差来解释和预测,就可以说这部分方差与另一个变量的方差之间相重叠,或可由另一变量所解释。将重叠应用到典型相关时,只要简单地将典型相关系数平方(2 CR),就得到这对典型变量方差的共同比例,代表一个典型变量的方差可有另一个典型变量解释的比例,如果将此比例再乘以典型变量所能解释的本组变量总方差的比例,得到的就是一组变量的方差所能够被另一组变量的典型变量所能解释的比例,即为重叠系数。 例1:CRM(Customer Relationship Management)即客户关系管理案例,有三组变量,分别是公司规模变量两个(资本额,销售额),六个CRM实施程度变量(WEB网站,电子邮件,客服中心,DM 快讯广告Direct mail缩写,无线上网,简讯服务),三个CRM绩效维度(行销绩效,销售绩效,服务绩效)。试对三组变量做典型相关分析。

统计学简单题答案整理doc资料

统计学简答题 2.统计学研究对象有哪些特点? 参考答案:(1)数量性:从数量上认识事物的性质和规律,是统计研究的基本特点;统计研究的不是抽象的数量,而是有特定内容的具体数量。统计是在质的规定性下研究与所研究现象内容性质密切联系的具体数量。 (2)总体性:统计是以现象总体的数量特征作为自己的研究对象。统计要对总体中各单位普遍存在的事实进行大量观察和综合分析,得出反映现象总体的数量特征。 (3)变异性:总体各单位的标志特征由于复杂的随机因素而有不同的表现,它是统计研究的前提。 ⒊什么是标志和指标?两者有何区别与联系? 参考答案: 指标与标志的区别: (1)指标是说明总体特征的,而标志则是说明总体单位特征的。 (2)标志有不能用数值表示的品质标志与能用数值表示的数量标志,而指标都是用数值表示的,没有不能用数值表示的统计指标。 指标与标志的联系: (1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的,如一个煤炭工业局(公司)的煤炭总产量,是从所属各煤炭工业企业的产量汇总出来的。 (2)指标与标志(数量标志)之间存在着变换关系。由于研究的目的不同,原来的统计总体如果变成总体单位,则相对应的统计指标也就变成数量标志,反之亦然。 (比如:如果调查研究各分支煤炭工业企业的产量情况,那么分支企业是总体指标,如果转为研究煤炭工业局的总产量情况,那么各分支公司就成了个体标志) (一)指标与标志之间联系:(1)、标志和指标的关系是个别和整体的关系。标志反映总体单位的属性和特征,而指标则反映总体的数量特征。许多统计指标是由各单位的数量标志值汇总而来的。(2)、由于总体和单位的概念会随着研究目的不同而变化,在一定条件下,指标和标志之间存在一定的变换关系。因此指标与标志的概念也是相对而言的。 (二)指标和标志的区别:①指标是说明总体数量特征的概念,而标志是说明总体单位特征的概念。前者范围大些, 后者的范围小些;②指标都是用数值表示的, 而标志有的是用数字表示, 有的是用文字表示。③指标是由数量标志汇总得出来的,而标志仅是某一个体现象,未经过任何汇总

统计学试题库及答案

13、在统计中,把可变的数量标志、统计指标和统称为变量。 10、一个统计总体() A、只能有一个标志 B、只能有一个指标 C、可以有多个标志 D、可以有多个指标 一、填空题 1、统计调查是统计工作的环节,它的基本要求有、、。 2、统计调查按组织形式不同,可分为统计报表制度、专门调查和。 3、统计调查按登记的时间是否连续,可分为一次性调查、经常性调查和。 4、统计调查中搜集资料的方式有、和。 5、统计调查方案包括调查目的、调查对象和调查单位、调查项目、调查时间和调查期限。 6、统计调查的调查时间是指搜集的资料所属的时间;调查期限是指统计调查工作的起止时间。 7、调查表是用来表现调查项目的,按其形式不同一般有单一表、一览表和两种。 8、统计报表的资料来源主要是、和。 9、建立和健全和是保证统计报表质量的基础。 10、统计中专门调查包括普查、抽样调查、典型调查、重点调查、、和。 11、重点调查中的“重点单位”是以标志值为标准选取的。在总体中标志值占绝对比重的少数单位 典型单位:在总体中具有代表性的一部分单位 12、调查单位是统计调查内容的承担者,填报单位是提供统计资料的单位。 一、填空题 1、统计整理的中心内容是统计分组和统计汇总,统计分组的

关键是选择分组标志。 2、统计整理包括资料审核、统计分组、统计汇总、编制统计表、、和四方面内容。 3、在分布数列中,各组单位数与总体单位数的比率称为,又称为比重或百分比。 4、变量值中最大值与最小值的差额称为;在组距数列中,各组上限与下限的差额称为。 5、统计汇总技术主要有和两种形式。 6、统计表从形式上看,由总标题、横行标题、纵栏标题、数字资料、、和四部分构成;从内容上看,由、主词、宾词和两部分构成。 7、统计表按主词是否分组和分组程度可分为简单表、简单分组表、复合分组表、和。 8、统计表的宾词排列形式有平行排列、复合排列和两种。 9、统计分组的基本原则是穷举和互斥;按分组标 志的多少和组合形式不同,统计分组 有、简单分组、复合分组和两种。10、统计分组同时具有两个含义:一是将总体划分为性质的若干组;二是将性 质的单位合并在一起。 11、数量标志的最大值与最小值的差额称为。在组距数列 中,各组上限与下限的差额称为组限。 12、在组距数列中,用组中值、来代表各组内变量值的一般 水平,它是假定各组内变量值 是均匀分布的。 一、填空题 1、总量指标的计量单位有实物单位、价值单位、劳动单位、和三种。 2、相对指标的表现形式是相对数,具体有无名数、复名数 和两种表现形式,除强度相对指标相对指标可用复名数表示外,其他都用无名数表示。 3、男性人口数与女性人口数之比是相对指标;男性人口数与

应用统计学期末考试试题A卷

一 、单项选择题(每题2分,共30分) △1.在编制等距数列时,如果全距等于56,组数为6,为统计运算方便,组距取( B )。 A 、 B 、9 C 、6 D 、10 2.某商业局对其所属商店的销售计划完成百分比采用如下分组,请指出哪项是正确的 ( C )。 A 、80—89% 90—99% 100—109% 110%以上 B 、80%以下 —90% —100% —110% C 、90%以下 90—100% 100—110% 110%以上 D 、85%以下 85—95% 95—105% 105—115% 3.以下是根据8位销售员一个月销售某产品的数量制作的茎叶图 3 02 6785 5654 则销售的中位数为( C )。 A. 5 B. 45 C. D. 4.按使用寿命分组的产品损坏率一般表现为( D )分布。 A 、钟型 B 、对称 C 、J 型 D 、U 型 5.某11位举重运动员体重分别为:101斤、102斤、103斤、108斤、102斤、105斤、 102斤、110斤、105斤、102斤,据此计算平均数,结果满足( D )。 A 、算术平均数=中位数=众数 B 、众数>中位数>算术平均数 C 、中位数>算术平均数>众数 D 、算术平均数>中位数>众数 6.甲数列的标准差为,平均数为70,乙数列的标准差为,平均数为7,则( D )。 A 、甲数列平均数代表性高; B 、乙数列平均数代表性高; C 、两数列的平均数代表性相同; D 、甲数列离散程度大; 7.某银行想知道平均每户活期存款余额和估计其总量,根据存折账号的顺序,每50本 存折抽出一本登记其余额。这样的抽样组织形式是( C ) A 、类型抽样 B 、整群抽样 C 、机械抽样 D 、纯随机抽样 8.在方差分析中,检验统计量F 是( B )。 A 、组间平方和除以组内平方和 B 、组间均方和除以组内均方 C 、组间平方和除以总平方和 D 、组内均方和除以组间均方 9. 回归方程中,若回归系数为正,则( A )。 A 、表明现象正相关 B 、表明现象负相关

统计学试题库及答案

《统计学》试题库 知识点一:统计基本理论和基本概念 一、填空题 1、统计是、和的统一体,是统计工作的成果,是统计工作的经验总结和理论概括。 2、统计研究的具体方法主要有、、和。 3、统计工作可划分为、、和四个阶段。 4、随着的改变,总体和是可以相互转化的。 5、标志是说明,指标是说明。 6、可变的数量标志和所有的统计指标称为,变量的具体数值称为。 7、变量按分,可分为连续变量和离散变量,职工人数、企业数属于变量;变量按分,可分为确定性变 量和随机变量。 8、社会经济统计具有、、、等特点。 9、一个完整的统计指标应包括和两个基本部分。 10、统计标志按是否可用数值表示分为和;按在各个单位上的具体表现是否相同分为 和。 11、说明特征的名称叫标志,说明特征的名称叫指标。 12、数量指标用表示,质量指标用或平均数表示。 13、在统计中,把可变的和统称为变量。 14、由于统计研究目的和任务的变更,原来的变成,那么原来的指标就相应地变成标志,两者变动方向相 同。 二、是非题 1、统计学和统计工作的研究对象是完全一致的。 2、运用大量观察法,必须对研究对象的所有单位进行观察调查。 3、统计学是对统计实践活动的经验总结和理论概括。 4、一般而言,指标总是依附在总体上,而总体单位则是标志的直接承担者。 5、数量指标是由数量标志汇总来的,质量指标是由品质标志汇总来的。 6、某同学计算机考试成绩80分,这是统计指标值。 7、统计资料就是统计调查中获得的各种数据。 8、指标都是用数值表示的,而标志则不能用数值表示。 9、质量指标是反映工作质量等内容的,所以一般不能用数值来表示。 10、总体和总体单位可能随着研究目的的变化而相互转化。 11、女性是品质标志。 12、以绝对数形式表示的指标都是数量指标,以相对数或平均数表示的指标都是质量指标。 13、构成统计总体的条件是各单位的差异性。 14、变异是指各种标志或各种指标之间的名称的差异。

《应用统计学》期末考试试题及答案(第一套)

《应用统计学》期末考试试题(第一套) 参考答案及评分细则 一、单项选择题(在备选答案中只有一个是正确的,将其选出并把它的英文标号写在题后括号内。不答题或者答错题既不得分,也不倒扣分。每题1分,共10分) 1、某城市工业企业未安装设备普查,总体单位是( B)。 A.工业企业全部未安装设备B.工业企业每一台未安装设备 C.每个工业企业的未安装设备D.每一个工业企业 2、属于数量指标的是( A )。 A.粮食总产量 B.粮食平均亩产量 C.人均粮食生产量 D.人均粮食消费量 3、某市工业企业2006年生产经营成果年报呈报时间规定在2007年1月31日, 则调查期限为( B )。 A.一日B.一个月C.一年D.一年零一个月 4、某管理局对其所属企业的生产计划完成百分比采用如下分组,请指出下列哪项 是正确的( C ) A.80-89%B.80%以下C.90%以下D.85%以下 90-99%80.1-90%90-100% 85-95% 100-109% 90.1-100% 100-110% 95-105% 110%以上 100.1-110%110%以上 105-115% 5、某企业2005年职工平均工资为5200元,标准差为110元,2006年职工平均 工资幅长了40%,标准差增大到150元,职工平均工资的相对变异( B )A.增大 B.减小C.不变D.不能比较6、权数对算术平均数的影响作用,实质上取决于( A ) A.作为权数的各组单位数占总体单位数比重的大小 B.各组标志值占总体标志总量比重的大小 C.标志值本身的大小 D.标志值数量的多少 7、已知各期环比增长速度为2%、5%、8%和7%,则相应的定基增长速度的计算方 法为( A )

数理统计典型例题分析

典型例题分析 例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。 解 以21 S 和22 S 分别表示两个(修正)样本方差。由22 22 12σσy x S S F =知统计量 22 2 1222175.13520S S S S F == 服从F 分布,自由度为(7,9)。 1) 事件{}2 2 212S S =的概率 {}{}05.32035235 20222221222122 2 1 ===??? ????==??????===F P S S P S S P S S P 因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等于0。 2) 现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率: {} {}5.322 221≥=≥=F P S S P p 。 由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值: )9,7(20.45.329.3)9,7(025.005.0F F =<<=。 由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<

解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度 1-=n v ,于是,有 {}{}95.0)1(5.1)1(5.1)1(2,05.0222 2=≤≥-≤=? ?????-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2 ,05.0v χ是自由度为1-=n v 的水 平05.0=α的2χ分布上侧分位数(见附表)。我们欲求满足 2,05.015.1v n χ≥-)( 的最小1+=v n 值,由附表可见 2 26,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。 于是,所求27=n 。 例3.假设随机变量X 在区间[]1,+θθ上有均匀分布,其中θ未知: )(1n X X ,, 是来自X 的简单随机样本,X 是样本的均值,{} n X X X ,,min 1)1( =是最小观察值。证明 21?1-=X θ 和 11?12+-=n X ) (θ 都是θ的无偏估计量。 解 由X 在[]1,+θθ上均匀分布,知2/)12(+==θEX EX i 。 1) 由 θθθθ=-+=-+=-=∑∑==2 121212221211?111n i n i i n EX n E , 可见1?θ是θ的无偏估计量。 2) 为证明2?θ是θ的无偏估计。我们先求统计量)1(X 的概率分布。

SPSS典型相关分析及结果解释

SPSS典型相关分析及结果解释 SPSS 11.0 - 23.0 典型相关分析 1方法简介 如果要研究一个变量和一组变量间的相关,则可以使用多元线性回归,方程的复相关系数就是我们要的东西,同时偏相关系数还可以描述固定其他因素时某个自变量和应变量间的关系。但如果要研究两组变量的相关关系时,这些统计方法就无能为力了。比如要研究居民生活环境与健康状况的关系,生活环境和健康状况都有一大堆变量,如何来做?难道说做出两两相关系数?显然并不现实,我们需要寻找到更加综合,更具有代表性的指标,典型相关(Canonical Correlation)分析就可以解决这个问题。 典型相关分析方法由Hotelling提出,他的基本思想和主成分分析非常相似,也是降维。即根据变量间的相关关系,寻找一个或少数几个综合变量(实际观察变量的线性组合)对来替代原变量,从而将二组变量的关系集中到少数几对综合变量的关系上,提取时要求第一对综合变量间的相关性最大,第二对次之,依此类推。这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。一般来说,只需要提取1~2对典型变量即可较为充分的概括样本信息。 可以证明,当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当一组变量只有一个变量时,典型相关系数即为复相关系数。故可以认为典型相关系 1

数是简单相关系数、复相关系数的推广,或者说简单相关系数、复相关系数是典型相关系数的特例。 2引例及语法说明 在SPSS中可以有两种方法来拟合典型相关分析,第一种是采用Manova过程来拟合,第二种是采用专门提供的宏程序来拟合,第二种方法在使用上非常简单,而输出的结果又非常详细,因此这里只对它进行介绍。该程序名为Canonical correlation.sps,就放在SPSS的安装路径之中,调用方式如下: INCLUDE 'SPSS所在路径\Canonical correlation.sps'. CANCORR SET1=第一组变量的列表 /SET2=第二组变量的列表. 在程序中首先应当使用include命令读入典型相关分析的宏程序,然后使用cancorr名称调用,注意最后的“.”表示整个语句结束,不能遗漏。 这里的分析实例来自曹素华教授所著《实用医学多因素统计分析方法》第176页:为了研究兄长的头型与弟弟的头型间的关系,研究者随机抽查了25个家庭的两兄弟的头长和头宽,数据见文件canonical lianxiti.sav,希望求得两组变量的典型变量及典型相关系数。显然,代表兄长头形的变量为第一组变量,代表弟弟头形的变量为第二组变量,这里希望求得的是两组变量间的相关性,在语法窗口中键入的程序如下: INCLUDE 'D:\SpssWin\Canonical correlation.sps'. 请使用时改为各自相应的安装目录 CANCORR SET1=long1 width1 列出第一组变量 2

相关文档
相关文档 最新文档