文档库 最新最全的文档下载
当前位置:文档库 › 第四章 数据分析(梅长林)习题答案

第四章 数据分析(梅长林)习题答案

第四章 数据分析(梅长林)习题答案
第四章 数据分析(梅长林)习题答案

第四章 习题

一、习题4.4

解:(1)通过SAS 的proc princomp 过程对相关系数矩阵R 做主成分分析,得到个主成分的贡献率以及累计贡献率如表1所

表 1

从表中可以得到特征值向量为:

]0.2429 0.4515 0.5396 0.8091 2.8567[=*λ

第一主成分贡献率为:57.13 % 第二主成分贡献率为:16.18 % 第三主成分贡献率为: 10.79% 第四主成分贡献率为:9.03 % 第五主成分贡献率为:6.86 %

进一步得到各主成分分析结果如表2所示:

表 2

(2)由(1)中得到的结果可知前两个主成分的累积贡献率为73.32%,得到第一主成分、第二主成分为:

54212.044215.034702.024571.014636.01x x x x x Y ++++=*

55820.045257.032604.025093.012404.02x x x x x Y ++---=*

由于1*Y 是五个标准化指标的加权和,由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果,1*Y 越大表示各股票的综合周反弹率越大。*

2Y 中关于三种化工股票的周反弹率系数为

负,而关于两种石油的系数为正,它放映了两种石油周反弹率和三种化工股票周反弹率的对比,*

2Y 的绝对值越大,

表明两种石油周反弹率和三种化工股票周反弹率的差距越大。 二、习题4.5

解:(1)利用SAS 的proc corr 过程求得相关系数矩阵如表3:

表 3

(2)从相关系数矩阵出发,通过proc princomp 过程对其进行主成分分析,表4给出了各主成分的贡献率以及累积贡献率:

表4

第一主成分贡献率为:38.70 % 第二主成分贡献率为:29.59 % 第三主成分贡献率为:11.50% 第四主成分贡献率为:8.82 % 第五主成分贡献率为:6.23 % 第六主成分贡献率为:2.87 % 其中前两个主成分的累计贡献率为68.29%

(3)通过上面的计算得到各主成分,见表5:

表5

8

5093

.

7

3171

.

6

6927

.

5

02169

.

4

2541

.

3

0185

.

2

5192

.

1

2496

.

1

x

x

x

x

x

x

x

x Y

+ +

+

+

+

-

+

=

0.0871x8

-0.2607x7-0.1347x6

+0.5754x5+0.5381x4+0.4754x3+0.0376x2--0.2413x12 Y

由于是1Y 八个标准化标值的加权值,因此它反映了平均消费数据的综合指标。对于Y1,它反映了各省人均消费水平,除烟茶酒外,其他支出越高,其人均总体消费水平越高,而烟茶酒对其消费水平评价成反方向。在Y 2中人均粮食,人均副食品,人均燃料,人均非商品的系数为负;人均烟茶酒、人居其他副食、人均衣着、人均日用品系数为正,说明Y2的绝对值越大,各省人均消费的在生活必需品与高档品差异越大。

根据第一主成分的得分对各个省份进行排序,见表6:

表 6

Obs location Prin1

Obs location Prin1

1 广东 6.89591 16 宁夏 -0.43040

2 上海 3.24842 17 湖南 -0.51802

3 北京 1.7921

4 18 陕西 -0.61274 4 浙江 1.51507 19 云南 -0.66670

5 海南 1.4011

6 20 新疆 -0.81850 6 福建 1.15390 21 青海 -1.11335

7 广西 1.05651 22 安徽 -1.11496

8 天津 0.43543 23 甘肃 -1.18223

9 江苏 0.15329 24 内蒙古 -1.25819 10 辽宁 0.04520 25 贵州 -1.25934 11 西藏 -0.13324 26 吉林 -1.29370 12 四川 -0.13489 27 黑龙江 -1.32567 13 山东 -0.14112 28 河南 -1.48595 14 湖北 -0.17044 29 山西 -1.68448 15 河北

-0.39220

30 江西

-1.96091

三、习题4.6

解:(1)通过SAS的proc princomp过程计算得到样本协方差矩阵见表7:

表7

求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表8:

表8

从以上结果可看出前三个主成分贡献率已占89.38%,大于剩下三个成分的总和,已包含原始数据的大量信息,所以保留前三个主成分即可。

(2)通过SAS的proc princomp过程对其相关系数矩阵进行主成分分析,首先得到相关系数矩阵见表9:

表9

求得协方差矩阵的特征值以及各样本主成分的贡献率、累计贡献率结果如表10:

表10

从以结果可看出前四个主成分贡献率已占84.59%且第四个主成分的贡献率都占到总信息量的的14.53%,与剩下两个成分的总和差不多,所以保留前四个主成分即可。

我认为基于协方差矩阵S的分析结果更合理。因为由协方差矩阵S 输出结果可以看出前三个主成分的贡献率就可达到89.38%大于相关系数矩阵R分析得到前四个主成分贡献率总和84.59%,且空腹和摄入食糖的测量数据量纲相等无需进行标准化数据,所以基于协方差矩阵S的分析结果更为合理。

四、习题4.8

(1)通过proc cancorr 过程求得以下结果:

表 11

11

11122221--R R R R 两个特征值分别为

157698.02

1=∧

ρ 0053.02

2=∧

ρ

计算得到各典型变量系数见表下表:

所以有

第一对典型变量为:

2

112114564.01019.10330.12478.1Y Y W X X V -=-=

第一对典型相关系数397.0?1=ρ; 第二对典型变量为:

2

122120030.10071.07687.03180.0Y Y W X X V +-=+=

第二对典型相关系数07289.0?2=ρ

(2)对典型变量进行显著性检验,结果见表12,其中P1=0.001<0.05,

P2=0.001<0.05,故两对变量都显著相关。

表 12

五、习题4.9

(1)首先计算得到协方差系数矩阵:

进而从协方差系数矩阵计算得到典型变量系数:

所以有

第一对典型变量为:

2

1121180222.05024.007074.005657.0Y Y W X X V -=+=

第一对典型相关系数37716.0?1=ρ; 第二对典型变量为:

2

1221226208.017615.018695.013997.0Y Y W X X V +-=+-=

第二对典型相关系数99711.0?2=ρ (2)计算得到样本相关系数矩阵:

?????

?

???

???= 1.00000.73460.70860.69320.73461.00000.70400.71080.70860.69321.00000.73460.70400.71080.73461.0000R 从相关系数矩阵出发,进行典型相关变量分析:

所以有

第一对典型变量为:

*

*

*

*

**-=+=2

112115383.05044.05215.05522.0Y Y W X X V

第一对典型相关系数为:37716.0?1=ρ 第二对典型变量为:

*

**

**

*

+-=+-=2

1

22127586.17686.13784.13664.1Y Y

W X X V

第二对典型相关系数为:99711.0?2=ρ

因为样本中测量的数据的量纲都是相同的,所以无论是从协方差系数矩阵还是相关系数矩阵进行典型相关分析,得到的结果是一样的。 对典型变量进行显著性检验,结果见表13:

表13

取显著水平为0.05,其中第一对典型变量的检验p值为0.003,小于0.05,所以第一对典型变量显著相关,而第二对典型变量的检验p值为0.8031,大于0.05,所以第二对典型变量不是显著相关。

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

数据分析基础测试题含答案

数据分析基础测试题含答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.甲、乙、丙三个不同品种的苹果树在同一地区进行对比试验,从每个品种的苹果树中随机各抽取10棵,对它们的产量进行统计,绘制统计表如下: 品种甲乙丙 平均产量/(千克/棵)9090 方差10.224.88.5 若从这三个品种中选择一个在该地区推广,则应选择的品种是() A.甲B.乙C.丙D.甲、乙中任选一个【答案】A 【解析】 【分析】 根据平均数、方差等数据的进行判断即可. 【详解】 根据平均数、方差等数据的比较可以得出甲品种更适在该地区推广. 故选:A 【点睛】 本题考查了平均数、方差,掌握平均数、方差的定义是解题的关键. 3.某射击俱乐部将11名成员在某次射击训练中取得的成绩制成如图所示的条形统计图,由图可知,11名成员射击成绩的众数和中位数分别是()

A.8,9 B.8,8 C.8,10 D.9,8 【答案】B 【解析】 分析:中位数,因图中是按从小到大的顺序排列的,所以只要找出最中间的一个数(或最中间的两个数)即可,本题是最中间的那个数;对于众数可由条形统计图中出现频数最大或条形最高的数据写出. 详解:由条形统计图知8环的人数最多, 所以众数为8环, 由于共有11个数据, 所以中位数为第6个数据,即中位数为8环, 故选B. 点睛:本题主要考查了确定一组数据的中位数和众数的能力.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个,则找中间两个数的平均数. 4.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

数据分析练习题(解答)

E X 1-0 设来自样本观测值如下表: T EX1-1 某小学10名11岁学生的身高(单位:cm)数据如下: (1) 计算均值、方差、标准差、变异系数、偏度、峰度; (2) 计算中位数、上、下四分位数、四分位极差、三均数; (3) 作出直方图(范围130~145,a i-1≤x

人民卫生出版社第七版-误差与数据分析处理习题答案

第二章 1.属于方法误差的有:④⑦⑩;仪器误差:①②③⑨;操作误差:⑥;偶然误差:⑧; 试剂误差:⑤ 5. ① 4 2.52 4.1015.14 6.1610 ???=2.54×10-3 此题中2.52的相对误差最大,因此计算结果应修约为三位有效数字。 ② 61090.20001120 .0325 0001120.010.514.2101.3?==?? 有效位数保留原理同上。 ③ 4 51.0 4.0310 4.022.5120.002034=-??? ④ 2 0.03248.1 2.121053.01.050 =??? 此题中8.1的相对误差最大,以8.1的有效数字作为修约标准,又因为8.1的第一个有效数字为8,其相对误差的大小和三位有效数字的相对误差近似,因此可认为8.1的有效数字为三位有效数字,结果保留三位有效数字。 ⑤ 32.2856 2.51 5.42 1.89407.5010 5.738 5.420.0142 3.5462 3.546211.14 3.1413.546 -?+-??+-= == ⑥pH=2.10,求[H +]=? 由于pH 值为对数值,所以2.10的有效数字为两位有效数字,故 [H +]=7.9×10-3mol.L -1 6. 解:根据n i=1 d=-∑i x x n 和准偏差, ①第一组1d 0.24=1,S =0.28,第二组的2d 0.24=2,S =0.31。 ②两组数据的平均偏差相等但标准偏差不相等,这是因为标准偏差可以反映出数据中较大

偏差对测定结果重复性的影响。 ③由于第一组的标准偏差较小,因此这组数据的精密度更高。 7.测定碳的原子量所得数据:12.0080、12.0095、12.0099、12.0101、12.0102、12.0106、12.0111、12.0113、12.0118及12.0120。求算:(1)平均值;(2)标准偏差;(3)平均值的标准偏差;(4)平均值在99%置信水平的置信限。 解 0104.1210 12.012012.011812.011312.011112.010612.010212.010112.00992.0095112.0080=+++++++++= X (3) (4) 置信限为: 0012 .010 0012.0250.3250 .3,9,01.0,=? ===n S t t t f f αα 8. 13 .05 11 .001.0 20.014.011.005.051 .1640 .152.171.137.162.146.12 2 2 2 2 2 =+++++= =+++++=S X 7.1613 .051 .160.1=?-= t 查表得t 0.05,5=2.571 t 计<t 0.05,5 故无显著性差异。 9.解(1)计算统计量 HPLC 法:n 1=6, 1X =98.3%, s 1=1.10 化学法:n 2=5, 2X =97.5%, s 2=0.540

数据分析专项训练及解析答案

数据分析专项训练及解析答案 一、选择题 1.分析题中数据,将15名运动员的成绩按从小到大的顺序依次排列,处在中间位置的一个数即为运动员跳高成绩的中位数; 2.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 3.有甲、乙两种糖果,原价分别为每千克a元和b元.根据调查,将两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,取得了较好的销售效果.现在糖果价格有了调整:甲种糖果单价下降15%,乙种糖果单价上涨20%,但按原比例混合的糖果单价恰好不 变,则x y 等于() A.3 4 a b B. 4 3 a b C. 3 4 b a D. 4 3 b a 【答案】D 【解析】 【分析】 根据已知条件表示出价格变化前后两种糖果的平均价格,进而得出等式求出即可.【详解】 解:∵甲、乙两种糖果,原价分别为每千克a元和b元, 两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,

∴两种糖果的平均价格为:ax by x y + + , ∵甲种糖果单价下降15%,乙种糖果单价上涨20%, ∴两种糖果的平均价格为: 1520 (1)(1) 100100 a x b y x y -?++ + , ∵按原比例混合的糖果单价恰好不变, ∴ax by x y + + = 1520 (1)(1) 100100 a x b y x y -?++ + , 整理,得15ax=20by ∴ 4 3 x b y a =, 故选:D. 【点睛】 本题考查了加权平均数,解决本题的关键是表示出价格变化前后两种糖果的平均价格.4.某青年排球队12名队员的年龄情况如下: 则12名队员的年龄() A.众数是20岁,中位数是19岁B.众数是19岁,中位数是19岁 C.众数是19岁,中位数是20.5岁D.众数是19岁,中位数是20岁 【答案】D 【解析】 【分析】 中位数是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数;众数是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个). 【详解】 解:在这一组数据中19岁是出现次数最多的,故众数是19岁;将这组数据从小到大的顺序排列后,处于中间位置的数是20岁,那么由中位数的定义可知,这组数据中的中位数是20岁.故选:D. 【点睛】 理解中位数和众数的定义是解题的关键.

第2章 数据分析(梅长林)习题题答案

第2章 习 题 一、习题 (1)回归模型 15,2,1,22110 =+++=i x x y i i i i εβββ 调用proc reg : ] 由此输出得到的回归方程为: 2100920.049600.045261.3X X y ++=∧ 由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显著影响。46521.30=∧ β可以理解为该化妆品作为一种必需品每个月的销售量。当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加个单位。同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加个单位。 p n SSE -= ∧2 σ 是2σ的无偏估计,所以2σ的估计值是. (2)调用 由此可到线性回归关系显著性检验: 0至少有一个为0:2,1:1210ββββH H ?==

的统计量/(1)/()SSR p MSR F SSE n p MSE -= =-的观测值47.56790=F ,检验的p 值 0001.0)(000<>==F F p p H 另外9989.053902 53845 2=== SST SSR R ,2R 描述了由自由变量的线性关系函数值所能反映的Y 的总变化量的比例。2R 越大,表明线性关系越明显。这些结果均表明Y 与X1,X2之间的回归关系高度显著。 (3)若置信水平05.0=α,由17881.2)12(975.0=t ,利用参数估计值得 到21,0,βββ的置信区间分别为: 对,0β2942.54516.343065.21781.245216.3±=?±,即)7458.8,8426.1(-) 对1β:01318.049600.000605.01781.249600.0±=?±,即)50198.0,48282.0( ) 2β:0021 .000920.00009681.01781.200920.0±=?±,即)00113.0,0071.0(- (4)首先检验X1对Y 是否有显著性影: 假设其约简模型为:15,2, 1,220 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得: 88137.484)(=R SSE 13215=-=R f 88357.56)(=F SSE 12315=-=R f 由[()()]() ()/R F F SSE R SSE F f f F SSE F f --= 求得检验统计量的值为: 3 .9012/88357.5688357 .5688137.4840=-= F 05.0))13,1(()(0000<>==>==F F P F F p p H 由此拒绝原假设,所以x2对Y 有显著影响。 ~ 同理检验X2对Y 是否有显著性影: 假设其约简模型为:15,2, 1,110 =++=i x y i i i εββ 由观测数据并利用proc reg 过程拟合此模型求得: 31872)(=R SSE 13215=-=R f 88357.56)(=F SSE 12315=-=R f 由[()()]() ()/R F F SSE R SSE F f f F SSE F f --= 求得检验统计量的值为: 12/88357.5688357.56318720-= F 05.0))13,1(()(0000<>==>==F F P F F p p H 由此拒绝原假设,所以x2对Y 有显著影响。

(专题精选)初中数学数据分析真题汇编及答案

(专题精选)初中数学数据分析真题汇编及答案 一、选择题 1.校团委组织开展“医助武汉捐款”活动,小慧所在的九年级(1)班共40名同学进行了捐款,已知该班同学捐款的平均金额为10元,二小慧捐款11元,下列说法错误的是( ) A.10元是该班同学捐款金额的平均水平B.班上比小慧捐款金额多的人数可能超过20人 C.班上捐款金额的中位数一定是10元D.班上捐款金额数据的众数不一定是10元【答案】C 【解析】 【分析】 根据平均数,中位数及众数的定义依次判断. 【详解】 ∵该班同学捐款的平均金额为10元, ∴10元是该班同学捐款金额的平均水平,故A正确; ∵九年级(1)班共40名同学进行了捐款,捐款的平均金额为10元, ∴班上比小慧捐款金额多的人数可能超过20人,故B正确; 班上捐款金额的中位数不一定是10元,故C错误; 班上捐款金额数据的众数不一定是10元,故D正确, 故选:C. 【点睛】 此题考查数据统计中的平均数,中位数及众数的定义,正确理解定义是解题的关键. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析 一、选择题 1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是() A.众数是110 B.方差是16 C.平均数是109.5 D.中位数是109 【答案】A 【解析】 【分析】 根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差. 【详解】 解:这组数据的众数是110,A正确; 1 6 x=×(110+106+109+111+108+110)=109,C错误; 21 S 6 = [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+ (110﹣109)2]=8 3 ,B错误; 中位数是109.5,D错误; 故选A. 【点睛】 本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键. 2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5,

则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是() A.平均数是6 B.中位数是6.5 C.众数是7 D.平均每周锻炼超过6小时的人数占该班人数的一半 【答案】A 【解析】 【分析】 根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否. 【详解】 A、平均数为1 50 ×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意; B、∵一共有50个数据, ∴按从小到大排列,第25,26个数据的平均值是中位数, ∴中位数是6.5,故此选项正确,不合题意; C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意; D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意; 故选A. 【点睛】 此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

最新初中数学数据分析经典测试题附答案

最新初中数学数据分析经典测试题附答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4, ∴a-2,b-2,c-2的方差=1 3 [(a-2-3)2+(b-2-3)2+(c--2-3)2] = 1 3 [(a-5)2+(b-5)2+(c-5)2]=4, 故选B.【点睛】

本题考查了平均数、方差,熟练掌握平均数以及方差的计算公式是解题的关键. 3.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 4.2022年将在北京﹣﹣张家口举办冬季奥运会,很多学校为此开设了相关的课程,下表记录了某校4名同学短道速滑成绩的平均数x和方差S2,根据表中数据,要选一名成绩好又发挥稳定的运动员参加比赛,应选择() A.队员1 B.队员2 C.队员3 D.队员4 【答案】B 【解析】 【分析】 根据方差的意义先比较出4名同学短道速滑成绩的稳定性,再根据平均数的意义即可求出答案.

数据分析技巧及练习题含答案

数据分析技巧及练习题含答案 一、选择题 1.下列说法正确的是() A.要调查人们对“低碳生活”的了解程度,宜采用普查方式 B.一组数据:3,4,4,6,8,5的众数和中位数都是3 C.必然事件的概率是100%,随机事件的概率是50% D.若甲组数据的方差S甲2=0.128,乙组数据的方差是S乙2=0.036,则乙组数据比甲组数据稳定 【答案】D 【解析】 A、由于涉及范围太广,故不宜采取普查方式,故A选项错误; B、数据3,4,4,6,8,5的众数是4,中位数是4.5,故B选项错误; C、必然事件的概率是100%,随机事件的概率是50%,故C选项错误; D、方差反映了一组数据的波动情况,方差越小数据越稳定,故D选项正确. 故选D. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4, ∴a-2,b-2,c-2的方差=1 3 [(a-2-3)2+(b-2-3)2+(c--2-3)2] = 1 3 [(a-5)2+(b-5)2+(c-5)2]=4, 故选B.【点睛】

第四章 数据分析(梅长林)习题答案

第四章 习题 一、习题4.4 解:(1)通过SAS 的proc princomp 过程对相关系数矩阵R 做主成分分析,得到个主成分的贡献率以及累计贡献率如表1所 表 1 从表中可以得到特征值向量为: ]0.2429 0.4515 0.5396 0.8091 2.8567[=*λ 第一主成分贡献率为:57.13 % 第二主成分贡献率为:16.18 % 第三主成分贡献率为: 10.79% 第四主成分贡献率为:9.03 % 第五主成分贡献率为:6.86 % 进一步得到各主成分分析结果如表2所示: 表 2

(2)由(1)中得到的结果可知前两个主成分的累积贡献率为73.32%,得到第一主成分、第二主成分为: 54212.044215.034702.024571.014636.01x x x x x Y ++++=* 55820.045257.032604.025093.012404.02x x x x x Y ++---=* 由于1*Y 是五个标准化指标的加权和,由此第一主成分更能代表三种化工股票和两种石油股票周反弹率的综合作用效果,1*Y 越大表示各股票的综合周反弹率越大。* 2Y 中关于三种化工股票的周反弹率系数为 负,而关于两种石油的系数为正,它放映了两种石油周反弹率和三种化工股票周反弹率的对比,* 2Y 的绝对值越大, 表明两种石油周反弹率和三种化工股票周反弹率的差距越大。 二、习题4.5 解:(1)利用SAS 的proc corr 过程求得相关系数矩阵如表3: 表 3 (2)从相关系数矩阵出发,通过proc princomp 过程对其进行主成分分析,表4给出了各主成分的贡献率以及累积贡献率:

最新初中数学数据分析经典测试题及答案

最新初中数学数据分析经典测试题及答案 一、选择题 1.某校男子足球队的年龄分布如图所示,则根据图中信息可知这些队员年龄的平均数,中位数分别是( ) A .15.5,15.5 B .15.5,15 C .15,15.5 D .15,15 【答案】D 【解析】 【分析】 【详解】 根据图中信息可知这些队员年龄的平均数为: 132146158163172181 268321 ?+?+?+?+?+?+++++=15岁, 该足球队共有队员2+6+8+3+2+1=22人, 则第11名和第12名的平均年龄即为年龄的中位数,即中位数为15岁, 故选D . 2.某射击运动员在训练中射击了10次,成绩如图所示: 下列结论不正确的是( ) A .众数是8 B .中位数是8 C .平均数是8.2 D .方差是1.2 【答案】D 【解析】 【分析】 首先根据图形数出各环数出现的次数,在进行计算众数、中位数、平均数、方差. 【详解】

根据图表可得10环的2次,9环的2次,8环的3次,7环的2次,6环的1次.所以可得 众数是8,中位数是8,平均数是102+92+83+72+61 =8.2 10 ????? 方差是 22222 2(108.2)2(98.2)3(88.2)2(78.2)(68.2) 1.56 10 ?-+?-+?-+?-+- = 故选D 【点睛】 本题主要考查统计的基本知识,关键在于众数、中位数、平均数和方差的概念.特别是方差的公式. 3.某青年排球队12名队员的年龄情况如下: 则12名队员的年龄() A.众数是20岁,中位数是19岁B.众数是19岁,中位数是19岁 C.众数是19岁,中位数是20.5岁D.众数是19岁,中位数是20岁 【答案】D 【解析】 【分析】 中位数是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数;众数是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个). 【详解】 解:在这一组数据中19岁是出现次数最多的,故众数是19岁;将这组数据从小到大的顺序排列后,处于中间位置的数是20岁,那么由中位数的定义可知,这组数据中的中位数是20岁.故选:D. 【点睛】 理解中位数和众数的定义是解题的关键. 4.2022年将在北京﹣﹣张家口举办冬季奥运会,很多学校为此开设了相关的课程,下表记录了某校4名同学短道速滑成绩的平均数x和方差S2,根据表中数据,要选一名成绩好又发挥稳定的运动员参加比赛,应选择()

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP 中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP 日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含 100 个结点的最小堆),并把100

电子商务数据分析试卷及答案3

《电子商务数据分析》试卷 班级: _______________ 姓名:_______________________ 一、填空题(共10 题,每题 1 分。) 1.单击生意参谋上方导航栏中的“ __________ ”超链接可进入实时直播版块,此功能会将店铺的实时数据、来源、榜单、访客等数据进行汇总显示。 2.要选定相邻的多张工作表,先单击所需的第一张工作表的标签,并按住____________ 键不放,然后单击要选定的最后一张工作表的标签即可。 3.选择单元格区域,录入相应的数据后,按_____________________ 键可将选择的每个单元格中录入相同数据。 4.进入生意参谋后,单击顶部导航栏中的“ ___________ ”版块即可配置竞争对手,并对竞店、竞品和竞争品牌进行分析。 5 .提高转化率是提高销售额最有效的途径,计算公式为: 6.外链出现的方式有直接链接和__________ 两种。 7.若要输入分数,则应在前面加上_____________________ 。 8.筛选是一种用于查找符合条件的数据的快速方法,Excel中有 ________ 和___________ 两种方法。 9. _____________ 是指利用各种电商平台和工具对数据的分析功能,直接观察出数据的发 展趋势,找出异常数据,对消费者进行分群等。 10.行业稳定性涉及 ________ 和极差两个指标。 二、单项选择题(共10 题,每题 1 分。) 1.用于收集市场信息并进行整理与分析,提出可行的市场推广方案,再跟据收集到的信息进行市场推广活动的效果评估,做好市场推广预算,控制活动成本,完善市场推广方案的数据分析岗位是()。 A.推广类岗位 B.客服类岗位 C.采编类岗位 D.美工类岗位 2.在Excel 中,已知某单元格的格式为000.00,值为23.785,则显示的内容为()。A.23.78 B.23.79 C.23.785 D.023.79 3.采用()定价策略可能会带来价格竞争。 A.基于成本的定价

数据分析课后习题答案

数据分析第一次上机实验报告 班级:信计091 学号:200900901023 姓名:李骏 习题一 1.1 某小学60位学生(11岁)的身高(单位:cm)数据如下: (数据略) (1)计算均值、方差、标准差、变异系数、偏度、峰度; (2)计算中位数,上、下四分位数,四分位极差,三均值; (3)做出直方图; (4)做出茎叶图; 解:(1)使用软件计算得到 变异系数=标准差/均值=5.08% (2)部分答案在解(1) 四分位极差=Q3-Q1=144.75-135=9.75 三均值=0.25*Q1+0.5*M+0.25*Q3=139.4375 (3)使用软件画图得到

(4)使用软件画图得到 身高 Stem-and-Leaf Plot Frequency Stem & Leaf 1.00 Extremes (=<120) 1.00 12 . 3 5.00 12 . 67889 7.00 13 . 1122244 18.00 13 . 555677777888899999 13.00 14 . 0112222223344 13.00 14 . 5566677778999 2.00 15 . 01 Stem width: 10.00 Each leaf: 1 case(s)

1.8 对20名中年人测量6个指标,其中3个生理指标:体重(x1)、腰围(x2)、脉搏(x3);3个训练指标:引体向上(x4)、直坐次数(x5)、跳跃次数(x6)。数据如下表 (表格略) (1)计算协方差矩阵,Pearson相关矩阵; (2)计算Spearman相关矩阵; (3)分析各指标间的相关性。 解: (1)使用软件得到下表

数据的统计与分析综合测试题(含答案)

综合测试题 一、选择题: 1.为筹备班级的初中毕业联欢会,班长对全班学生爱吃哪几种水果作了民意调查,决定最终买什么水果,下面的调查数据中最值得关注的是(). A.中位数 B.平均数 C.众数 D.加权平均数 2.为了了解某中学某班的睡眠情况,随机抽取该班10名学生,在一段时间里,每人平均每天的睡眠时间统计如下(单位:小时):6,8,8,7,7,9,10,7,6,9,由此估计该班多数学生每天的睡眠时间为() A.7小时 B.7.5小时 C.7.7小时 D.8小时 3.小明准备参加校运会的跳远比赛,下面是他近期六次跳远的成绩(单位:米):3.6,3.8, 4.2,4.0,3.8,4.0,那么这组数据的() A、众数是3.9米 B、中位数是3.8米 C、极差是0.6米 D、平均数是4.0米 4.小伟五次数学考试成绩分别为:86分、78分、80分、85分、92分,李老师想了解小伟数学学习变化情况,则李老师最关注小伟数学成绩的() A、平均数 B、众数 C、中位数 D、方差 5.已知一组数据为:4、5、5、5、6,其中平均数、中位数和众数的大小关系是()A、平均数>中位数>众数B、中位数<众数<平均数 C、众数=中位数=平均数 D、平均数<中位数<众数 6.如果一组数据6,x,2,4的平均数是3,那么x是(). A. 0 B.3 C.4 D. 2 7.某班一次英语测验的成绩如下:得100分的3人,得95分的6人,得90分的5人,得80分的2人,得70分的18人,得60分的6人,则该班这次英语测验成绩的众数是(). A.70分 B. 18人 C. 80分 D.10人 8.某校四个科技兴趣小组在“科技活动周”上交的作品数分别如下:10、10、x、8,已知这组数据的众数与平均数相等,则这组数据的中位数是() A.8 B. 12 C.9 D. 10 9.甲、乙两人在同样的条件下练习射击,每人打5发子弹,命中环数如下: 甲:6,8,9,9,8 乙:10,7,7,7,9 则两人射击成绩谁更稳定(). A.甲 B.乙 C.一样稳定 D.无法确定 10.若数据的平均数为m,2,5,7,1,4,n则的平均数为4,则m、n的平均数为()A、7.5 B、5.5 C、2.5 D、4.5

数据分析(梅长林)第1章习 题答案

第1章 习 题 一、习题1.1 解:(1)利用题目中的数据,通过SAS 系统proc univariate 过程计算得到: 139.0=x 7.06387S = 49.898312=S 0.142众数= 51.0g 1-= 08192.5=CV 126129.0g 2-=由得到的数据特征可知道,偏度为负,所以呈做偏态,峰度为负,所以均值两侧的极端值较少。 (2) 139.0=M 31.0=R 0.135Q 1= 5.144Q 3= 5.9R 131=-=Q Q 375.1394 1 2141M 31=++= ∧ Q M Q (3) 通过SAS 系统proc capability 得到直方图,并拟合正态分布曲线:

(4) 通过SAS 系统proc univariate 可以画出茎叶图,从茎叶图可以看出数据大致呈对称分布,由于所给数据都是整数,所以叶所代表的小位数都是0。 (5) 通过SAS 系统proc univariate 过程计算得到: 0.971571W 0= 00()H p P W W =≤= 0.1741 取0.05=α,因α>=0.1742p ,故不能拒绝0H ,认为样本来自正态总体分布。 通过画QQ图和经验分布曲线和理论分布函数曲线,从图中可以看出QQ图近似的在一条直线上,经验分布曲线的拟合程度也相当好,所以可以进一步说明此样本来自正态总体分布。

二、习题1.2 7.8574027=x 1.62568785 S = 2.642860982=S 0.13721437g 1= 20.6898884=CV -1.4238025g 2= 由得到的数据特征可知道,偏度为正,所以呈右偏态,峰度为负,所以均值两侧的极端值较少。 (2)

电子商务数据分析试卷及答案

《电子商务数据分析》试卷 班级:_______________ 姓名:______________________ 一、填空题(共10 题,每题 1 分。) 1.分析市场容量大小可以借助_________ 和_________ 两个工具来实现。 2._________ 是指一定时期内,每一位消费者购买商品的平均金额,也就是平均交易金额。3.按_________ 键可将工作表中的由公式计算的数值用公式表示。 4.函数的构成分为_________ 和_________ 两个部分。 5.RFM模型是描述消费者价值状况的一种工具,包含3个重要要素: _________________ 、_________ 和消费金额。 6.输入公式的方法与输入文字型数据类似,不同的是它必须以___________ 作为开头,然后才是公式的表达式。 7.数据分析处理项目完成后,一般要撰写工作总结和_____________________ 。 8.________ 是指在一定时间段内有销售的商品数与总库存商品数之比。 9.若要输入分数,则应在前面加上____________________ 。 10.Excel 中的求和函数是________ 。 二、单项选择题(共10 题,每题 1 分。) 1.在Excel 操作中,在“记录单”对话框右上角显示“4/20”,则可看出该数据表共有()条记录。 A.4 B.20 C.16 D.24 2.在对数字格式进行修改时,如出现"#######" ,其原因为()。 A.格式语法错误 B.单元格长度不够 C.系统出现错误 D.以上答案都不正确 3.在Excel 中,在打印学生成绩单时,对不及格的成绩用醒目的方式表示 如用红色表示(等),当要处理大量的学生成绩时,利用()命令最为方便。A.查找 B.条件格式 C.数据筛选 D.定位

数据分析(梅长林)习题题答案

第2章 习 题 一、习题 (1)回归模型 15,2,1,22110 i x x y i i i i 调用proc reg : 由此输出得到的回归方程为: 2100920.049600.045261.3X X y 由最后一列可以看出,使用化妆品的人数X1和月收入X2对化妆品的销售数量有着显着影响。46521.30 可以理解为该化妆品作为一种 必需品每个月的销售量。当购买该化妆品的人数固定时,月收入没增加一个一个单位,改化妆品的销售数量将增加个单位。同理,当购买该化妆品的人均月收入固定时,购买该化妆品的人数每增加一千人,该化妆品的销售数量将增加个单位。 p n SSE 2 是2 的无偏估计,所以2 的估计值是. (2)调用 由此可到线性回归关系显着性检验: 0至少有一个为0:2,1:1210 H H

的统计量/(1)/()SSR p MSR F SSE n p MSE 的观测值47.56790 F ,检验的p 值 0001.0)(000 F F p p H 另外9989.053902 53845 2 SST SSR R ,2R 描述了由自由变量的线性关系函数值所能反映的Y 的总变化量的比例。2R 越大,表明线性关系越明显。这些结果均表明Y 与X1,X2之间的回归关系高度显着。 (3)若置信水平05.0 ,由17881.2)12(975.0 t ,利用参数估计值得 到21,0, 的置信区间分别为: 对,0 2942.54516.343065.21781.245216.3 ,即)7458.8,8426.1( ) 对1 :01318.049600.000605.01781.249600.0 ,即)50198.0,48282.0( 2 :0021 .000920.00009681.01781.200920.0 ,即)00113.0,0071.0( (4)首先检验X1对Y 是否有显着性影: 假设其约简模型为:15,2, 1,220 i x y i i i 由观测数据并利用proc reg 过程拟合此模型求得: 88137.484)( R SSE 13215 R f 88357.56)( F SSE 12315 R f 由[()()]() ()/R F F SSE R SSE F f f F SSE F f 求得检验统计量的值为: 3 .9012/88357.5688357 .5688137.4840 F 05.0))13,1(()(0000 F F P F F p p H 由此拒绝原假设,所以x2对Y 有显着影响。 同理检验X2对Y 是否有显着性影: 假设其约简模型为:15,2, 1,110 i x y i i i 由观测数据并利用proc reg 过程拟合此模型求得: 31872)( R SSE 13215 R f 88357.56)( F SSE 12315 R f 由[()()]() ()/R F F SSE R SSE F f f F SSE F f 求得检验统计量的值为: 12/88357.5688357.56318720 F 05.0))13,1(()(0000 F F P F F p p H 由此拒绝原假设,所以x2对Y 有显着影响。 检验X1、x2交叉项对Y 是否有显着性影:

相关文档
相关文档 最新文档