文档库 最新最全的文档下载
当前位置:文档库 › 数据的分析测试题

数据的分析测试题

数据的分析测试题
数据的分析测试题

第4题图

4元3元

2元③②①数据的分析测试题

一、 选择题

1.某班七个兴趣小组人数分别为:3,3,4,4,5,5,6,则这组数据的中位数是( ) A. 2 B. 4 C. 4.5 D. 5

2.数据2、4、4、5、5、3、3、4的众数是( )

A. 2

B. 3

C. 4

D. 5

3.已知样本x 1,x 2,x 3,x 4的平均数是2,则x 1+3,x 2+3,x 3+3,x 4+3的平均数是( )

A. 2

B. 2.75

C. 3

D. 5

4.学校食堂有2元,3元,4元三种价格的饭菜供师生选择(每人限购一份).如图是某月的销售情况统计图,则该校师生购买饭菜费用的平均数和众数是( ) A. 2.95元,3元 B. 3元,3元

C. 3元,4元

D. 2.95元,4元 5.如果a 、b 、c 的中位数与众数都是5,平均数 是4,那么a 可能是( )

A. 2

B. 3

C. 4

D. 5

6.已知甲、乙两组数据的平均数相等,若甲组数据 的方差

=0.055,乙组数据的方差

=0.105,则( )

A.甲组数据比乙组数据波动大

B. 乙组数据比甲组数据波动大

C.甲组数据与乙组数据的波动一样大

D. 甲、乙两组数据的数据波动不能比较 7.样本数据3,6,a ,4,2的平均数是4,则这个样本的方差是( )

A. 2

B.

C. 3

D. 2

8.某同学5次上学途中所花的时间(单位:分钟)分别为x ,y ,10,11,9,已知这组

数据的平均数为10,方差为2,则的值为( )

A. 1

B. 2

C. 3

D. 4

9.若样本x 1+1,x 2+1,x 3+1,…,x n +1的平均数为18,方差为2,则对于样本x 1+2,x 2+2,x 3+2,…,x n +2,下列结论正确的是( ) A.平均数为18,方差为2 B.平均数为19,方差为3

第18题图

分数/分

C.平均数为19,方差为2

D.平均数为20,方差为4

10.小波同学将某班级毕业升学体育测试成绩(满分30分)统计整理,得到下表,则

下列

说法

错误

C.该组数据的中位数是24分歧

D.该组数据的极差是8分

11.为了解某校计算机考试情况,抽取了50名学生的计算机考试进行统计,统计结果如下表所示,则50名学生计算机考试成绩的众数、中位数分别为( )

A.20,16

B.16,20

C.20,12

D.16,12

12.如果将一组数据中的每一个数都乘以一个非零常数,那么该组数据的( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均数不变,方差改变 D.平均数不变,方差不变 二、填空题

13.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据

的平均数是 .

14.若x 1,x 2,x 3的平均数为7,则x 1+3,x 2+2,x 3+4的平均数为 . 15.一组数据1,6,x ,5,9的平均数是5,那么这组数据的中位数是 .

16. 五个数1,2,4,5,a 的平均数是3,则a = ,这五个数的方差为 . 17.若10个数的平均数是3,极差是4,则将这10个数都扩大10倍,则这组数据的平

均数是 ,极差是 .

18.如图是某同学6次数学测验成绩统计表,则该同学6次成绩的中位数是 .

19. 已知数据3x 1,3x 2,3x 3,…,3x n 的方差为3,则一组新数据6x 1,6x 2,…,6x n 的

小时()7

方差是 .

20.已知样本99,101,102,x ,y (x ≤y )的平均数为100,

方差为2,则x = ,y = . 三、 解答题

21.计算题

(1)若1,2,3,a 的平均数是3;4,5,a ,b 的平均数是5.

求:0,1,2,3,4,a ,b 的方差是多少?

(2)有七个数由小到大依次排列,其平均数是38,如果这组数的前四位数的平均数

是33,后四个数的平均数是42. 求它们的中位数.

22.如图是根据某班40名同学一周的体育锻炼情况绘制的条形统计图.那么该班学生每

周锻炼时间的中位数是多少?

23.如图是某中学乒乓球队队员年龄分布的条形图. ⑴计算这些队员的平均年龄; ⑵大多数队员的年龄是多少?

⑶中间的队员的年龄是多

36次甲乙

24.甲、乙两人在相同的条件下各射靶5次,每次射靶的成绩情况如图所示:

⑴ 你根

25.为了普及环保知识,增强环保意识,某中学组织了环保知识竞赛,初中三个年级根

据初赛成绩分别选出了10名同学参加决赛,这些选手的决赛成绩(满分为100分)

⑵请从以下两个不

同的角度对三个年级

的决赛成绩进行分析:

①从平均数和众数

相结合看(分析哪个年级成绩好些);

②从平均数和中位数相结合看(分析哪个年级成绩好些)

③如果在每个年级分别选出3人参加决赛,你认为哪个年级的实力更强一些?并说

明理由.

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为 。 2.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据的平均数是( ) A .12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同,那么这组数据的中位数是 ( ) A. 6 B. 8 C.7 D. 10 4.某校在一次考试中,甲乙两班学生的数学成绩统计如下: 请根据表格提供的信息回答下列问题: (1)甲班众数为 分,乙班众数为 分,从众数看成绩较好的是 班; (2)甲班的中位数是 分,乙班的中位数是 分; (3)若成绩在80分以上为优秀,则成绩较好的是 班;、 (4)甲班的平均成绩是 分,乙班的平均成绩是 分,从平均分看成绩较好的是 班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中, 数字10和20分别表示的意义可以是( ) A .数据的个数和方差 B .平均数和数据的个数 C .数据的个数和平均数 D .数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数,那么该数组的 ( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均输不变,方差改变 D.平均数不变,方差不变 7..已知7,4,3,,321x x x 的平均数是6,则_____________321=++x x x . 8..已知一组数据-3,-2,1,3,6,x 的中位数为1,则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2,方差是 3 1 ,那么另一组数据3x 1-2,3x 2-2,3x 3-2, 3x 4-2,3x 5-2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数,下列说法中正确的是( ) A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对 分数 50 60 70 80 90 100 人数 甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

人教版八年级下册数学数据的分析单元综合检测

数据的分析单元综合检测(含解析)长郡中学史李东 (时间45分钟,满分100分) 一、选择题(每小题3分,共24分) 1.学校生物兴趣小组11人到校外采集标本,其中有2人每人采集6件,4人每人采集3件,5人每人采集4件,则这个兴趣小组平均每人采集标本( ).A.3件 B.4件 C.5件 D.6件 2.一位经销商计划进一批运动鞋,他到眉山的一所学校里对初二的100名男生的鞋号进行了调查,经销商最感兴趣的是这组鞋号的( ).A.中位数 B.平均数C.方差 D.众数 3.若数据2,x,4,8的平均数是4,则这组数据的中位数和众数是( ).A.3和2 B.2和3 C.2和2 D.2和4 4.在一次青年歌手大奖赛上,七位评委为某位歌手打出的分数如下: 9.5,9.4,9.6,9.9,9.3,9.7,9.0,去掉一个最高分和一个最低分后,所剩数据的平均数是( ). A.9.2 B.9.3 C.9.4 D.9.5 5.某市举行中学生“奋发有为建小康”演讲比赛,某同学将选手们的得分情况进行统计,绘成如图所示的得分成绩统计图. 考虑下列四个论断: ①众数为6分;②8名选手的成绩高于8分;③中位数是8分;④得6分和9分的人数一样多. 其中正确的判断共有( ). A.1个 B.2个 C.3个 D.4个 6.我省某市2011年4月1日至7日每天的降水概率如下表:

A.30%,30% B.30%,10% C.10%,30% D.10%,40% 7.一个样本有10个数据,各数据与样本平均数的差依次为:-4,-2,5,4,-1,0,2,3,-2,-5,那么这个样本的极差和方差分别是( ).A.10,10 B.10,10.4 C.10.4,10.4 D.0,10.4 8.下列说法中正确的个数是( ). (1)只要一组数据中新添入一个数字,那么平均数就一定会跟着变动; (2)只要一组数据中有一个数据变动,那么中位数就一定会跟着变动; (3)已知两组数据各自的平均数,求由这两组数据组成的新数据的平数,就是将原来的两组数据的平均数再平均一下; (4)河水的平均深度为2.5 m,一个身高1.5 m但不会游泳的人下水后肯定会淹死. A.0 B.1 C.2 D.3 二、填空题(每小题4分,共20分) 9.一组数据5,-2,3,x,3,-2,若每个数据都是这组数据的众数,则这组数据的平均数是______. 10.老师在计算学期总平均分的时候按照如下标准:作业占10%,测验占30%,期中考试占25%,期末考试占35%.小丽和小明的成绩如下表所示,则小丽的总平均分是__________,小明的平均分是__________. 11.由图可知,全年湖水的最低温度是__________,温差最大的月份是____________.

数据分析笔试题

数据分析笔试题 一、编程题(每小题20分)(四道题任意选择其中三道) 有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。(A、B 分别代表1—9中任意的一个数字) 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复) 二、逻辑思维题(每小题10分)须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%, 另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少? 2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B 耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么? 4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

数据的分析全章测试题含答案

第二十章数据的分析 测试1 平均数(一) 学习要求 了解加权平均数的意义和求法,会求实际问题中一组数据的平均数. 课堂学习检测 一、填空题 1.一组数据中有3个7,4个11和3个9,那么它们的平均数是______. 2.某组学生进行“引体向上”测试,有2名学生做了8次,其余4名学生分别做了10次、7次、6次、9次,那么这组学生的平均成绩为______次,在平均成绩之上的有______人. 3.某校一次歌咏比赛中,7位评委给8年级(1)班的歌曲打分如下:9.65,9.70,9.68,9.75,9.72, 9.65,9.78,去掉一个最高分,再去掉一个最低 分,计算平均分为该班最后得分,则8年级(1)班最后得分是______分. 二、选择题 4.如果数据2,3,x,4的平均数是3,那么x等于( ). (A)2 (B)3 (C)3.5 (D)4 5.某居民大院月底统计用电情况,其中3户用电45

度,5户用电50度,6户用电42度,则每户平均 用电( ). (A)41度(B)42度(C)45.5度 (D)46度 三、解答题 6.甲、乙两支仪仗队队员的身高(单位:厘米)如下:甲队:178 177 179 178 177 178 177 179 178 179; 乙队:178 179 176 178 180 178 176 178 177 180. (1)将下表填完整: (2)甲队队员身高的平均数为______厘米,乙队队员身高的平均数为______厘米; (3)你认为哪支仪仗队更为整齐?简要说明理由. 7 的比例来计算,那么小明和小颖的学期总评成绩谁较高? 综合、运用、诊断 一、填空题 8.某公园对游园人数进行了10天统计,结果有4天是每天900人游园,有2天是每天1100人游园,有4天是每天800人游园,那么这10天平均每天游园人数是______人.

2016年数据分析面试常见问题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+ N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map 等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。 4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个

数据分析测试题

数据分析测试题 TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-

数据分析测试题 一、选择题(每小题3分,共30分) 1.有19位同学参加歌咏比赛,所得的分数互不相同,取前10位同学进入决赛.某同学知道自己的分数后,要判断自己能否进入决赛,他只需知道这19位同学成绩的() A.平均数 B.中位数 C.众数 D.方差 2.某特警部队为了选拔“神枪手”,举行了1 000米射击比赛,最后由甲、乙两名战士进入决赛,在相同条件下,两人各射靶10次,经过统计计算,甲、乙两名战士的总成绩都是环,甲的方差是,乙的方差是,则下列说法中,正确的是() A.甲的成绩比乙的成绩稳定 B.乙的成绩比甲的成绩稳定 C.甲、乙两人成绩的稳定性相同 D.无法确定谁的成绩更稳定 3.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为 () 4.综合实践活动中,同学们做泥塑工艺制作.小明将活动组各同学的作品完成情况绘成了下面的条形统计图.根据图表,我们可以知道平均每个学生完成作品()件. 5.某公司员工的月工资如下表: A. B.

C. D. 6.下列说法中正确的有() ①描述一组数据的平均数只有一个; ②描述一组数据的中位数只有一个; ③描述一组数据的众数只有一个; ④描述一组数据的平均数、中位数和众数都一定是这组数据里的数; ⑤一组数据中的一个数大小发生了变化,一定会影响这组数据的平均数、众数和中位数. 个个个个 7.某同学在本学期的前四次数学测验中得分依次是95,82,76,88,马上要进行第五次测验了,他希望五次成绩的平均分能达到85分,那么这次测验他应得()分. 8.样本方差的计算公式中,数字20和30分别表示样本的() A.众数、中位数 B.方差、偏差 C.数据个数、平均数 D.数据个数、中位数 9.某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为15,那么所求出的平均数与实际平均数的差是() 10.某赛季甲、乙两名篮球运动员12场比赛得分情况用图表示如下: 对这两名运动员的成绩进行比较,下列四个结论中,不正确 ...的是() A.甲运动员得分的方差大于乙运动员得分的方差 B.甲运动员得分的中位数大于乙运动员得分的中位数 C.甲运动员得分的平均数大于乙运动员得分的平均数 D.甲运动员的成绩比乙运动员的成绩稳定 二、填空题(每小题3分,共24分) 11.某果园有果树200棵,从中随机抽取5棵,每棵果树的产量如下:(单位: kg) 98 102 97 103 105 这棵果树的平均产量为 kg,估计这棵果树的总产量为 kg.

最新数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

20、第二十章《数据的分析》单元测试题(含答案)-

第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为2m的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: 请你帮采购小组出谋划策,应选购() A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗 3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是()A.50 B.52 C.48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,8 C.8.5,8 D.8.5,9 5 那么,8月份这100 A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和0.5 C.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8 某同学根据上表分析得出如下结论: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小 上述结论中正确的是() A.(1)(2)(3)B.(1)(2)C.(1)(3)D.(2)(3) 9.某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%?、?30%的比例计入学期总评成绩,90分以上为优秀.甲、乙、?丙三人的各项成绩如下表(单位:分),学期总评成绩优秀的是()

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析 一、选择题 1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是() A.众数是110 B.方差是16 C.平均数是109.5 D.中位数是109 【答案】A 【解析】 【分析】 根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差. 【详解】 解:这组数据的众数是110,A正确; 1 6 x=×(110+106+109+111+108+110)=109,C错误; 21 S 6 = [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+ (110﹣109)2]=8 3 ,B错误; 中位数是109.5,D错误; 故选A. 【点睛】 本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键. 2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5,

则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是() A.平均数是6 B.中位数是6.5 C.众数是7 D.平均每周锻炼超过6小时的人数占该班人数的一半 【答案】A 【解析】 【分析】 根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否. 【详解】 A、平均数为1 50 ×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意; B、∵一共有50个数据, ∴按从小到大排列,第25,26个数据的平均值是中位数, ∴中位数是6.5,故此选项正确,不合题意; C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意; D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意; 故选A. 【点睛】 此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

第二十章《数据分析》单元测试卷

第二十章《数据分析》单元测试卷 (检测范围:全章综合 时间:90分钟 分值:120分) 一.反复比较,择优录取。(每题3分,共30分。) 1.数据5,7,8,8,9的众数是( ) A .5 B .7 C .8 D .9、 2.已知一组数据:-3,6,2,-1,0,4则这组数据的中位数是( ) A .1 B . 3 4 C .0 D .2 则这个小组成员年龄的平均数是( ) A .15 B .13 C .13 D .14 4.已知3,5,7,x 1,x 2的平均数是7,那么x 1,x 2的平均数为( ) A .20 B .10 C .15 D .4 5.数学老师对黄华的8次单元考试成绩进行统计分析,要判断黄华的数学成绩是否稳定,老师需要知道黄华这8次数学成绩的( ) A .平均数 B .中位数 C .众数 D .方差 6.为了解某班学生每天使用零花钱的情况,随机调查了15名同学,结果 A .众数是5元 B .平均数是2.5元 C .极差是4元 D .中位数是3元 7.在某校“我的中国梦”演讲比赛中,有9名学生参加比赛,他们决赛的最终成绩各不相同,其中的一名学生要想知道自己能否进入前5名,不仅要了解自己的成绩,还要了解这9名学生成绩的( ) A .众数 B .方差 C .平均数 D .中位数 8.某市测得一周PM2.5的日均值(单位:微克/立方米)如下:31,30,34,35,36,34,31,对这组数据下列说法正确的是( ) A .众数是35 B .中位数是34 C .平均数是35 D .方差是6 9.为了比较甲乙两种水稻秧苗谁出苗更整齐,每种秧苗各随机抽取50株,分别量出每株长度,发现两组秧苗的平均长度一样,甲、乙的方差分别是3.5、10.9,则下列说法正确的是( ) A .甲秧苗出苗更整齐 B .乙秧苗出苗更整齐 C .甲、乙出苗一样整齐 D .无法确定甲、乙出苗谁更整齐 10.多多班长统计去年1~8月“书香校园”活动中全班同学的课外阅读数量(单位:本),绘制了如图折线统计图,下列说法正确的是( ) A .极差是47 B .众数是42 C .中位数是58 D .每月阅读数量超过40的有4个月 二.认真思考,仔细填空。(每题3分,共30分。) 11.一组数据:10,5,15,5,20,则这组数据的平均数是 ,中位数是 . 12. 一名射击爱好者5次射击的中靶环数如下:6,7,9,8,9.这5个数据的众数是 . 13. 学校以德智体三项成绩来计算学生的平均成绩,三项成绩的比例依次为1:3:1,小明德智体三项成绩分别为96分,95分,94分,则小明的平均成绩为 分. 14. 一组数据1,4,6,x 的中位数和平均数相等,则x 的值是 . 15. 某校抽样调查了七年级学生每天体育锻炼时间,整理数据后制成了如 则这个样本的中位数在第 组. 16. 已知一组数据:-1,x ,0,1,-2的平均数是0,那么这组数据的方差是 . 17. 10名九年级学生的体重分别是41,48,50,53,49,50,53,67,51,53(单位:kg ).这组数据的极差是 . 18. 某校对甲、乙两名跳高运动员的近期跳高成绩进行统计分析,结果如下:x 甲=1.69m ,x 乙=1.69m ,2 S 甲=0.0006,2 S 乙=0.0315,则这两名运动员中的 的成绩更稳定. 19. 某校开展“节约每一滴水”活动,为了了解开展活动一个月以来节约用水的情况,从八年级的400名同学中选取20名同学统计了各自家庭一个 请你估计这400名同学的家庭一个月节约用水的总量大约是 . 20. 已知一组数据:x 1,x 2,x 3,…x n 的平均数是2,方差是5,则另一组数据:3x 1,3x 2,3x 3,…3x n 的方差是 . 三.看清题目,细心解答。(共60分。) 21. (8分)某公司欲招聘一名工作人员,对甲、乙两位应聘者进行面试和笔试,他们的成绩(百分制)如下表所示. 若公司分别赋予面试成绩和笔试成绩6和4的权,计算甲、乙两人各自的平均成绩,谁将被录取? 22. (10分)甲、乙两位运动员进行射击比赛,各射击了10次,每次命中环数如下: 甲:8,6,7,8,9,10,6,5,4,7 乙:7,9,8,5,6,7, 7,6,7,8 (1)甲、乙运动员的平均成绩分别是多少? (2)这十次比赛成绩的方差分别是多少? (3)试分析这两名运动员的射击成绩.

电子商务数据分析试卷及答案3

《电子商务数据分析》试卷 班级: _______________ 姓名:_______________________ 一、填空题(共10 题,每题 1 分。) 1.单击生意参谋上方导航栏中的“ __________ ”超链接可进入实时直播版块,此功能会将店铺的实时数据、来源、榜单、访客等数据进行汇总显示。 2.要选定相邻的多张工作表,先单击所需的第一张工作表的标签,并按住____________ 键不放,然后单击要选定的最后一张工作表的标签即可。 3.选择单元格区域,录入相应的数据后,按_____________________ 键可将选择的每个单元格中录入相同数据。 4.进入生意参谋后,单击顶部导航栏中的“ ___________ ”版块即可配置竞争对手,并对竞店、竞品和竞争品牌进行分析。 5 .提高转化率是提高销售额最有效的途径,计算公式为: 6.外链出现的方式有直接链接和__________ 两种。 7.若要输入分数,则应在前面加上_____________________ 。 8.筛选是一种用于查找符合条件的数据的快速方法,Excel中有 ________ 和___________ 两种方法。 9. _____________ 是指利用各种电商平台和工具对数据的分析功能,直接观察出数据的发 展趋势,找出异常数据,对消费者进行分群等。 10.行业稳定性涉及 ________ 和极差两个指标。 二、单项选择题(共10 题,每题 1 分。) 1.用于收集市场信息并进行整理与分析,提出可行的市场推广方案,再跟据收集到的信息进行市场推广活动的效果评估,做好市场推广预算,控制活动成本,完善市场推广方案的数据分析岗位是()。 A.推广类岗位 B.客服类岗位 C.采编类岗位 D.美工类岗位 2.在Excel 中,已知某单元格的格式为000.00,值为23.785,则显示的内容为()。A.23.78 B.23.79 C.23.785 D.023.79 3.采用()定价策略可能会带来价格竞争。 A.基于成本的定价

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、 单选题 分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复;如果小甲上个月总共有100个咨询量,那么他当时的回复率是多少? A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析:"参考章节:店铺客服转化率诊断本题考点:客服回复率答案解析:客服回复率是指客服对于咨询他的客户进行回复的百分占比,如果有100个咨询量,其中12个没有回复,那么回复率就是(10 0-12)/100=88%" 2、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去? A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、 单选题 分值: 1 小明是吹风机类目的商家,他想做类目趋势对比表,为此他需要收集近几年的相关数据作为参考? A: 近5年 B: 近4年 C: 近3年 D: 近2年 答案解析:参考章节:品类罗盘—商品年度规划(一)本题考点:市场趋势表格制作试题解析:在大数据的背景下,我们做类目数据对比时,会去抓取近3年子类目数据为参考维度。 4、 单选题 分值: 1 小明店铺的无线首页,模块1跳转店内爆款,每天点击量200,模块2跳转店内新品,每天点击量80;因为新品数据良好,有次爆款潜力,小明决定交换模块1和模块2跳转商品! A: 正确 B: 错误 答案解析:参考章节:页面效果如何提升?本题考点:页面数据分析答案解析:根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、 单选题 分值: 1 为了尽量减少花费,小李想选择免费方法实现新品破0 ;以下那种破0 方法不是免费的?

数据的分析综合测试题

数据的分析综合测试题 一、精心选一选 1.若一组数据1,2,3,x 的平均数是4,则x 等于( ) A .10 B .9 C .8 D .7 2.一组数据3,4,5,5,6,8的极差是( ) A .2 B .3 C .4 D .5 3.五箱苹果的质量(单位:千克)分别为:18,20,21,22,19.这五箱苹果质量的平均数和中位数分别为( ) A .19和20 B .20和19 C .20和20 D .20和21 4.已知一组数据:12,5,9,5,14,下列说法不正确...的是 ( ) A.平均数是9 B.中位数是9 C. 众数是5 D.极差是5 5. 八年级有11位学生参加第24届“希望杯”全国数学邀请赛的初赛,他们的成绩各不相同,取前6位学生进入决赛.小明知道自己的成绩,他想知道自己能否进入决赛,还需要知道这11位学生成绩的( ) A.最高分数 B.众数 C.中位数 D.平均数 6. 已知甲、乙两组数据的平均数都是5,甲组数据的方差12 1 2 = 甲s ,乙组数据的方差10 1 2=乙 s ,则( ) A .甲组数据比乙组数据的波动大 B .乙组数据比甲组数据的波动大 C .甲组数据与乙组数据的波动一样大 D .甲、乙两组数据的波动大小无法比较 7. 某校A ,B 两队名参加篮球比赛的10队员的身高(单位:cm )如下表所示: 设两队队员身高的平均数分别为B A x x ,,方差分别为s A 2,s B 2,则下列选项正确的是( ) A.22,B A B A S S x x >= B.22,B A B A S S x x << C.22,B A B A S S x x >> D.2 2,B A B A S S x x <= 二、耐心填一填 8. 数据1,2,x ,-1,-2的平均数是1,则这组数据的中位数是 . 9. 某班5名学生的一次数学考试成绩(单位:分)如下:50,60,70,80,90, 则这5名学生这次数学考试的平均分是 分. 则该班女生身高的众数是 . 11.一组数据1,2,a 的平均数为2,另一组数据1-,a ,1,2,b 的唯一众数为 1-,则数据1-,a ,1,2,b 的中位数为_____________. 12.为了从甲、乙、丙三位同学中选派一位同学参加环保知识竞赛,老师对他们的五 次环保知识测验成绩进行了统计,他们的平均分均为85分,方差分别为2 18s =甲,2 12s =乙,223s =丙 .根据统计结果,应派去参加竞赛的同学是____________. 13.一组数据为1,3,2,2,a b c ,,.已知这组数据的众数为3,平均数为2,那 么这组数据的方差为__________. 三、细心做一做 14.在我市开展的“好书伴我成长”读书活动中,某中学为了解八年级300名学生的读书情况,随机调查了八年级50名学生读书的册数,统计数据如下表所示: (1)求所调查的这50个数据的平均数. (2)根据所调查的数据,估计该校八年级300名学生在这次活动中读书多于2册的人数.

数据分析经典测试题含解析

数据分析经典测试题含解析 一、选择题 1.某校男子足球队的年龄分布如图所示,则根据图中信息可知这些队员年龄的平均数,中位数分别是( ) A .15.5,15.5 B .15.5,15 C .15,15.5 D .15,15 【答案】D 【解析】 【分析】 【详解】 根据图中信息可知这些队员年龄的平均数为: 132146158163172181 268321 ?+?+?+?+?+?+++++=15岁, 该足球队共有队员2+6+8+3+2+1=22人, 则第11名和第12名的平均年龄即为年龄的中位数,即中位数为15岁, 故选D . 2.某实验学校女子排球队12名队员的年龄分布如图所示,则这12名队员的年龄的众数、平均数分别是( ) A .15岁,14岁 B .15岁,15岁 C .15岁,156 岁 D .14岁,15岁 【答案】A 【解析】 【分析】 根据众数、平均数的定义进行计算即即可. 【详解】

观察图表可知:人数最多的是5人,年龄是15岁,故众数是15. 这12名队员的年龄的平均数是:123131142155161 1412 ?+?+?+?+?= 故选:A 【点睛】 本题主要考查众数、平均数,熟练掌握众数、平均数的定义是解题的关键. 3.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示: 决赛成绩/分 95 90 85 80 人数 4 6 8 2 那么20名学生决赛成绩的众数和中位数分别是( ) A .85,90 B .85,87.5 C .90,85 D .95,90 【答案】B 【解析】 试题解析:85分的有8人,人数最多,故众数为85分; 处于中间位置的数为第10、11两个数, 为85分,90分,中位数为87.5分. 故选B . 考点:1.众数;2.中位数 4.在某次训练中,甲、乙两名射击运动员各射击10发子弹的成绩统计图如图所示,对于 本次训练,有如下结论:①22 s s >甲乙;②22 s s <甲乙;③甲的射击成绩比乙稳定;④乙的射 击成绩比甲稳定.由统计图可知正确的结论是( ) A .①③ B .①④ C .②③ D .②④ 【答案】C 【解析】 【分析】 从折线图中得出甲乙的射击成绩,再利用方差的公式计算,即可得出答案.

数据分析试卷

一、填空题(2×20) 1.方程显著性检验是检验-----对-----的影响是否显著;参数显著性检验是检验---对----的影响是否显著。 2.选择“最优”回归方程的方法有--------、-------、-------等。 3.Spss for windows中主成分分析由-----------过程实现。 4.因子分析把每个原始变量分解为两部分因素:一部分为-------,另一部分为-----。 5.在快速聚类过程中,数据的标准化可通过------过程来实现,在分层聚类中,数据的标准化可通过------选项来实现。 6.Q型聚类是指对--- -进行聚类,R型聚类是指对-- --进行聚类。 7.凝聚点是指-----------------------------。 8.因子分析中a ij的统计意义是---------------。 9.取消一个自变量后回归平方和减少的数值,称为因变量对这个自变量的-------。 10.按变量相关程度来分,在-------和---------情况下主成分分析效果较好。 11.在以曲线划分的判别法中通常采用--------距离。 二、简答(3×10) 1.简述主成分分析、因子分析的基本思想,以及两者的的联系和差异。 2.简述方差分析的基本原理及应用条件。 3. 简述聚类分析的基本思想,Q型聚类分析与R型聚类分析的区别,系统聚类法的基本步骤。 三、计算题(12+8+10) 1.现收集了财政收入(Y)与工业总产值(X1)、建筑业总产值(X2)1978—1990年数据,经分析回归方程为 Y=524.536+0.05265X1+0.454X2 T值(7.518) (2.695) (3.214) R2=.0.990 F=246.240 (1) 对所求得的方程作显著性检验,在A=0.05时,你的结论是什么? (2) 对各回归系数作显著性检验. (A=0.05) (3) 说明回归方程的经济意义. (4) 求出回归方程的复相关系数. (5) 若因变量Y与自变量X1,X2的偏相关系数分别为r y1;2=0.64916,r y2;1=0.71188,说明了什么? (6) 若1991年工业总产值为24502亿元,建筑业总产值为2980亿元,试求1991年财政收入的预测值与 预测区间.(1-A=95%,随机误差项的标准差δ=121.85) 有关临界值:F0.05(2,10)=4.1,F0.05(2,13)=3.8,t0.05(10)=1.812 t0.025(10)=2.228 2.下表是进行因子分析的结果,试根据下列信息计算变量共同度h i2及公共因子F j的方差贡献,并说明其统计意义.

第二十章 数据分析综合测试题-学而思培优

第二十章综合测试题 (满分100分,时间90分钟) 1.在校冬季运动会上,有15名选手参加了200米预赛,取前八名进入决赛.已知参赛选手成绩各不相同,某选手要想知道自己是否进入决赛,只需要了解自己的成绩以及全部成绩的( ). A.平均数 B .中位数 C .众数 D .以上都可以 ,,.2321x r x n x m 个和个个由这些数据组成一组数据的平均数是( ). 3.321x x x A ++ 3 .r n m B ++ 3.321rx nx mx C ++ r n m rx nx mx D ++++321. 3.从鱼塘捕获同时放养的草鱼240条,从中任选8条称得每条鱼的质量分别为1.5、1.6、1.4、1.3、1.5、 1.2、1.7、1.8(单位:千克),那么可估计这240条鱼的总质量大约为( ). A.360千克 B .300千克 C .36千克 D .30千克 4.数据按从小到大排列为1,2,4,x ,6,9,这组数据的中位数为5,那么这组数据的众数是( ). 4.A 5.B 5.5.C 6.D 5.-组数据为:2,2,3,4,5,5,5,6,则下列说法正确的是( ). A .这组数据的众数是2 B .这组数据的平均数是3 C .这组数据的极差是4 D .这组数据的中位数是5 6.从总体中抽取一个样本,计算出样本方差为2,可以估计总体方差( ). A .-定大于2 B .一定等于2 C .约等于2 D .与样本方差无关 7.下列说法错误的是( ). A.如果一组数据的众数是5,那么这组数据中出现次数最多的是5 B .-组数据的平均数一定大于其中的每一个数据 C .-组数据的平均数、众数、中位数有可能相同 D .-组数据的中位数有且只有一个 8.10个人围成一圈每人想一个自然数,并告诉他两边的人,然后每人将他两边的人告诉他的数的平均数报出来,报的结果如右图所示,则报13的人心想的数是( ). 12.A 14.B 16.C 18.D 9.小勇投标训练的结果如下图所示,他利用所学的统计知识对自己10次投标的成绩进行了评价,其中错 误的是( ) A .平均数是(10+8×4+7×2+6×2+5)÷10一7.3(环),成绩还不错 B .众数是8(环),打8环的次数占40% C .中位数是8(环),比平均数高0.7环

相关文档