文档库 最新最全的文档下载
当前位置:文档库 › 数据分析师笔试题目

数据分析师笔试题目

数据分析师笔试题目
数据分析师笔试题目

网易数据分析专员笔试题目

一、基础题

1、中国现在有多少亿网民?

2、百度花多少亿美元收购了91无线?

3、app store排名的规则和影响因素

4、豆瓣fm推荐算法

5、列举5个数据分析的博客或网站

二、计算题

1、关于简单移动平均和加权移动平均计算

2、两行数计算相关系数。(2位小数,还不让用计算器,反正我没算)

3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离

三、简答题

1、离散的指标,优缺点

2、插补缺失值方法,优缺点及适用环境

3、数据仓库解决方案,优缺点

4、分类算法,优缺点

5、协同推荐系统和基于聚类系统的区别

四、分析题

关于网易邮箱用户流失的定义,挑选指标。然后要构建一个预警模型。

五、算法题

记不得了,没做。。。反正是决策树和神经网络相关。

1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?

3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?

4、什么是:协同过滤、n-grams,map reduce、余弦距离?

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?

6、如何设计一个解决抄袭的方案?

7、如何检验一个个人支付账户都多个人使用?

8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?

10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?

11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?

12、你最喜欢的编程语言是什么?为什么?

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS,R,Python,Perl语言的区别是?

15、什么是大数据的诅咒?

16、你参与过数据库与数据模型的设计吗?

17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?

18、你喜欢TD数据库的什么特征?

19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?

20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?

21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?

22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?

23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?

24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?

25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内

在或者运行速度来说?对于数据库分析的评价?

26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?

27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)

28、什么是星型模型?什么是查询表?

29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?

30、在SQL,Perl,C++,Python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决

于什么内容?

32、定义:QA(质量保障)、六西格玛、实验设计。好的与坏的实验设计能否举个案例?

33、普通线性回归模型的缺陷是什么?你知道的其它回归模型吗?

34、你认为叶数小于50的决策树是否比大的好?为什么?

35、保险精算是否是统计学的一个分支?如果不是,为何如何?

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱

的数案例。

37、为什么说均方误差不是一个衡量模型的好指标?你建议用哪个指标替代?

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比?你对A/B测试熟吗?

39、什么是敏感性分析?拥有更低的敏感性(也就是说更好的强壮性)和低的预测能力还

是正好相反好?你如何使用交叉验证?你对于在数据集中插入噪声数据从而来检验模型的

敏感性的想法如何看?

40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进?

41、除了主成分分析外你还使用其它数据降维技术吗?你怎么想逐步回归?你熟悉的逐步

回归技术有哪些?什么时候完整的数据要比降维的数据或者样本好?

42、你如何建议一个非参数置信区间?

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的

发生概率?

44、什么是归因分析?如何识别归因与相关系数?举例。

45、如何定义与衡量一个指标的预测能力?

46、如何为欺诈检验得分技术发现最好的规则集?你如何处理规则冗余、规则发现和二者的本质问题?一个规则集的近似解决方案是否可行?如何寻找一个可行的近似方案?你如

何决定这个解决方案足够好从而可以停止寻找另一个更好的?

47、如何创建一个关键字分类?

48、什么是僵尸网络?如何进行检测?

49、你有使用过API接口的经验吗?什么样的API?是谷歌还是亚马逊还是软件即时服务?

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好?

51、可视化使用什么工具?在作图方面,你如何评价Tableau?R?SAS?在一个图中有效展现五个维度?

52、什么是概念验证?

53、你主要与什么样的客户共事:内部、外部、销售部门/财务部门/市场部门/IT部门的人?有咨询经验吗?与供应商打过交道,包括供应商选择与测试。

54、你熟悉软件生命周期吗?及IT项目的生命周期,从收入需求到项目维护?

55、什么是cron任务?

56、你是一个独身的编码人员?还是一个开发人员?或者是一个设计人员?

57、是假阳性好还是假阴性好?

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗?分别给案例。

59、Zillow’s算法是如何工作的?

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户?

61、你如何创建一个新的匿名数字帐户?

62、你有没有想过自己创业?是什么样的想法?

63、你认为帐号与密码输入的登录框会消失吗?它将会被什么替代?

64、你用过时间序列模型吗?时滞的相关性?相关图?光谱分析?信号处理与过滤技术?

在什么样的场景下?

65、哪位数据科学有你最佩服?从哪开始?

66、你是怎么开始对数据科学感兴趣的?

67、什么是效率曲线?他们的缺陷是什么,你如何克服这些缺陷?

68、什么是推荐引擎?它是如何工作的?

69、什么是精密测试?如何及什么时候模拟可以帮忙我们不使用精密测试?

70、你认为怎么才能成为一个好的数据科学家?

71、你认为数据科学家是一个艺术家还是科学家?

72、什么是一个好的、快速的聚类算法的的计算复杂度?什么好的聚类算法?你怎么决定一个聚类的聚数?

73、给出一些在数据科学中“最佳实践的案例”。

74、什么让一个图形使人产生误解、很难去读懂或者解释?一个有用的图形的特征?

75、你知道使用在统计或者计算科学中的“经验法则”吗?或者在商业分析中。

76、你觉得下一个20年最好的5个预测方法是?

77、你怎么马上就知道在一篇文章中(比如报纸)发表的统计数字是错误,或者是用作支撑作者的论点,而不是仅仅在罗列某个事物的信息?例如,对于每月官方定期在媒体公开发布的失业统计数据,你有什么感想?怎样可以让这些数据更加准确?

从阿里数据分析师笔试看职业要求

以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么?请列举1种识别连续型变量异常值的方法?

异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’test(是以Frank E.Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。

未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评:考察的内容是统计学基础功底。

二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学

定义的距离进行度量。

k-means算法的工作过程说明如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们

分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都

采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。

其流程如下:

(1)从n个数据对象任意选择k个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根

据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点:本算法确定的K个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

缺点:1.K是事先给定的,但非常难以选定;2.初始聚类中心的选择对聚类结果有较大的影响。

点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下:

Member_ID(用户的ID,字符型)

Log_time(用户访问页面时间,日期型(只有一天的数据))

URL(访问的页面地址,字符型)

要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表

结构和表A一致)

createtable B asselectMember_ID,min(Log_time),URL from Agroup byMember_ID;

点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,

a)从数据中,你看到了什么问题?你觉得背后的原因是什么?

b)如果你的老板要求你提出一个运营改进计划,你会怎么做?

表如下:一组每天某网站的销售数据

a)从这一周的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的

角度来看,该产品不能在周末的时候引起消费者足够的注意力。

b)针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品

的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据

的解读能力。

五、用户调研

某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:

a)试验需要为决策提供什么样的信息?

c)按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。

a)试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b)根据三类客户的数量,采用分层比例抽样;

需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;

选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。

点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。

综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数

据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备

好了吗?

2、从腾讯(数据挖掘方向)笔试题目看技术储备

笔试内容:

1.二叉树遍历:已知中序遍历顺序以及前序遍历顺序,求后序遍历顺序

2.SQL语句:找出QQset中最小的QQ号码

3.encodeURI&URL传播的转义结果

4.36辆车,6条跑道,无计时器,最少几次比赛可以选出前三

5.Windows/Linux下判断远程地址为某主机监听的某端口是都开放的命令是?

6.html网站cookie

7.cookie功能

8.哈希冲突

9.哪些http方法对于服务端和用户是安全的

10.二维数组内存地址计算

11.附加题:推导线性最小二乘法过程

12.附加题:概率计算(这个相当简单啦)

13.模型过拟合与哪些因素有关,写出理由

“ “ “ “ “ “i”

3 、从百度(数据挖掘工程师)笔试题目看技术储备

一. 简答题

1. new 和 malloc 的区别。

2. hash 冲突是指什么?怎么解决?给两种方法,写出过程和优缺点。

3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,则至少需要几次?

二. 算法设计题

1. 用 C/C++写一个归并排序。

数据结构为 struct Node{int v; Node *next};

接口为 Node * merge_sort(Node *);

2. 设计 S 型层次遍历树的算法,比如根节点是第一层,第二层从左至右遍历,第三层从右 至左遍历,第四层再从左至右遍历,以此类推。

举例:应依次输出 1 2 3 6 5 4 7 8 9。

3. 一个 url 文件,每行是一个 url 地址,可能有重复。

(1)统计每个 url 的频次,设计函数实现实现。

(2)设有 10 亿 url ,平均长度是 20,现在机器有 8G 内存,怎么处理,写出思路。

三. 系统设计题

自然语言处理中的中文分词问题,前向最大匹配算法(FMM)。

注:题目举例说明了 FMM 的基本思想。

(1)设计字典的数据结构 struct dictnote 。

(2)用 C/C++实现 FMM ,可选接口为

int FMM(vectoriLetters, dictnode *iRoot, vector*oResults);

其中 iLetters 为待分词的句子,比如 {“小”,明”,今”,天”,买”,了”, ,“p”,“o”,“n”,“e”, “6”},

iRoot 是字典, oResults 保存输出结果,即分词的位置。也可以自己设计接口。

(3)收集了一些手机品牌的字典,如{iphone, 诺基亚}。

现在要求查找包含这些手机品牌的网页,比如包含 iphone6, 诺基亚 9973 等。

怎么修改 FMM 实现这个功能,可以写伪代码。

4 、从搜狐(数据挖掘算法工程师)笔试题目看技术储备

笔试

1, 类的继承

2, 资源互斥下的死锁

3, 一维数组,元素为指针,指针指向一个参数为 Int ,返回值为 int 的函数

4, 进程间的通信方式

5, Const 标志符常量一定要?

6, String 的普通构造函数,拷贝构造函数,赋值函数,析构函数

7,Strcpy函数

8,N个不同数的全排列,打印所有全排列

9,Sizeof(char name[]=”hello”)

10,继承的转换(子类可以转换成基类,基类不能转换成子类,多继承下同一子类的基类间不能相互转换)

5、从网易(数据挖掘研究员)笔试题目看技术储备

笔试

1,字符串匹配的算法复杂度(主串N,字串M)N+M

2,排序算法的稳定性(快速排序为非稳定)

3,平衡二叉树的插入

4,20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb

5,在N个无序数中找K个最小值

6,页面文件的逻辑地址位(8个1024字放内32帧内存里)

7,计算机网络各层应用连接

8,哪一种模式不关心算法

Abstract Factory:提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类。(使用得非常频繁。)

Adapter:将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。

Bridge:将抽象部分与它的实现部分分离,使它们都可以独立地变化。

Builder:将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。

Chain of Responsibility:为解除请求的发送者和接收者之间耦合,而使多个对象都有机会处理这个请求。将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它。

Command:将一个请求封装为一个对象,从而使你可用不同的请求对客户进行参数化;对请求排队或记录请求日志,以及支持可取消的操作。

Composite:将对象组合成树形结构以表示“部分-整体”的层次结构。它使得客户对单个对象和复合对象的使用具有一致性。

Decorator:动态地给一个对象添加一些额外的职责。就扩展功能而言,它比生成子类方式更为灵活。

Facade:为子系统中的一组接口提供一个一致的界面,F a c a d e模式定义了一个高层接口,这个接口使得这一子系统更加容易使用。

Factory Method:定义一个用于创建对象的接口,让子类决定将哪一个类实例化。Factory Method使一个类的实例化延迟到其子类。

Flyweight:运用共享技术有效地支持大量细粒度的对象。

Interpreter:给定一个语言,定义它的文法的一种表示,并定义一个解释器,该解释器使用该表示来解释语言中的句子。

Iterator:提供一种方法顺序访问一个聚合对象中各个元素,而又不需暴露该对象的内部表示。

Mediator:用一个中介对象来封装一系列的对象交互。中介者使各对象不需要显式地相互

引用,从而使其耦合松散,而且可以独立地改变它们之间的交互。

Memento:在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这

个状态。这样以后就可将该对象恢复到保存的状态。

Observer:定义对象间的一种一对多的依赖关系,以便当一个对象的状态发生改变时,所有依

赖于它的对象都得到通知并自动刷新。

Prototype:用原型实例指定创建对象的种类,并且通过拷贝这个原型来创建新的对象。Proxy:为其他对象提供一个代理以控制对这个对象的访问。

Singleton:保证一个类仅有一个实例,并提供一个访问它的全局访问点。

State:允许一个对象在其内部状态改变时改变它的行为。对象看起来似乎修改了它所属的类。

Strategy:定义一系列的算法,把它们一个个封装起来,并且使它们可相互替换。本模式使得算法的变化可独立于使用它的客户。

Template Method:定义一个操作中的算法的骨架,而将一些步骤延迟到子类中。Template Method使得子类可以不改变一个算法的结构即可重定义该算法的某些特定步骤。

Visitor:表示一个作用于某对象结构中的各元素的操作。它使你可以在不改变各元素的类

的前提下定义作用于这些元素的新操作

9,数据库系统的两种语言(一种用于定义数据库模式;另一种用于表达数据的查询和更新)

10,数据库的连接运算

11,建立索引的原则

在经常需要搜索的列上,可以加快搜索的速度;在作为主键的列上,强制该列的唯一性和组织表中数据的排列结构;在经常用在连接的列上,这些列主要是一些外键,可以加快连

接的速度;在经常需要根据范围进行搜索的列上创建索引,因为索引已经排序,其指定的范围是连续的;在经常需要排序的列上创建索引,因为索引已经排序,这样查询可以利用

索引的排序,加快排序查询时间;在经常使用在WHERE子句中的列上面创建索引,加快条件的判断速度。

不应该创建索引的的这些列具有下列特点:第一,对于那些在查询中很少使用或者参考的列不应该创建索引。这是因为,既然这些列很少使用到,因此有索引或者无索引,并不能

提高查询速度。相反,由于增加了索引,反而降低了系统的维护速度和增大了空间需求。第二,对于那些只有很少数据值的列也不应该增加索引。这是因为,由于这些列的取值很少,例如人事表的性别列,在查询的结果中,结果集的数据行占了表中数据行的很大比例,即需要在表中搜索的数据行的比例很大。增加索引,并不能明显加快检索速度。第三,对于那些定义为text,image和bit数据类型的列不应该增加索引。这是因为,这些列的数据量要么相当大,要么取值很少。第四,当修改性能远远大于检索性能时,不应该创建索引。这是因为,修改性能和检索性能是互相矛盾的。当增加索引时,会提高检索性能,但是会

降低修改性能。当减少索引时,会提高修改性能,降低检索性能。因此,当修改性能远远大于检索性能时,不应该创建索引。

12,事务的定义与特点,事务隔离的级别

事务(Transaction)是并发控制的单位,是用户定义的一个操作序列。这些操作要么都做,要么都不做,是一个不可分割的工作单位。通过事务,SQL Server能将逻辑相关的一组操作绑定在一起,以便服务器保持数据的完整性。

事务的特性(ACID特性)

A:原子性(Atomicity),事务是数据库的逻辑工作单位,事务中包括的诸操作要么全做,要么全不做。

B:一致性(Consistency),事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。一致性与原子性是密切相关的。

C:隔离性(Isolation),一个事务的执行不能被其他事务干扰。

D:持续性/永久性(Durability),一个事务一旦提交,它对数据库中数据的改变就应该是永久性的。

未授权读取(允许脏读取,但不允许更新丢失),授权读取(允许不可重复读取,但不允许脏读取),可重复读取(禁止不可重复读取和脏读取,但是有时可能出现幻影数据)和序列化(事务序列化执行,不能并发执行)

13,专业题一数据挖掘的步骤

14,Pca的概念和处理过程(主成分分析)

15,K中心点聚类算法简介

首先为每个簇随意选择一下代表对象,将剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复地用非代表对象来替代代表对象,以改进聚类的质量。判定一个非代表对象O是否是当前一个代表对象的O1的好的替代,对于每一个非代表对象p,下面的四种情况考虑。

1,p当前属于代表Oj,如果Oj被O代替,p离Oi最近,那么p被重新分配给Oi

2,p当前属于代表Oj,如果Oj被O代替,p离O最近,那么p被重新分配给O

3,p当前属于代表Oi,如果Oj被O代替,p离Oi最近,那么p不变

4,p当前属于代表Oi,如果Oj被O代替,p离Oi最近,那么p被重新分配给O

16,中文分词技术简介,常用数据结构和算法

17,分类器的主流评测指标:准确率,速率,鲁棒性,可规模性和可解释性

18,如何建立一个智能问答系统,思路

19,如何建立一个智能商品推荐系统,思路

网易面试归来,还不知道结果。对于数据分析师这个职位,网上的面经很少,之前自己在网上找面经时深感无经可取,不知道技术面什么流程,面试官主要问什么,所以这里特地留个爪,供后生参考,作为抛砖引玉,欢迎童鞋多发帖多交流,最最最重要的是攒rp求祝福~攒rp求祝福~攒rp求祝福~:

一面:

女面试官,人和蔼可亲,经常笑着肯定你的说法,让人也不会太紧张。先自我介绍,然后她就针对我的实习经历问了一些问题,问的比较详细,所以简历上做过的实习、项目一定要把流程理顺、细节想清楚。简历问了大概二十分钟,就开始问她准备的问题,有:

1.如果一个APP某一天的日活量异常,你怎么分析?

2.如何建立预测一个APP的用户流失模型?可以创建哪些特征?

跟面试官聊得很开心,没什么压力,感觉时间过的很快。

二面:

等到下午才有二面,一个不苟言笑的男面试官。照例先自我介绍,然后问了简历,也比较详细,跟一面差不多。技术问题有:

1.叙述逻辑回归原理

2.有哪些分类、聚类算法,分类我说到SVM,他就让我叙述SVM原理,如果数据有异常值怎么办?(其实我不太懂SVM,只讲了一点,异常值那里也不清楚,他提示了可以用正则化,这个我刚好熟悉他就又问了为什么要有正则化)

3.数据分析有哪些步骤?你想做所有这些流程但不深入,还是专攻某一流程成为专家?我最擅长的是哪一个步骤?

4.选择网易的一款产品,说说你怎么运用数据分析提高产品的热度?

(我回答的有道词典,可以通过分析客户流失挽回流失客户,他说有道词典不需要登陆,问我怎么得到用户信息,这一点我没答上来)

5.如果要选择一个产品部门做分析,你会选择哪一个产品,为什么

三面:

等了很久才等到三面,是总监技术面,应该是一个做了很久的老员工,除了简历,主要问我数据库的建立、维护问题,他应该对数据库很了解,他问了:

你觉得数据分析师最重要的特质是什么。

四面:

三面到四面的时间就很短了,是HR面,然而并不像HR面试,像上一轮技术面的延续,问了我简历上的实习经历以及一些职场情景的对策:

1.如果产品团队要你完成某项分析工作,又不采取你的建议怎么办

2.产品团队的人也懂数据分析,你觉得数据分析团队存在的价值是什么?会不会被取代

总结:

1.面试整体不难,对自己要有信心

2.做好充分的准备(包括简历上的项目、实习以及里面可能会问到的一些业务细节、技术点,如APP分析、机器学习算法,面试公司的一些产品),不打无准备之仗

3.保持清晰的思路和敏捷的反应,在面试官解释问题时快速思考,有条理的回答,并且有意识地突出自己的优势

4.在结束时一定要向面试官提一些有针对性的问题以表示感兴趣,如果怕想不出来可以事先准备一些常规的问题

网易的员工都很nice,很愿意了解你,不会刻意刁难,以真诚、实事求是的态度对待每一个问题,呈现最真实、最优秀的自己。

2015年8月19日,阿里校招数据分析师笔试题。共计21题(貌似统计漏了一题,应该是单选少了一题,凑合看吧),选择题每个人的都不一样,问答题是一样的。暂时没有答案,希望对大家有用。

单选题:

1观测宇宙中单位体积内星球的个数,属于什么分布:

A学生分布B泊松分布C正态分布D二项分布

2一些关于数据挖掘说法是正确的

A数据挖掘是万能的

B如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了

C数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法

DABC均有错

3已知随机变量X,Y分别服从泊松分布P(S),卡方分布X2(t),E(X)=4,D(Y)=9,则参数s,t分别:A2,9;B4,9C4,4.5;D2,4.5

4下面算法中哪一种不属于广义线性回归算法

A生存模型算法

Bbeta回归算法

Clogit回归算法

D判别分析算法

5有一列1000万淘宝买家的淘宝运费险保费数据,要计算该列数据的P1-P100分位数,可使用哪个SAS语句?

Aproc sort

Bproc rank

Cproc univariate

Dproc freq

6X服从区间(2,6)上的均匀分布,求对X进行3次独立观测中,至少有2次的观测值大于3的概率。

A0.84375

B0.75275

C0.65275

D0.80370

7下面对于“预测变量间可能存在较严重的多重共线性”的论述中错误的是?

A回归系数的符号与专家经验知识不符

B方差膨胀因子(VIF)<5

C其中两个预测变量的相关系数>=0.85

D变量重要性与专家经验严重违背

8由于淘宝买家消费数据是亿级别,假设为了快速计算买家每月的平均消费额,采用抽样1W个买家来计算

A采用分层抽样方法把全量淘宝买家按照星级,每层抽取相同的数量,计算平均值

B采用系统抽样方法,把全量买家随机排序,每隔一定数量抽一个,计算平均值

C采用无放回随机方法,从全量买家中随机挑选一个买家,不放回,如此循环

D采用有放回随机方法,从全量买家中随机挑选一个买家,然后再放回,如此循环

9请找出数列4,9,23,60,157的下一项()

A411B314C425D ABC均错

10(应该是没统计上)

多选题

11以下哪个语法不是R的基础语言

Aproc glot

Bselect*from table

Ckc<-kmeans(data,3)

Dprint”hello world”

Esd<-summary(data)

Fimport

12分析师在工作中的良好习惯是

A将工作空间的密码共享给别人

B将数据下载到私人电脑进行分析处理

C在处理资源高峰期提交大任务运算

D不定期地将分析报告分享给团队

E定期清理存储空间

F固话日常需要分析的数据表方便计算

13

14

15

16请分析淘宝消费者的流失情况

17淘宝和天猫上每天都有大量的用户在线上购买,作为分析师可以从哪些角度对用户进行分析,说明理由

18

19

20已知A商家近五年每月的成交数据,请列出两种不同的时间序列预测模型可以用来预测商家接下来三个月的成交,并详细阐述在使用每一种方法前需要对数据进行什么预处理以及具体方法

21你理解中的分析师是什么样的?你觉得自己目前应聘分析师职位的优势是什么?并说明理由。

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧 重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把 整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日 志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也 就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一 个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到 分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

大数据试题答案与解析_最全

1、当前大数据技术的基础是由( C)首先提出的。(单选题,本题2分) A:微软 B:百度 C:谷歌 D:阿里巴巴 2、大数据的起源是(C )。(单选题,本题2分) A:金融 B:电信 C:互联网 D:公共管理 3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是 ( C)。(单选题,本题2分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 4、(D )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题2分) A:规模 B:活性 C:关联度 D:颗粒度 5、数据清洗的方法不包括( D)。(单,本题2分)

A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理 6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。(单选题,本题2分) A:统计报表 B:网络爬虫 C:API接口 D:传感器 7、下列关于数据重组的说法中,错误的是( A)。(单选题,本题2分) A:数据重组是数据的重新生产和重新采集 B:数据重组能够使数据焕发新的光芒 C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建,不包含( C)。(单选题,本题2分) A:数字城市 B:物联网 C:联网监控 D:云计算 大数据的最显著特征是( A)。(单选题,本题2分) A:数据规模大 B:数据类型多样

C:数据处理速度快 D:数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地 点。这体现了大数据分析理念中的(B )。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D )。(单选题,本题2分) A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高 12、当前社会中,最为突出的大数据环境是(A )。(单选题,本题2分) A:互联网 B:物联网 C:综合国力 D:自然资源 13、在数据生命周期管理实践中,( B)是(单选题,本题2分) A:数据存储和备份规 B:数据管理和维护 C:数据价值发觉和利用

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求 以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理? 9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在

所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征? 19、如何你打算发100万的营销活动邮件。你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗? 20、如果有几个客户查询ORACLE数据库的效率很低。为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出? 21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好? 22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少? 23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡? 24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些? 25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价? 26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法? 27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下) 28、什么是星型模型?什么是查询表?

数据分析笔试题

数据分析笔试题 一、编程题(每小题20分)(四道题任意选择其中三道) 有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。(A、B 分别代表1—9中任意的一个数字) 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复) 二、逻辑思维题(每小题10分)须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%, 另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少? 2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B 耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么? 4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、 单选题 分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复;如果小甲上个月总共有100个咨询量,那么他当时的回复率是多少? A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析:"参考章节:店铺客服转化率诊断本题考点:客服回复率答案解析:客服回复率是指客服对于咨询他的客户进行回复的百分占比,如果有100个咨询量,其中12个没有回复,那么回复率就是(10 0-12)/100=88%" 2、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去? A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、 单选题 分值: 1 小明是吹风机类目的商家,他想做类目趋势对比表,为此他需要收集近几年的相关数据作为参考? A: 近5年 B: 近4年 C: 近3年 D: 近2年 答案解析:参考章节:品类罗盘—商品年度规划(一)本题考点:市场趋势表格制作试题解析:在大数据的背景下,我们做类目数据对比时,会去抓取近3年子类目数据为参考维度。 4、 单选题 分值: 1 小明店铺的无线首页,模块1跳转店内爆款,每天点击量200,模块2跳转店内新品,每天点击量80;因为新品数据良好,有次爆款潜力,小明决定交换模块1和模块2跳转商品! A: 正确 B: 错误 答案解析:参考章节:页面效果如何提升?本题考点:页面数据分析答案解析:根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、 单选题 分值: 1 为了尽量减少花费,小李想选择免费方法实现新品破0 ;以下那种破0 方法不是免费的?

数据分析专员笔试题

XXX公司数据分析专员笔试试题 姓名:日期: 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K<

2016年数据分析面试常见问题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+ N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map 等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。 4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个

2018数据分析师考试大纲

2018CPDA 数据分析师考试大纲 第一部分考试介绍 一、考试目标 数据分析师专业技术考试主要测试考生是否具备数据分析基础知识,是否了解数据分析工作流程及数据分析技术,是否具备利用数据分析知识解决实际业务问题的能力。 侧重考查考生对数据分析知识的掌握和应用,借助数据分析知识解决实际数据分析工作和企业决策工作的能力,根据企业决策的需要,对各种相关数据进行分析和评估能力。 考点涉及数据分析统计基础、数据获取、数据预处理、数据可视化、数据算法模型及客户数据分析、产品数据分析、营销数据分析、采购数据分析、物流数据分析、生产制造数据分析、智能供应链及投资收益风险分析等。 二、考试科目及考试形式 考试分为理论机考和实操笔试,考试时限分别为90 分钟和120 分钟,满分都为100分。 CPDA 数据分析师的认证考核采取全国统一时间,每年四次。 三、教材与资料 《数据分析基础》《营销数据分析》《供应链优化与投资分析》《战略管理》《面授讲义》是数据分析师考生必修必考教材与资料。 四、知识点要求注释 识记:要求掌握概念、熟悉理论、重点考试要求范围; 理解:要求应知应会,非重点考试要求范围; 应用:掌握实际使用方法,运用计算工具或分析软件进行实和分析,考试要求范围; 了解:拓展性知识,非考试要求范围。 第二部分考试内容 根据数据分析师专业技术考试的考试目标、科目和考试形式等要求,数据分析师专业技术考试科目要点包括但不限于以下内容: 一、数据分析理论知识 数据分析理论知识是对考生数据分析基础知识的掌握程度的测试。数据分析基础主要从数据分析的整个流程去考查学生知识,其中涵盖了数据获取、数据预处理、数据可视化、数据分析算

生意参谋数据分析师考试题库(二)

《生意参谋数据分析师》考试 49、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去?A A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高 答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 50、 多选题 分值: 3 生意参谋中显示的哪些渠道流量需要商家付费获取?ABC A: 直通车 B: 淘宝客 C: 聚划算 D: 淘内免费其他 答案解析:参考章节:单品流量来源分析本题考点:店铺来源—构成—商品效果答案解析:需要花钱的流量叫付费流量 51、

判断题 分值: 5 内容的整体分析无益于店铺内容情况的复盘?错误 正确 错误 答案解析:参考章节:店铺的整体内容投放分析本题考点:生意参谋的应用答案解析:内容的整体分析有助于我们复盘店铺的内容情况 52、 单选题 分值: 1 客服文文在上周接到了100个客户的咨询,有60个客户下单,最终有50个客户支付成功;由此可知上周客服文文的询单-支付转化率是多少?C A: 0.3 B: 0.4 C: 0.5 D: 0.6 答案解析:参考章节:从询单转化率提升客服效能本题考点:询单转化率答案解析:询单支付转化率=询单付款人数/询单人数;询单下单转化率=询单下单人数/询单人数。本题询单人数为300,询单付款人数为50,那么询单支付转化率是:50/100=50% 53、 多选题 分值: 3 服装类的短视频脚本策划包括以下哪几个重点维度?ABC A: 上身效果 B: 搭配

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目 阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。 一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。 未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。 点评:考察的内容是统计学基础功底。 二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理 和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的

方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。 优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来 说,K< 缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

数据分析岗位笔试题目总结

阿里巴巴 1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值. 常见的异常值检验方法如下: ●基于统计的方法 ●基于距离的方法 ●基于密度的方法 ●基于聚类的方法 ●基于偏差的方法 ●基于深度的方法 t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。 狄克逊检验法:假设一组数据有序x1

指数分布检验: SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部; 2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。 聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有:K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法); k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

数据分析师笔试题目

网易数据分析专员笔试题目 一、基础题 1、中国现在有多少亿网民? 2、百度花多少亿美元收购了91无线? 3、app store排名的规则和影响因素 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站 二、计算题 1、关于简单移动平均和加权移动平均计算 2、两行数计算相关系数。(2位小数,还不让用计算器,反正我没算) 3、计算三个距离,欧几里德,曼哈顿,闵可夫斯基距离 三、简答题 1、离散的指标,优缺点 2、插补缺失值方法,优缺点及适用环境 3、数据仓库解决方案,优缺点 4、分类算法,优缺点 5、协同推荐系统和基于聚类系统的区别 四、分析题 关于网易邮箱用户流失的定义,挑选指标。然后要构建一个预警模型。

五、算法题 记不得了,没做。。。反正是决策树和神经网络相关。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?

9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征?

数据分析师面试题目

数据分析师面试题目 2011-03-13 12:30 363人阅读评论(0) 收藏举报 计算平均有哪些指标,各有哪些优缺点 数值平均数有算术平均数、调和平均数、几何平均数等形式位置平均数有众数、中位数、四分位数等形式前三种是根据各单位标志值计算的,故称为数值平均值,后三种是根据标志值所处的位置. 相关分析和回归分析有什么关系 回归分析与相关分析的联系:研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。 回归分析和相关分析都是研究变量间关系的统计学课题,它们的差别主要是: 1、在回归分析中,y被称为因变量,处在被解释的特殊地位,而在相关分析中,x与y 处于平等的地位,即研究x与y的密切程度和研究y与x的密切程度是一致的; 2、相关分析中,x与y都是随机变量,而在回归分析中,y是随机变量,x可以是随机变量,也可以是非随机的,通常在回归模型中,总是假定x是非随机的; 3、相关分析的研究主要是两个变量之间的密切程度,而回归分析不仅可以揭示x对y的影响大小,还可以由回归方程进行数量上的预测和控制。 3.给出一组数据说是服从正态分布,求方差和均值 4.给出一个概率分布函数,求极大似然估计 求极大似然函数估计值的一般步骤: (1)写出似然函数;(2)对似然函数取对数,并整理;(3)求导数;(4)解似然方程 极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若

大数据分析师(ACP)认证考试大纲

阿里云行业认证:大数据分析师专业认证考试(ACP级)大纲 阿里云大数据行业认证-大数据分析师专业认证介绍: 阿里云大数据行业认证-大数据分析师专业认证(ACP-AlibabaCloud Certified Professional)是大数据行业认证体系中的技能认证,同时也是一个跨平台、通用型专业技术认证。主要包括数据分析相关的知识体系,如数据库知识、数据质量控制、数据编程、机器学习、数据分析工具、机器学习、数据可视化,主流大数据技术等;介绍了数据分析在行业中的实际应用与项目管理方法,及相关的数据技术和技能,包括8个知识与技能模块:大数据基础知识、大数据存储技术、数据分析工具、数据可视化、数据编程、数据项目质量控制、数据项目设计与执行、机器学习。通过该行业技术认证可以有效证明持证者具备以下能力: ●具备大数据相关的基础知识 ●了解大数据分析职业的特点及行业对大数据分析人员的职业要求 ●了解大数据存储技术的特点,能够熟练使用传统关系型数据库,了解数 据仓库的基本知识,能够使用开源大数据技术、阿里云数加等管理和使 用数据 ●掌握SQL语言编程技能,能够根据项目需要进行数据库管理和数据编 程 ●熟练掌握数据可视化相关工具,如Tableau、Quick BI、DataV,并且 能设计与开发可视化大屏和商业报表 ●掌握数据质量管理的特点和要求,能够在数据分析中判断数据质量对项 目的影响并提供相应解决方案

●掌握数据分析的质量控制流程,利用数据预处理技术合理处理脏数据 ●基于对数据分析项目的编程方法,保证程序的运行效率和数据分析结果 的质量 ●能够运用七何分析法针梳理数据项目的目标、范围,根据对业务要求的 理解设计合理的数据分析方案 ●掌握机器学习技术的使用和应用场景,如聚类分析、决策树、关联分析 等 ●能够独立撰写数据分析项目报告 阿里云认证的报名方式: 报名入口为3.PNyzrX 阿里云大数据行业认证大数据分析师专业认证所需具备的前置知识: 通用IT的知识: ●具备基础的IT知识,熟练使用Windows、MAC、Linux等操作系统中 的至少一种 ●了解大数据相关的基础知识,如定义、特征、实际应用案例等 ●了解关系型数据库的基本概念:数据库,表,索引,视图,存储过程, 函数等 ●了解云计算、开源大数据Hadoop生态圈中的主要产品、阿里云数加主 要产品和服务 ●了解软件工程的基本流程 阿里云大数据行业认证大数据分析师专业认证相关的学习方法、学习资料及培训课程:

数据分析师常见的面试问题集锦

数据分析师常见的面试问题集锦 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库? 6、如何设计一个解决抄袭的方案? 7、如何检验一个个人支付账户都多个人使用? 8、点击流数据应该是实时处理?为什么?哪部分应该实时处理? 9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义好?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好? 10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言? 11、你是如何处理缺少数据的?你推荐使用什么样的处理技术? 12、你最喜欢的编程语言是什么?为什么? 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是? 15、什么是大数据的诅咒? 16、你参与过数据库与数据模型的设计吗? 17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法? 18、你喜欢TD数据库的什么特征?

(完整版)初二数学数据分析练习试题(含答案)

初二 数据分析测试题 一、相信你的选择 1、若数据8,4,,2x 的平均数是4,则这组数据的中位数和众数是( ) A 、3和2 B 、2和3 C 、2和2 D 、2和4 2、数学老师对小明在参加高考前5次数学模拟考试的成绩进行统计分析,判断小明的数学成绩是否稳定,于是老师需要知道小明这5次数学成绩的( ) A 、平均数或中位数 B 、方差或频率 C 、频数或众数 D 、方差或极差 3、已知一组数据5,15,75,45,25,75,45,35,45,35,那么40是这组数据的( ) A 、平均数但不是中位数 B 、平均数也是中位数 C 、众数 D 、中位数但不是平均数 4、小亮所在学习小组的同学们响应“为国争光,为奥运添彩”的号召,主动到附近的7个社区帮助爷爷奶奶们学习英语日常用语,他们记录的各社区参加其中一次活动的人数如下:32,26,28,31,32,32,33,那么这组数据的众数和中位数分别是( ) A 、31,32 B 、32,32 C 、31,3 D 、32,3 5、若54321,,,,x x x x x 的平均数为- x ,方差为2s ,则3,3,3,3,354321+++++x x x x x 的平均数和方差分别是 ( ) A 、2+-x ,32 +s B 、3+- x ,2s C 、-x ,32 +s D 、- x ,2s 6、已知一组数据1,2,,0,1--x 的平均数是0,那么这组数据的标准差( ) A 、2 B 、2 C 、4 D 、2-

7、一组数据n x x x x ,,,,321Λ的极差是 8,另一组数据 12,,12,12,12321++++n x x x x Λ的极差是( ) A 、8 B 、9 C 、16 D 、17 8、某中学人数相等的甲、乙两班学生参加同一次数学测验,两班成绩的方差分别是2452=甲s ,1902=乙s ,那么成绩比较整齐的是( ) A 、甲班 B 、乙班 C 、两班一样整齐 D 、无法确定 二、试试你的身手 1、根据天气预报可知,我国某城市一年中的最高气温为C ?37,最低气温是C ?-8,那么这个城市一年中温度的极差为 2、航天知识竞赛中,包括甲同学在内的6名同学的平均分为74分,其中甲同学考了89分,则除了甲以外的5名同学的平均分是 分. 3、数据9,10,8,10,9,10,7,9的方差是________,标准差是_____. 4、甲、乙两种产品进行对比试验,得知乙产品比甲产品的性能更稳定,如果甲、乙两种产品的方差分别是甲2s ,乙2s ,则它们的大小关系是 5、下面是五届奥运会中国获得金牌的一览表: 在15,5,16,16,28这组数据中,众数、中位数分别是 6、甲、乙两人比赛飞镖,两人所得环数甲的方差是15,乙所得环数如下:0,1,5,9,10,那么,成绩比较稳定的是 7、八年级上学期期中质量检测之后,甲、乙两班的数学成绩的统计情况如下表

相关文档
相关文档 最新文档