当前位置：文档库 › 从阿里巴巴笔试试题看数据分析师的职业要求

从阿里巴巴笔试试题看数据分析师的职业要求

以下试题是来自阿里巴巴2011年招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。

一、异常值是指什么？请列举1种识别连续型变量异常值的方法？

异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

点评：考察的内容是统计学基础功底。

二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based

method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

（1）从n个数据对象任意选择k 个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

缺点：1. K 是事先给定的，但非常难以选定；2. 初始聚类中心的选择对聚类结果有较大的影响。

点评：考察的内容是常用数据分析方法，做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

三、根据要求写出SQL

表A结构如下：

Member_ID（用户的ID，字符型）

Log_time（用户访问页面时间，日期型（只有一天的数据））

URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）

createtable B asselectMember_ID, min(Log_time), URL from AgroupbyMember_ID ; 点评：SQL语句，简单的数据获取能力，包括表查询、关联、汇总、函数等。

另外，这个答案其实是不对的，实现有很多方法，任由大家去发挥吧。

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，

a) 从数据中，你看到了什么问题？你觉得背后的原因是什么？

b) 如果你的老板要求你提出一个运营改进计划，你会怎么做？

表如下：一组每天某网站的销售数据

a) 从这一周的数据可以看出，周末的销售额明显偏低。这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

点评：数据解读能力，获取数据是基本功，仅仅有数据获取能力是不够的，其次是对数据的解读能力。

五、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验需要为决策提供什么样的信息？

c) 按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量，采用分层比例抽样；

需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验（two-sample t-test）。

点评：业务理解能力和数据分析思路，这是数据分析的核心竞争力。

综上所述：一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力，即将成为数据分析师的亲们，你们准备好了吗？

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目阿里巴巴作为全球领先的小企业电子商务公司，招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的)，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

运营岗问题及答案——【阿里面试非技术岗】

1 详情页的优化通过哪几项数据分析？ 1.页面停留时间跳失率收藏加够转化 2.与同类优秀产品对比，增加符合自己产品的内容 2 直通车推广主要关注哪几个数据？推广的思路？展现量点击率收藏加购转化率平均点击扣费投入产出比首先测试宝贝数据，点击、收藏、加购是否达标，与同类商品对比宝贝数据没有问题前期根据宝贝标题的核心关键词来添加直通车关键词，从而让直通车带动自然搜索

中期删除一些数据表现不好的关键词加入一些数据好投产高的关键词后期加入与核心关键词不匹配但是投产高的一些关键词，竞争宝贝一些引流关键词 3 影响产品权重主要哪几个因素？收藏加购转化销量停留时间访问深度老客户回访下单旺旺在线时间服务保障退货率纠纷率动销率动态评分好评率产品违规 4 通过以上几个因素简要说明优化思路店铺；能开通的保障服务全部开通店铺保证持续上新没有访客流量的宝贝及时下架删除。有能力去加入淘宝的一些资质认证（如极有家ifashion 中国制造）

宝贝；优化宝贝的详情，尽可能的体现宝贝的卖点优势，对买家关注的产品细节特点详细展示，展示一些效果的宝贝实拍图多角度多细节的展示宝贝。宝贝前期人为做一些宝贝的基础销量与评价还有问答家（尽可能带图片，评价真实）前期可以做一些浏览单做收藏加购，做好宝贝的关联营销与搭配套餐。保证产品质量与详情图片和描述相符新客户；出现问题及时与买家沟通解决，引导买家加入自己的微信做好评返现送礼品老客户；利用一些工具，微淘短信淘金币活动会员权益与老客户进行互动在自己微信中的老客户用些价格优势和礼品做一些老客户的回访回购 5 新品的推广方法？直通车结合问题 4 中宝贝+老客户 6 店铺常用推广方式有哪些你熟悉哪几种直通车钻展淘宝客活动（天天特价淘金币淘抢购聚划算主题活动） 7 店铺爆款的操作模式 1.直通车+自然搜索 2.活动引爆（淘宝客高佣金）前期人为做数据数据起来报活动

阿里巴巴数据产品经理工作(总结篇) _0

[ 产品经理] 阿里巴巴数据产品经理工作(总结篇) 2015-3-17 17:07| 发布者: 猫儿来自: 阿里巴巴PD | 关键词： PD（指产品经理，下同）本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。科普： PD：对于WEB产品设计人员而言，它的意思是“产品设计人员”，即produce designer。 PD：在IT企业中，一般是Product Director(产品主管)或Project Director(项目主管)的意思一. 如何做一个好的数据产品经理？

PD（指产品经理，下同）本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理（好拗口），相信也有同感。既然要和这么多人打交道，要推动数据产品的上线，数据产品经理自然有着一定的要求。我的体会如下——也借此去鞭策自己在朝这个方向努力： 1.要极其熟悉公司业务及动向。所以要了解公司的商业模式、战略、以及业务流程、要考核的各种指标，以及指标背后的业务含义等。这一点，再了解都不够。 2.要了解数据分析。好的数据PD，即使不做数据PD，也应该是个数据分析师。数据PD 的一大要务就是将数据分析做成可复制，可自动运转的系统。虽然有数据分析师们围绕在自己周围，但是自己也要清楚业务的问题，分别要看什么数据，或者当数据出现后，意味着业务出现了什么问题或者会出现什么问题。这一点，要向最好的数据分析师们看齐。

3. 要了解数据仓库及商务智能。这两个关键词背后都是庞大的体系，恐怕我短短半年的转岗时间太短，虽然能够对别人讲解一通商务智能产品的架构。嘴里虽然会抛出若干个类似于汇总，钻取，度量，指标，维度，缓慢变化维，层次，属性，仪表盘等等术语，但是也不支持多几层的知识钻取，遇到异常问题，也不知道该从什么地方分析原因。幸而身边有数据仓库的同事，可以多多学习。这一点，没有天花板。而商务智能，做为一门学科，起源于20世纪90年代，它的出发点是帮助用户更好地获取决策信息，最初商务智能的动机是为用户提供自助式的信息获取方式，这样，用户就可以不用依赖于IT部门去获取定制的报表。（引自《信息仪表盘》一书P41）。而如今，商务智能除了提供信息，更主要的是降低用户获取数据的门槛，提升数据的实时性等方面。从降低用户获取数据的门槛一个方向，我们就可以做很多事情，比如如何设计信息仪表盘（designing of information dashboard）？如何让数据以更亲和的更直观的方式展示（数据可视化）？如何能够让用户离线访问？如何能够实现警戒数据的主动发送？这一点上，花多少功夫都不多。 4. 要精通数据产品开发流程。数据开发+产品开发。数据PD的最终目的是要做数据产品。这里要拆开看，其一，数据产品本身也是在线可供用户实现的产品，既然是产品，产品的整套研发思路和普通的产品没有太大区别，用户是谁，他们需求是什么，满足需求需要什么feature list，每个feature list的资源评估以及优先级如何，产品的生命周期如何？这是产品开发。然后他是个数据产品，意味着这比普通的产品，多了更多的要求。在数据这个内核之外，它需要各种feature list，如订阅，搜索，自定义，短信接口，邮件接口等。但是数据这个内核，也需要一套数据开发流程。比如：数据源——是否足够，是否稳定——数据PD需要足够了解目前的业务处理系统建设情

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从n个数据对象任意选择k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师（北京）一、10道填空，每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT！小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果？ A 0 B 10 C 25 D50 答案：应该是25颗吧！（先运50颗50米，吃了25颗，返回去，回去的途中没吃的了，再运50颗到50米的地方，又吃了25颗，再把剩下的运回家，又吃25颗，还剩25颗。）吐槽一下，题目应该说明：小松鼠足够聪明，至少比参加考试的人聪明。。。 2、标号12345的5个球，一次取两个，和为3或者6的概率是多少？答案：0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法，k_means。 5、其他条件相同，置信水平越低，则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。 6、precision、ecall、ROC。剩下的不记得了。二、三道题，每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查，如果被测者患病则一定能查出来。如果被测者没病，有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率？答案：貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并，主键是USER_ID，然后把深圳市、广州市，大于16岁的，发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义，具体步骤。并举一个适合用层次分析法的案例。三、两道题，每题20分。 1、淘宝上有一些小众但是品位高的店铺，怎么把他们筛选出来捏？ 2、双十一的时候，商家会发优惠券，从商家和平台两个角度设计评价指标，并分析指标不同结果应该对应怎样的措施。资料：优惠券分两种：满200减50，满300减100. 发放日期：10月15-11月10 使用日期：11月11 希望对大家有所帮助！

产品类面试真题阿里笔试非技术岗

产品类面试真题 Q：你的互联网项目产品经历 Tips：具体小问题包括：①如何发现的需求？②如何开展项目？③产品有什么问题？④如何解决？⑤团队组成？如何分工？⑥担当角色发挥的作用？答：从产品定位、功能、解决 Q：说出你印象最深刻的项目？ Tips：从项目内容，你在当中的作用，你的收获谈起。当中出现的问题、数据调查、运营手段、取得成果等角度来谈。之后面试官会从中问下实施细节，说的时候最好可以体现你在团队中的职务，取得的效果，从中的收获？ Q：你觉得90后身上具备什么素质？ A：首先，具备什么素质因人而异。但大部分90后，平均智商偏高（受到良好的教育）；对新鲜事物的接受能力较强；乐天派，有激情，有活力。 Tips：这是一道考情商的题，不要说的太极端就好， Q：简单的谈谈你的实习经历？ Tips：如果你做过产品相关工作，就谈这个，如果没有，就谈产品经理应该具备的一些能力所对应的经历。 Q：你对产品经理的理解 A1：产品经理是生孩子的，运营是养孩子的。是一个团队的粘合剂，将各个部门联系到一起。 A2：产品经理是一个非常典型的“门槛在里面”的岗位，看上去谁都能做，其实个体间能力的相差能够非常之大。个人觉得对这个问题的回答，很大程度上就决定了此次面试的结果，建议大家看一看《启示录：打造用户喜爱的产品》和《腾讯方法》这两本书以加深理解。个人建议可以从这么几个方向入手：产品经理是做啥的、产品经理需要具备哪些能力、产品经理对于整个团队的重要性、产品经理的自我完善与成长路径、自身条件与产品经理职位需求的契合度。 Tips： ①我理解的PM需要具备：需求挖掘，数据分析，团队沟通，执行力等方面的能力~ ②为什么要做PM：从a自己的愿景、b能力与岗位的匹配、c提升能力，这三个角度回答问题。做产品的大前提是要喜欢产品，不然将来你痛苦，团队痛苦，用户也痛苦，是不是？网络

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.wendangku.net/doc/cb2852132.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？ 19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？ 21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？ 22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？ 23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？ 27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下） 28、什么是星型模型？什么是查询表？

阿里巴巴品牌数据银行分析师考试题库答案

答案在最后一页 1.人群放大功能的放大倍数最高不超过50倍，放大后的最大值不超过1000万，这种说法正确吗？ 2.如有有授权店铺，品牌可以圈选浏览店铺指定商品大于2天的人群。这种说法正确吗？ 3.品牌希望在数据银行收割预售期高意向人群，应该在哪里操作？ 4.数据银行自定义人群创建完成后，当天即可查看分析报告，这种说法正确吗？ 5.天猫超市是数据银行现有的数据应用通道，这种说法正确吗 6.支持接通了天猫超市触达通道，可以进行天猫超市的个性化翻牌，试用派发，优惠券等消费者运营触达，人群包的人数要求大于等于1万，这种说法正确吗 7.365天内购买过品牌商品大于等于2次的消费者是忠诚消费者，这种说法正确吗 8.数据银行中关于会员的定义，如果是会员通品牌商，则会员定义是：“已领卡的消费者；如果是非会员通品牌商，则会员的定义是：交易笔数或者交易金额已达到品牌商自己设置的门槛的消费者”这种说法正确吗 9.某男装品牌想对不同品类的老客发不同的短信内容，需要的操作是：先在数据银行圈选出不同品类的老客，然后讲各老客人群同步至CRM，最后在CRM端将不同短信内容和人群进行设定，这种说法正确吗？ 10.权限分组之间创建的自定义人群、营销活动人群、上传人群以及数据应用人物相互隔离，且支持分组之间自定义人群的相互授权，这种说法正确吗？ 11.月均消费金额的定义是什么？ 12.全部创建的营销活动人群都可以查看报告。这种说法正确吗？ 13.新零售版里面，人群应用通道默认包含BrandHub、达摩盘、istoreCRM、地动仪、

支付宝、Unidesk.这种说法正确吗？ 14.人群透视中月均消费金额属性，是最近一年内消费者在淘宝天猫上的月均消费金额。这种说法正确吗？ 15.品牌-搜索中，搜索行为是从全网拉取XX关键词的人群，产出搜索改关键词且是该品牌的人群。这种说法正确吗？ 16.某品牌怀疑自己的会员活跃度在下滑，希望从数据银行中得到数据论证，我们可以直接查看消费者分析模块看板中的会员活跃率这个指标。这种说法正确吗？ 17.数据融合中，人群上传后能够匹配到的范围是哪个？ 18.新增上传人群中，上传文件的匹配方式是什么？ 19.月报中统计的消费者总量是相应时间段内覆盖的消费者总数，因此，某个消费者既存在于A里面，又存在于P里面，这种说法正确吗？ 20.自定义人群设置更新的周期最长不超过多少天？ 21.对比同行业TOP5品牌时，品牌能了解到TOP5品牌优哪些。这种说法正确吗？ 22.假设某个人群的总数为100万，最近15Ian踩过“阿里妈妈”触点的有30万人，其中最近15天踩过“钻石展位”触点的有10万人，那么该人群“钻石展位触点” 的占比为多少？ 23.FAST包括活跃消费者、关系周加深率、会员数和活跃会员数量。这种说法正确吗？ 24.品牌在圈选双11期间品牌购买人群的新增数量时，需要同时差去品牌双11前PL 人群，这种说法正确吗？ 25.目前数据银行接通了地动仪线下通道，暂时只开放到零售角色使用。这种说法正确吗？ 26.自定义分析中，全链路状态AIPL一般默认能取到的最长时间限为（）

阿里巴巴数据分析

图一：整体变化时间序列数据图从图中可以看出：阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势；股东权益2012年~2013年减少，2013年~2015年开始大幅增长；营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定，稳中有涨。整体分析: 从资产构成来看，流动资产所占总资产的比重在逐年下降，止2015年为55.63%，而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降，但仍高于非流动资产所占比重，在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加，经营规模扩大，资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长，股东权益却呈下降趋势，说明资产的增长主要是来源于负债的增加，而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险，转而采取了较稳健的财务政策。图二：偿债能力时间序列数据图从图中可以看出： 2012年~2013年资产负债率呈现大幅增长，而从2013年~2015年该比率发生扭转开始平稳下降。偿债能力分析：从资产负债率变化的角度来看，该比率在2012年-2013年大幅增加，这可能导致债权人的权益无法得到保障，因为资产负债率越高，说明企业的长期偿债能力就越弱，债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动，进行资产结构优化，从而降低负债带来的企业风险，提高了债权人的保证程度。

2017阿里巴巴招聘笔试题

2017阿里巴巴招聘笔试题 1、iBatis相比JDBC优势的优势有哪些? 答：简单易上手、开发速度快、面向对象，数据库可移植。 (此处应该将优缺点一起分析，才是满意得到回答) 延伸学习： MyBatis和iBatis的区别： ibatis本是apache的一个开源项目，2010年这个项目由apache software foundation 迁移到了google code，并且改名为mybatis (1)Mybatis实现了接口绑定，使用更加方便：在ibatis2.x中我们需要在DAO的实现类中指定具体对应哪个xml映射文件，而Mybatis实现了DAO接口与xml映射文件的绑定， (2)对象关系映射的改进，效率更高 iBatis：优点 : 代码量减少、简单易上手、SQL语句和代码分离(便于修改)、数据库可移植缺点：SQL语句需要自己写、参数只能有一个 Hibernate：优点：对象关系数据库映射、完全面向对象、提供缓存机制、HQL编程缺点：不能灵活使用原生SQL、无法对SQL优化、全表映射效率低下、N+1的问题 JDBC、iBatis、Hibernate明显对比： JDBC更为灵活，更加有效率，系统运行速度快。但是代码繁琐复杂，有的时候用了存储过程就不方便数据库移植了。 hibernate，iBatis 关系数据库框架，开发速度快，更加面向对象，可以移植更换数据库，但影响系统性能。 JDBC:手动手动写sql，不能直接传入一个对象、不能直接返回一个对象。 iBatis的特点:半自动化手动写sql，能直接传入一个对象、能直接返回一个对象。

Hibernate:全自动不写sql,自动封装，能直接传入一个对象、能直接返回一个对象。 2、PrepareStatement相比statement，有哪些优点? 答： (1)直接使用Statement，驱动程序一般不会对sql语句作处理而直接交给数据库; 使用PreparedStament，形成预编译的过程，并且会对语句作字符集的转换(至少在sql server)中如此。如此，有两个好处：对于多次重复执行的语句，使用PreparedStament效率会更高一点，并且在这种情况下也比较适合使用batch;另外，可以比较好地解决系统的本地化问题。 (2)PreparedStatement还能有效的防止危险字符的注入，也就是sql注入的问题。(但是必须使用“对?赋值的方法”才管用) 3、TCP/IP对应于OSI七层模型的哪些层? 答： OSI七层模型分别是：应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 TCP/IP协议不是TCP和IP协议的合称，而是指因特网整个TCP/IP协议族。从协议分层模型方面来看，TCP/IP由四个层次组成：网络接口层、网络层、传输层和应用层。延伸学习：应用层：由用户自己规定，只要形成的消息能与表示层接口。这包括各机互访协议，分布式数据库协议等。表示层：是在满足用户需求的基础上，尽可能的节省传输费用而设置的。如文本压缩、常用词转换、加密、变更文件格式等。这就是说，只要能表示用户所需的信息，形式上可以改变，并尽可能形成标准格式，以利于传送。对话层：是为用户之间对话的进行而设置的，这包括建立和拆除对话，确定对话对象。如不是授权的对话者，就不予送出信息，以达到可靠的要求，这一层也可与传输层合并。传输层：就是使主机之间或信源和信宿之间能互通信息。这一层因此也可以被称为源--宿层或端--端层，这一般是主机操作系统的一部分。它负责把上一层

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、单选题分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复；如果小甲上个月总共有100个咨询量，那么他当时的回复率是多少？ A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析："参考章节：店铺客服转化率诊断本题考点：客服回复率答案解析：客服回复率是指客服对于咨询他的客户进行回复的百分占比，如果有100个咨询量，其中12个没有回复，那么回复率就是（10 0-12）/100=88%" 2、单选题分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率，于是想要替换这些关键词，她应该替换什么关键词进去？ A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词，如果标题里没有的，就可以找出来替换进去。 B: 看看别人标题都用什么词，自己没有的，加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析：参考章节：快速优化标题提升手淘搜索流量本题考点：优质关键词寻找和标题优化答案解析：生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、单选题分值: 1 小明是吹风机类目的商家，他想做类目趋势对比表，为此他需要收集近几年的相关数据作为参考？ A: 近5年 B: 近4年 C: 近3年 D: 近2年答案解析：参考章节：品类罗盘—商品年度规划（一）本题考点：市场趋势表格制作试题解析：在大数据的背景下，我们做类目数据对比时，会去抓取近3年子类目数据为参考维度。 4、单选题分值: 1 小明店铺的无线首页，模块1跳转店内爆款，每天点击量200，模块2跳转店内新品，每天点击量80；因为新品数据良好，有次爆款潜力，小明决定交换模块1和模块2跳转商品！ A: 正确 B: 错误答案解析：参考章节：页面效果如何提升？本题考点：页面数据分析答案解析：根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、单选题分值: 1 为了尽量减少花费，小李想选择免费方法实现新品破0 ；以下那种破0 方法不是免费的？

2017阿里巴巴年度零售情况分析

“2017年已划上句号，2018崭新的一年已经开始！根据数据统计显示：2017年阿里中国零售平台GMV规模达46350亿，同比增长30%。其中，天猫跟淘宝网分别达到21090亿及25260亿，同比分别增长43.9%及20%！数据来源：云观咨询、中商产业研究院整理受益于中国电子商务的高速发展，阿里巴巴中国零售平台近几年在自身基数已经非常大的情况下GMV还保持着相当不错的增长！并且能在2016年以21%的增幅处于最低谷的时期，还能够快速调整过来并在2017年交出近30%的增长成绩，GMV突破4.5万亿，实在不易！同期中国社会消费品零售总额2016年约33.23万亿，2017年预估约36.65万亿增长约10.3%，阿里中国零售平台GMV增长领跑社零近3倍，占比社零约12.6%！预测阿里巴巴将在2019年底完成1万亿美元的目标

数据来源：云观咨询、中商产业研究院整理在2012年1月阿里将原来的淘宝商城正式更名为现天猫的时候，这将注定是中国电子商务尤其是B2C发展历程当中重要的一件大事！同时天猫也迎来了高速发展的黄金时期，五年时间，由2000亿到2万亿规模翻了近10倍！在2016年短暂的增长低谷后，2017年加紧大力完善菜鸟网络，发力天猫超市等，补足了以往短板的物流板块，从而2017年消费电子及快速消费品等品类得以爆发增长，再加上新零售模式软硬件的进一步完善，线上线下系统等对接的进一步成熟，唤醒了服饰等传统龙头品类的第二春，多方面发力从而拉动了2017年整体44%的增长！天猫自身体量首次突破2万亿大关，并且占比阿里中国零售平台整体份额由2012年的22.6%升至2017年的45.5%，如不出意外2018年天猫就将占据半壁江山！

2018数据分析师考试大纲

2018CPDA 数据分析师考试大纲第一部分考试介绍一、考试目标数据分析师专业技术考试主要测试考生是否具备数据分析基础知识，是否了解数据分析工作流程及数据分析技术，是否具备利用数据分析知识解决实际业务问题的能力。侧重考查考生对数据分析知识的掌握和应用，借助数据分析知识解决实际数据分析工作和企业决策工作的能力，根据企业决策的需要，对各种相关数据进行分析和评估能力。考点涉及数据分析统计基础、数据获取、数据预处理、数据可视化、数据算法模型及客户数据分析、产品数据分析、营销数据分析、采购数据分析、物流数据分析、生产制造数据分析、智能供应链及投资收益风险分析等。二、考试科目及考试形式考试分为理论机考和实操笔试，考试时限分别为90 分钟和120 分钟，满分都为100分。 CPDA 数据分析师的认证考核采取全国统一时间，每年四次。三、教材与资料《数据分析基础》《营销数据分析》《供应链优化与投资分析》《战略管理》《面授讲义》是数据分析师考生必修必考教材与资料。四、知识点要求注释识记：要求掌握概念、熟悉理论、重点考试要求范围；理解：要求应知应会，非重点考试要求范围；应用：掌握实际使用方法，运用计算工具或分析软件进行实和分析，考试要求范围；了解：拓展性知识，非考试要求范围。第二部分考试内容根据数据分析师专业技术考试的考试目标、科目和考试形式等要求，数据分析师专业技术考试科目要点包括但不限于以下内容：一、数据分析理论知识数据分析理论知识是对考生数据分析基础知识的掌握程度的测试。数据分析基础主要从数据分析的整个流程去考查学生知识，其中涵盖了数据获取、数据预处理、数据可视化、数据分析算

数据分析师笔试题目

网易数据分析专员笔试题目一、基础题 1、中国现在有多少亿网民？ 2、百度花多少亿美元收购了91无线？ 3、app store排名的规则和影响因素 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站二、计算题 1、关于简单移动平均和加权移动平均计算 2、两行数计算相关系数。（2位小数，还不让用计算器，反正我没算） 3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离三、简答题 1、离散的指标，优缺点 2、插补缺失值方法，优缺点及适用环境 3、数据仓库解决方案，优缺点 4、分类算法，优缺点 5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义，挑选指标。然后要构建一个预警模型。

五、算法题记不得了，没做。。。反正是决策树和神经网络相关。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？

9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？