当前位置：文档库 › 大数据构建精准用户画像技术方案

大数据构建精准用户画像技术方案

大数据构建精准用户画像

技术方案

什么是用户画像？

用户画像（User Profile），作为大数据的根基，它完美地抽象出一个用户的信息全貌，为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息，提供了足够的数据基础，奠定了大数据时代的基石。

用户画像，即用户信息标签化，就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础，能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。

用户画像的四阶段

用户画像的焦点工作就是为用户打“标签”，而一个标签通常是人为规定的高度精炼的特征标识，如年龄、性别、地域、用户偏好等，最后将用户的所有标签综合来看，就可以勾勒出该用户的立体“画像”了。

具体来讲，当为用户画像时，需要以下四个阶段：

用户画像的意义

用户画像的构建是有难度的。主要表现为以下四个方面：

为了精准地描述用户特征，可以参考下面的思路，从用户微观画像的建立→用户画像的标签建模→用户画像的数据架构，我们由微观到宏观，逐层分析。

首先我们从微观来看，如何给用户的微观画像进行分级呢？如下图所示

总原则：基于一级分类上述分类逐级进行细分。

第一分类：人口属性、资产特征、营销特性、兴趣爱好、购物爱好、需求特征

第二分类…

第三分类……….

完成了对客户微观画像分析后，就可以考虑为用户画像的标签建模了。

从原始数据进行统计分析，得到事实标签，再进行建模分析，得到模型标签，再进行模型预测，得到预测标签。

最后从宏观层面总结，就是得到用户画像的数据架构。

LotuseeData莲子数据在具体设备分析的统计基础上，提供了更强大的自定义时间，用户分组，渠道活动转化追踪等新功能，并累计了大量的设备和用户标签，为进一步的用户画像提供了坚实的基础。

百分点技术总监郭志金

谈用户画像数据建模方法

伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。

一、什么是用户画像？

男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。

这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：

二、为什么需要用户画像

用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？

也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？

大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解”人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。

三、如何构建用户画像

一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。

人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。

3.1 数据源分析

构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。

对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。

这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。

本文将用户数据划分为静态信息数据、动态信息数据两大类。

静态信息数据

用户相对稳定的信息，如图所示，主要包括人口属性、商业属性等方面数据。这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗工作，因此这方面信息的数据建模不是本篇文章重点。

动态信息数据

用户不断变化的行为信息，如果存在上帝，每一个人的行为都在时刻被上帝那双无形的眼睛监控着，广义上讲，一个用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网，乃至电商，用户行为就会聚焦很多，如上图所示：浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。

本篇文章以互联网电商用户，为主要分析对象，暂不考虑线下用户行为数据（分析方法雷同，只是数据获取途径，用户识别方式有些差异）。

在互联网上，用户行为，可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型，分析出用户标签，将是本文着重介绍的内容。

3.2 目标分析

用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。如，红酒0.8、李宁0.6。

标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。

权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。

3.3 数据建模方法

下面内容将详细介绍，如何根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。

什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

以上列举了互联网主要的用户标识方法，获取方式由易到难。视企业的用户粘性，可以获取的标识信息有所差异。

什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址+ 内容。网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。

内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。

注：接触点可以是网址，也可以是某个产品的特定功能界面。如，同样一瓶矿泉水，超市卖1元，火车上卖3元，景区卖5元。商品的售卖价值，不在于成本，更在于售卖地点。标签均是矿泉水，但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即，愿意支付的价值不同。

标签权重

矿泉水1 // 超市

矿泉水3 // 火车

矿泉水5 // 景区

类似的，用户在京东商城浏览红酒信息，与在品尚红酒网浏览红酒信息，表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址，存在权重差异，权重模型的构建，需要根据各自的业务需求构建。

所以，网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。

什么事：用户行为类型，对于电商有如下典型行为：浏览、添加购物车、搜索、评论、购买、点击赞、收藏等等。

不同的行为类型，对于接触点的内容产生的标签信息，具有不同的权重。如，购买权重计为5，浏览计为1

红酒1 // 浏览红酒

红酒5 // 购买红酒

综合上述分析，用户画像的数据模型，可以概括为下面的公式：用户标识+ 时间+ 行为类型+ 接触点（网址+内容），某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，进一步转换为公式：

标签权重=衰减因子×行为权重×网址子权重

如：用户A，昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

?标签：红酒，长城

?时间：因为是昨天的行为，假设衰减因子为：r=0.95

?行为类型：浏览行为记为权重1

?地点：品尚红酒单品页的网址子权重记为0.9（相比京东红酒单品页的0.7）

假设用户对红酒出于真的喜欢，才会去专业的红酒网选购，而不再综合商城选购。

则用户偏好标签是：红酒，权重是0.95*0.7 * 1=0.665，即，用户Ａ：红酒0.665、长城0.665。

上述模型权重值的选取只是举例参考，具体的权重值需要根据业务需求二次建模，这里强调的是如何从整体思考，去构建用户画像模型，进而能够逐步细化模型。

四、总结：

本文并未涉及具体算法，更多的是阐述了一种分析思想，在计划构建用户画像时，能够给您提供一个系统性、框架性的思维指导。

基于大数据的用户画像构建(理论篇)

基于大数据的用户画像构建（理论篇） ◎什么是用户画像？简而言之，用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析而来的高度精炼的特征标识。举例来说，如果你经常购买一些玩偶玩具，那么电商网站即可根据玩具购买的情况替你打上标签“有孩子”，甚至还可以判断出你孩子大概的年龄，贴上“有5-10岁的孩子”这样更为具体的标签，而这些所有给你贴的标签统在一次，就成了你的用户画像，因此，也可以说用户画像就是判断一个人是什么样的人。

除去“标签化”，用户画像还具有的特点是“低交叉率”，当两组画像除了权重较小的标签外其余标签几乎一致，那就可以将二者合并，弱化低权重标签的差异。 ◎用户画像的作用罗振宇在《时间的朋友》跨年演讲上举了这样一个例子：当一个坏商家掌握了你的购买数据，他就可以根据你平常购买商品的偏好来决定是给你发正品还是假货以提高利润。且不说是否存在这情况，但这也说明了利用用户画像可以做到“精准销售”，当然了，这是极其错误的用法。其作用大体不离以下几个方面： 1.精准营销，分析产品潜在用户，针对特定群体利用短信邮件等方式进行营销； 2.用户统计，比如中国大学购买书籍人数TOP10，全国分城市奶爸指数； 3.数据挖掘，构建智能推荐系统，利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌，利用聚类算法分析，喜欢红酒的人年龄段分布情况； 4.进行效果评估，完善产品运营，提升服务质量，其实这也就相当于市场调研、用户调研，迅速下定位服务群体，提供高水平的服务； 5.对服务或产品进行私人定制，即个性化的服务某类群体甚至每一位用户（个人认为这是目前的发展趋势，未来的消费主流）。比如，某公司想推出一款面向5－10岁儿童的玩具，通过用户画像进行分析，发现形象＝“喜羊羊”、价格区间＝“中等”的偏好比重最大，那么就给新产品提供类非常客观有效的决策依据。 6.业务经营分析以及竞争分析，影响企业发展战略

【数据分析技术系列】之用户画像数据建模方法

【数据分析技术系列】之用户画像数据建模方法目录一、什么是用户画像？ (1) 二、为什么需要用户画像 (1) 三、如何构建用户画像 (2) 3.1数据源分析 (2) 静态信息数据 (3) 动态信息数据 (3) 3.2目标分析 (3) 3.3数据建模方法 (4) 四、总结： (6)

从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始到2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像？男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜

欢红酒的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。三、如何构建用户画像一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。 3.1 数据源分析构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。本文将用户数据划分为静态信息数据、动态信息数据两大类。

大数据挖掘的用户画像应用方案

在大数据时代，机器要学会从比特流中解读用户，构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践，以及在实际中的应用。如何根据用户画像进行精准营销？将用户画像应用于个性化推荐？一起来寻找答案吧~ 首先看一下大数据与应用画像的关系，现在大数据是炙手可热，相信大家对大数据的四个V都非常了解，大数据应该说是信息技术的自然延伸，意味着无所不在的数据。我们先看下数据地位发生转变的历史，在传统的IT时代，TI系统围绕业务服务，在这个服务的过程中沉淀了很多数据，再在数据的基础上做一些分析。但是到了DT时代不一样了，数据是现实世界的虚拟化表现，数据本身构成了一个虚拟世界，IT系统构建在虚拟系统上，变得更加智能。

大数据无处不在体现在几个方面第一个就是说我们社会信息化的建设越来越发达。第二个是随着可穿戴设备的发展，人产生了越来越多的数据，接入网络当中，同时人和人之间沟通的方式也不仅仅是传统的面对面，传统理解人、与人沟通的方式发生了根本的变革，因此我们要学会从比特流中去认识人类，因此构建用户画像这件事就变得更加重要。而且现在机器也变得很智能了，所以我们还要教会机器来认识人类，这样才能在画像的基础上构建应用，譬如个性化推荐、精准广告、金融征信等等。之前我一直是在从事这方面的应用开发，因此知道用户画像对于这些应用的重要性。如果大家是来自互联网公司的话，我们经常会提到这些词：用户画像、标签、360度用户视图等等，有不少人甚至就是做这面的研发工作，但是这些概念让你感觉有一点似是而非，我以前也有这样的感觉，就是说没有从根本上把这些概念弄清楚，因此有必要把这些概念从根本上弄清楚。首先看一下我们生活中的用户画像

用户画像数据建模方法

用户画像数据建模方法从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始，到20年后2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像？男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。三、如何构建用户画像

如何运用CRM的数据分析,完善企业用户画像模型

销帮帮CRM：用CRM的数据分析，完善企业用户画像模型对一家企业最重要的是什么，没错，是客户，那么你对目标客户的了解有多深？进入大数据时代，人群信息越来越多，企业没有精力去触达到每个用户去一一追踪验证，这就需要企业对用户进行大数据分析，将目标人群的信息根据需要划分成不同维度，让信息标签化，提炼出个体或整体的用户画像模型，为企业决策指明方向，助力企业迅速找到目标用户，从而转化成更多的价值。互联网时代，客户的信息散乱、庞大，运用人工的统计成本太大，这就需要利用更高效更精准的平台来进行统计分析，C RM重要的作用之一就是大数据分析，建立企业CRM不仅可以实现高效的销售管理，更重要的是可以帮助企业更快更深的了解客户。 CRM，是一个可以将客户所有信息整合的系统，运用一段时间后，系统内就会积累大量的用户信息数据，那么如何将这些数据提炼成用户画像模型从而转化成价值呢? 1、用成交客户模型指导潜在客户对于成交客户，可用CRM挖掘出他们的共性特征，由此来指导对潜在客户的行为。在初始使用CRM时，客户可自定义用户的标签，比如地域、所处阶段、来源等等。成交客户积累一定数量后，CRM会对成交的客户进行阶段平均周期、行业、来源、产品等共性方面统计，形成用户画像模型，让企业了解到哪个行业或地域机会最多，哪种产品最受客户喜爱......

这些共性特征，可用来对潜在客户进行更好的挖掘和服务。例如，在CRM机会分析应用中，直接对销售漏斗阶段进行了呈现，通过大量数据计算出每个阶段的平均停留时间，由此时间点来安排对潜在客户的跟进对策，更快赢单。在营销推广应用中，CRM可以统计成交客户来源数据，通过和最终转化率相比对，提炼出合适的推广渠道，进行精准营销，让利益更大化。 2、个性特征指导个性化服务对成交客户，要研究每个客户的自身数据，如对购买频率、产品购买喜好等进行分析，挖掘出客户购买行为规则，个性化为客户服务，提升客户的满意度和黏性，延长与客户的合作周期。对未成交客户，对客户列表信息、跟进记录等整体情况仔细研究，挖掘出客户顾虑点，更好的为客户服务。用户画像的核心就是数据，如果通过人力进行数据分析，会增加企业的人工、时间成本。CRM可帮助企业实现科学化数据管理，深度认识企业的目标客户，不断完善客户模型，减少目标客户的流失率。企业数据化的实现，CRM是非常关键的一步。

用户画像数据建模方法

从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始，到20年后2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少喜欢红酒的人群中，男、女比例是多少也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌利用聚类算法分析，喜欢红酒的人年龄段分布情况

大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。三、如何构建用户画像一个标签通常是人为规定的高度精炼的特征标识，如年龄段标签：25~35岁，地域标签：北京，标签呈现出两个重要特征：语义化，人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如，判断用户偏好。短文本，每个标签通常只表示一种含义，标签本身无需再做过多文本分析等预处理工作，这为利用机器提取标准化信息提供了便利。人制定标签规则，并能够通过标签快速读出其中的信息，机器方便做标签提取、聚合分析。所以，用户画像，即：用户标签，向我们展示了一种朴素、简洁的方法用于描述用户信息。数据源分析构建用户画像是为了还原用户信息，因此数据来源于：所有用户相关的数据。对于用户相关数据的分类，引入一种重要的分类思想：封闭性的分类方式。如，世界上分为两种人，一种是学英语的人，一种是不学英语的人；客户分三类，高价值客户，中价值客户，低价值客户；产品生命周期分为，投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。这样的分类方式，有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整，造成维度遗漏留下扩展性隐患。另外，不同的分类方式根据应用场景，业务需求的不同，也许各有道理，按需划分即可。本文将用户数据划分为静态信息数据、动态信息数据两大类。静态信息数据

建立用户画像的标签体系

建立用户画像的标签体系王建军前一篇粗略的介绍了建立用户画像的过程，连载二更进一步，以时尚杂志全媒体为业务原型，把抽象的文字描述实例化，从战略目的分析、如何建立用户画像体系、怎么对标签进行分类分层级三个不同角度来说说用户画像建立的过程。梳理标签体系是实现用户画像过程中最基础、也是最核心的工作，后续的建模、数据仓库搭建都会依赖于标签体系。可以获取到的数据分两类，一类是业务系统数据，一类是用户访问网站、APP产生的行为数据。不同的企业做用户画像有不同的战略目的，广告公司做用户画像是为精准广告服务，电商做用户画像是为用户购买更多商品，内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。战略理清楚后，首先要画出描述用户画像的框架，建立用户画像体系框架的目的是进一步明确用户画像的用途、把标签限定在合理的范围内。具体要结合战略目标、数据情况、应用场景来规划标签系统，选取和战略目标一致的标签维度，把标签按照应用场景进行分门别类。同时注意聚焦和收敛，不要把没用标签装进来，以降低系统的复杂性，避免无用信息干扰分析过程。用户画像体系和标签分类从两个不同角度来梳理标签，用户画像体系偏战略和应用，标签分类偏管理和技术实现侧。把标签分成不同的层级和类别，一是方便管理数千个标签，让散乱的标签体系化；二是维度并不孤立，标签之间互有关联；三可以为标签建模提供标签子集，例如计算美妆总体偏好度，主要使用美妆分类的标签集合。

梳理某类别的子分类时，尽可能的遵循MECE原则（相互独立、完全穷尽），尤其是一些有关用户分类的，要能覆盖所有用户，但又不交叉。比如：用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户，用户消费能力分为超强、强、中、弱，这样按照给定的规则每个用户都有分到不同的组里。标签还可以按照处理过程、标签获取的方式进行划分，分为事实标签、模型标签、预测标签。不同类别的处理方式不一样。事实标签：直接从原始数据中提取，例如性别、年龄、住址、上网时段等等模型标签：需要建立模型进行计算，例如美妆总体偏好度预测标签：通过预测算法挖掘，例如试用了某产品后是否想买正品但是有些事实标签，如果用户没有填写的话，就需要建立模型来预测。例如数据库中的年龄字段为空，建立依据用户行为来建立特征工程，然后做预测。参考文档《如何构建用户画像》《你确定你真的懂用户画像？》

如何构建用户画像

作为一名SEMer或信息流优化师，了解用户并满足用户需求是必须要具备的技能。但由于每个人都受限于自己对于事物的认知，可能会导致对同一件事情的理解出现偏差。尤其是当我们把自己对产品的理解拿来当做用户对产品的理解来定义需求时，就容易出现所谓的“弹性用户”。每个人都说是为了用户体验着想，但这样定义出来的用户显然不是产品真实的用户。所以用户画像这个工具就出现了，它是一些真实用户构建出来的原型，用来帮助产品设计人员有针对性的制订产品功能，服务策略，销售策略，从根本上来讲，用户画像就是网络营销人了解用户所使用的。问题来了：我们构建出来的用户画像，真的能够帮助到我们吗? 在用户画像中，我们得知用户的年龄、性别、学历、婚姻状况等基本信息和工作信息，还有用户的一些特点和目标，是不是感觉已经很完善了? 现在这个用户处于无房无车的状态。假设我现在是一个卖车的商家，我应该给她推荐什么样的车? 也许你会说，她比较文艺，那么应该给她推荐带有文艺气息的车。也许你会说，她注重享受，那么应该给她推荐配置豪华的车。也许你还会说，她没车的同时也没房，那可以给她推荐个房车，同时解决了房和车的问题。

于是在有用户画像的情况下，“弹性用户”依然出现了，那么问题到底出在哪呢，这个用户画像为什么不能帮助我们作出正确的决策呢? 人口结构≠用户画像用户画像最早是由Alan Cooper在提出的，在经典的著作《About Face》中有专门的一个章节是讲用户画像，他在书中提到用户画像的核心是观察用户，把观察到的行为的一些独特的方面列出来，形成一个行为变量集。虽然说人口变量(比如年龄、性别、学历、地理位置)等等因素对于行为也有一定的影响，但是这种影响并不能构成用户与用户之间差异化的核心。真正形成差异化核心的是用户的行为，更深入的来说，是用户行为背后的动机。所以这就是为什么上面那个用户画像没办法帮助我们做一个卖车的策略，因为它并没有告诉我们当用户买车的时候，主要考量的因素是什么，是价格，品牌，还是其他的因素。常见的用户画像错误还有描述用户生活中的一天，因为通过观察用户一天的行为只能观察到他做了什么事情，而不能观察到他做这件事情的动机是什么，尤其是对于买车这样决策周期很长的事情来说，观察用户某一天的生活其实意义并不大。这里我们就要讲解一个概念，叫考量度。什么是考量度呢? 它是指用户在做一个决策之前，所需要思考的程度，从思考的多少可以分为高、中、低三个考量度等级。

快速构建用户画像

思路+步骤+方法，三步教你如何快速构建用户画像如果你走在大街上，看到迎面走来了一个前凸后翘、长发飘飘、五官精致、皮肤白皙、大腿修长的人，你内心肯定会一阵惊喜：“哇，美女！”。假如你对这个美女产生了兴（性）趣，你想追求这个美女，那么你会想办法去了解这个美女，比如约她吃饭，出去玩以了解她的性格特征，从她闺蜜那打听她的兴趣、爱好等。当你对这个美女的外在和内在都做了详细的了解之后，你觉得的实时机差不多了，就开始了对美女的表白。其实在你向美女表白前的一些列过程就是在对这个美女进行画像。你在表白前你肯定会对这个美女有了以下判断：外在，她是一个美女。判断依据：前凸后翘，长发飘飘，五官精致，皮肤白皙，大腿修长内在，她很温柔、贤惠、知书达理，她喜欢……判断依据：声音好听、细腻，举止优雅，会做饭，能持家，善解人意等其实我们在做产品或者运营过程中的用户画像也是同样的道理和思路，前面是对单个人的特征描述。在做产品运营过程中的用户画像唯一不同的就是：我们需要对一群人做特征描述，是对一个群体的共性特征的提炼，说白了就是给用户群体打标签。所以用一句话概括：用户画像就是给用户打标签！当然给用户画像不是随随便便的给用户打几个标签就完事，就像你追美女之前的了解工作一样，你需要对美女的外表进行判断，你需要通过跟美女的交往和沟通，或者从闺蜜那进行打听来了解美女的性格，爱好和需求。所以我们在构建用户画像的时候需要遵循一定的思路、步骤和方法。用户画像的思路前面在用美女举例的时候，对美女从内在和外在两个方面进行了判断，用户画像的构建思路其实也是从这两个方面进行展开。在这里我们称之为：显性画像和隐性画像两个方面，具体的思路都是围绕这两个方面进行展开。

用户画像标签建模

用户画像标签建模用户相对稳定的信息，如图所示，主要包括人口属性、商业属性等方面数据。这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗工作，因此这方面信息的数据建模不是本篇文章重点。动态信息数据目标分析用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度，概率。数据建模方法如何根据用户行为，构建模型产出标签、权重。一个事件模型包括：时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件，可以详细描述为：什么用户，在什么时间，什么地点，做了什么事。什么用户：关键在于对用户的标识，用户标识的目的是为了区分用户、单点定位。

什么时间：时间包括两个重要信息，时间戳+时间长度。时间戳，为了标识用户行为的时间点，如，1395121950（精度到秒），1395121950.083612（精度到微秒），通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度，准确度最多也只能到毫秒。时间长度，为了标识用户在某一页面的停留时间。什么地点：用户接触点，Touch Point。对于每个用户接触点。潜在包含了两层信息：网址+内容。网址：每一个url链接（页面/屏幕），即定位了一个互联网页面地址，或者某个产品的特定页面。可以是PC上某电商网站的页面url，也可以是手机上的微博，微信等应用某个功能页面，某款产品应用的特定画面。如，长城红酒单品页，微信订阅号页面，某游戏的过关页。内容：每个url网址（页面/屏幕）中的内容。可以是单品的相关信息：类别、品牌、描述、属性、网站信息等等。如，红酒，长城，干红，对于每个互联网接触点，其中网址决定了权重；内容决定了标签。注：接触点可以是网址，也可以是某个产品的特定功能界面。如，同

用户画像方法与案例——从具象到抽象

象的个性描述，再到抽象应用，如下图所示：

一、群体定量统计分析做用户画像的基础，是通过数据对海量用户有一个初步的了解，一般采用用户数据提取分析与问卷调研两种方式进行，根据产品目标确定统计分析的维度指标。分析的维度，可以按照人口属性和产品行为属性进行综合分析，人口属性：地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等；产品行为：产品类别、活跃频率、产品喜好、产品驱动、使用习惯、产品消费等；以下是腾讯开放平台的一些产品用户属性，年龄与性别的交叉分析，付费用户与年龄的交叉分析。无论是后台数据分析还是用户问卷调研，都需要进行研究的效度与信度论证，保证数据尽量准确可用。做问卷调研，需要做多少份问卷呢？一般是4000份以上，这个时候的抽样置信区间可以达到99%，错误率幅度在2%左右。如果保持错误率2%的水平，置信水平95%，那么问卷数量可以下降到2500份。需要注意的是一般我们回收问卷，还会通过答题完整性、一致性等多项标准剔除无效问卷，所以回收问卷尽量高于标准数量的10%。案例：页游用户年龄与性别分布数据来源：2013年腾讯开放平台白皮书案例：付费用户年龄分布

数据来源：2013年腾讯开放平台白皮书这本白皮书还是有不少用户数据可以供大家参考，有兴趣的同学可以去腾讯开放平台下载：https://www.wendangku.net/doc/8810597324.html,/ 二、具象的定性个体描述也就是创造人物角色，这里先说一个概念：Persona。Alan Cooper提出了Persona这一概念。《赢在用户》这本书将其翻译为“人物角色”，是在上面的海量数据分析基础上，进行具象化得到一个的虚拟用户。有兴趣了解AlanCooper的可以去他的Google+主页看看。链接：https://https://www.wendangku.net/doc/8810597324.html,/101097598357299353681/about

用户画像数据建模方法【转载】讲解

用户画像数据建模方法（转） (2014-09-23 09:06:07) 转载▼ 标签：分类：数据挖掘用户细分标签画像数据挖掘作者：百分点技术总监郭志金从1991年Tim Berners-Lee发明了万维网（World Wide Web）开始，到20年后2011年，互联网真正走向了一个新的里程碑，进入了“大数据时代”。经历了12、13两年热炒之后，人们逐渐冷静下来，更加聚焦于如何利用大数据挖掘潜在的商业价值，如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新，个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析，大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，一个概念悄然而生：用户画像（UserProfile），完美地抽象出一个用户的信息全貌，可以看作企业应用大数据的根基。一、什么是用户画像？男，31岁，已婚，收入1万以上，爱美食，团购达人，喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述，即：用户信息标签化。如果用一幅图来展现，即：

二、为什么需要用户画像用户画像的核心工作是为用户打标签，打标签的重要目的之一是为了让人能够理解并且方便计算机处理，如，可以做分类统计：喜欢红酒的用户有多少？喜欢红酒的人群中，男、女比例是多少？也可以做数据挖掘工作：利用关联规则计算，喜欢红酒的人通常喜欢什么运动品牌？利用聚类算法分析，喜欢红酒的人年龄段分布情况？大数据处理，离不开计算机的运算，标签提供了一种便捷的方式，使得计算机能够程序化处理与人相关的信息，甚至通过算法、模型能够“理解”人。当计算机具备这样的能力后，无论是搜索引擎、推荐引擎、广告投放等各种应用领域，都将能进一步提升精准度，提高信息获取的效率。