文档库 最新最全的文档下载
当前位置:文档库 › 模拟画像技术漫谈

模拟画像技术漫谈

模拟画像技术漫谈
模拟画像技术漫谈

模拟画像技术漫谈

12级刑事科学技术专业

张凡20120940509

模拟画像又称刑侦画像、公安画像等,是依据目击者的语言描述,利用素描等方法模拟刻画出犯罪嫌疑人相貌特征的技术方法。

传统的模拟画像一般是人工手绘,是介于科学和艺术之间的产物。它具有自身独特的优点,即受时间、地点、设备条件的限制;二是简便,画家一人到案发地点,可进行工作,但是这种方法只能为少数专家掌握。况且,部分目击者心目中的形象无法用语言来描述,故使工作难以进行。随着科技的发展,又研制出多种人像合成的仪器,其基本原理是将印有各个部分的透明胶片重叠放在幻灯盒上合成,略作微调,可能达到与目击者认为近似的效果,虽较前者更容易普及,但这种机械原理的合成器,效果往往不理想,总感觉做不到相似,且对远途破案带来不便,近几年来,在国内外开始普及电脑合成器,其基本原理和机械合成器有许多相似之处。收集形象素材丰富,以计算机为载体,运用提高、参照、组合等方法,回复目击者所见到的犯罪嫌疑人像,使用简便,且速度快,克服了传统人工手绘模拟画像技术时间长,只为少数专家掌握等缺点。但想要对所画像达到相似,也需要操作者有一定的艺术素养和较扎实的写实绘画功底,因为相似的因素相当多。

目前,我国还没有一所高等院校建立刑侦画像相关人才培养的教学研究机构,对刑侦画像技术理论及技能培训的研究严重贫乏,国内

大部分省市公安机关都缺乏相关方面的人才。因此,如何对刑侦画像技术人才的培养目标、教学体制、实践运用等问题进行系统地研究开发,建立起这一技术的人才培养体系,使刑侦画像技术的人才队伍建设科学化、制度化、规范化,具有重大的司法实践价值与现实指导意义。

一、刑侦画像的历史发展状况

模拟画像的历史悠久,是人们熟知的一种刑侦手段,《国语楚语》记载,春秋战国时期,楚平王要杀伍子胥,便在出国各地通缉捉拿伍子胥。古戏《文韶关》中有伍子胥因楚国画像通缉,难以过关而一夜急白了头的故事,可以说这是中国历史上最早的一次通缉。以后历朝历代也用这种办法通缉犯人,到了明清时期,官府在缉拿案犯时常开具“海捕文书”,绘制案犯的画像以便官民辨识和缉拿。古代衙门办案,需要通缉案犯,通常临时聘请画师绘制,画师采用的是中国传统白描勾勒的手法,这种方法简单概括、以形写神,画师们往往依据个人和经验常识来描绘,并没有专人从事这项工作,一直未形成一门独立的侦查技术手段。

现代社会,刑侦画像已经成为刑侦领域国际上普遍采用的重要手段之一。在我国,通过一批批大案、要案的侦破,公安机关逐渐认识到刑侦画像技术的巨大价值和重要作用,刑侦画像在案件侦破中的使用范围逐步扩大。目前,我国已经把刑侦画像列为刑事科学技术范围之一,并把这项技术作为科技强警的重要技术学科。

二、模拟画像技术的学科价值及其人才培养现状

在犯罪现场调查中,任何案件的侦破,首先从围绕着收集、寻找各种有用的线索痕迹开始,最终落实到证实、确定犯罪嫌疑人。如果在调查中能够发现关于犯罪嫌疑人体貌特征的信息吗,并准确迅速地以画像技术刻画出来,该案就已经具备了破案的必要条件。事实上,大多数办案单位在犯罪现场勘查、调查访问中,往往忽略了这项技术的应用,致使刑事侦查在开始的时候就已经受到危害,丢失了宝贵的侦查资源。基于人类识别相貌的本能,直观准确的形象能够正确界定侦查方向、缩小侦查范围,进而缩短破案的周期,提高破案效率。司法实践证明,模拟画像是刑侦工作中一种科学有效、成本低廉、容易普及和推广的技术手段,具有其他技术不可替代的作用。

模拟画像石一门专业性、综合性很强的边缘性学科,这门学科以绘画技能为基础,包括心理分析、刑事侦讯、法律基础等综合性知识,涉及到艺术学、心理学、生理医学、刑事侦查学、法学等多种学科。模拟画像技术强调绘画技能与其他相关知识紧密结合,能动地作用于整个模拟画像过程中。刑侦画像技术要求画像技术人员能够深入细致地研究案情和分析现场状况,重视犯罪信息、情报资料的归纳整理,整体判断作案人各个方面的线索痕迹,特别是犯罪嫌疑人相貌特征。因此,必须深入细致地研究刑侦画像技术的专业属性、技术特点,探索发现规律,合理有效地开发利用这项技术,充分发挥其学科价值作用。努力把刑侦画像建设成一门独立地学科技术专业,使刑事科学技术的学科内容更加完善、日趋成熟,以适应刑事科学技术的发展与公安工作的实际需要。

而在培养高水平模拟画像人员方面,应该从以下几个方面进行:1、学好理论知识

模拟画像既可以人工手绘,也可以以计算机为载体运用参照、组合等方法来进行组合画像,尽管有些没有进行过专业美术训练的人也曾画出成功的模拟画像,但从模拟画像这一专业的特性来讲,掌握有关医学解剖知识和扎实的美术基本功,了解犯罪心理学是及其必要的。

2、加强沟通理解能力

模拟画像不同于普通画像,一位画家不一定会是一位合格的模拟画像技术人员。因为模拟画像是通过调查访问受害者和目击者等有关人员,根据他们的记忆描述,依据逆向追溯的逻辑方式,通过绘画的方法和电脑组合人像等方法,再现犯罪嫌疑人的体貌特征。而目击者的智力、心理、性别、年龄、职业、文化程度、民族风俗、生活环境、社会经验都有所不同,语言表述能力有高有低,且目击者的记忆还会受到当时环境、光线等诸多方面因素的影响,这就需要模拟画像拘束人员具有一定沟通理解能力。

3、掌握地区特点差异

不同国家的人有着不同的相貌特点,不同地区的人的相貌也各有差异。在努力学习绘画技能的同时也应该了解一下人种学的相关知识,了解不同地区的人的外貌有何特点,为日后的实践工作打好基础。

三、构建模拟画像专业学科的展望

在高等公安政法类院校设置模拟画像专业,将填补我国模拟画像技术人才培养的空白,是夯实公安刑侦基础工作的重要举措,其专业

学科的框架应具备如下三方面的要求。

(一)在有一定学科基础的高等公安政法院校建立刑侦画像的专业和教育培养机构

(二)科学规范地建设刑侦画像专业的学科内容,夯实刑侦画像专业的学科基础

(三)建立合理的培训选拔机制,打造特色优势品牌专业

刑侦画像及其人才培养的研究,对刑侦画像人才培养的学科价值、规格要求、专业建设、方法机制和实践运用等进行系统的研究,探索在有一定学科基础的公安政法院校建立刑侦画像专业及教育培养机构,使刑侦画像技术的人才培养与技术运用科学化、规范化。该研究赋予刑事侦查学人才培养的新含义,将拓宽刑事科学技术发展之路,为我国公安刑侦战线培养全面掌握刑侦画像技术方法与相关知识的高素质复合型应用人才服务。

手机支付用户画像研究

成果上报申请书

1、“成果专业类别”指:核心网、无线、传输、IP、网管、业务支撑、管理信息系统、市场研究、数据业务、数据网络、通信电源、空调、其他。 2、“成果研究类别”指:超前研究、新产品开发、相关网络解决方案、现有业务优化、其他。 3、“所属专业部门”指:完成该成果的单位在省公司或地市分公司所属的专业部门线条。可填写:规划计划线条、网络线条、业务支撑线条、管理信息系统线条、数据线条、市场线条、集团客户线条、其他。 4、“省内评审结果”指:优秀、通过。 5、“对企业现有标准规范的符合度”指:列举该成果使用并符合的中国移动统一发布的企业标准的名称和编号,详细描述该成果在现有的企业标准基础上所需新增的功能

要求(如业务流程的改变、设备新增的功能要求等)。 6、成果来源指:如果该成果来源于集团研发项目,请填写研发项目的年度、项目名称和类型(类型包括:集团重大研发项目、集团重点研发项目、省公司自立项目)。 7、专利情况指: 1)类型:发明、实用新型、外观 2)名称:该成果申请专利的名称 3)申请号:由知识产权审查机构授予的该成果专利申请号 4)状态:申请中、已授权 8、“文章主体”:根据不同科技成果分类实施不同的主体要求,具体如下: 1)超前研究类成果主体包括: ?背景情况 ?技术特点分析 ?标准化情况 ?其他运营商应用情况(可选) ?技术发展趋势 ?引入策略分析 2)相关网络解决方案类成果主体包括: ?背景情况 ?技术方案:概述、网络解决方案(如果涉及到网络方面的改造,信令改造,路由改造等,应有详细的描述)、设备及系统改造/建设要求、码号资源需求 ?效果(解决了哪些问题) ?本省应用推广情况 3)新产品开发类成果主体包括: ?业务及功能简介:业务概述、业务主要功能介绍 ?技术实现方案:包括业务实现组网结构图、相关系统(平台、终端)功能和要求、业务实现流程、码号要求等 ?业务申请和开通:包括用户范围及业务使用范围、业务申请与注销等 ?业务商务模式及资费:包括商务模式、业务资费模式、业务收费方式等 ?市场前景分析 4)现有业务优化类成果主体包括: ?业务及功能简介:业务概述、业务主要功能介绍 ?现有业务存在的问题:现有缺陷分析、解决问题的思路 ?原有业务方案/流程:业务实现组网结构图、相关系统(平台、终端)功能和要求、业务实现流程 ?优化后的方案/流程:业务实现组网结构图、相关系统(平台、终端)功能和要求、业务实现流程 ?优化后达到的效果,产生的经济效益 5)其他类成果主体,参考1)-4)的成果主体要求,阐述清楚项目背景、实现方案、解决的问题、取得的社会和经济效益等。

【数据分析技术系列】之用户画像数据建模方法

【数据分析技术系列】 之用户画像数据建模方法 目录 一、什么是用户画像? (1) 二、为什么需要用户画像 (1) 三、如何构建用户画像 (2) 3.1数据源分析 (2) 静态信息数据 (3) 动态信息数据 (3) 3.2目标分析 (3) 3.3数据建模方法 (4) 四、总结: (6)

从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始到2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。 一、什么是用户画像? 男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。 这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。 如果用一幅图来展现,即: 二、为什么需要用户画像 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜

欢红酒的人群中,男、女比例是多少?也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况? 大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。 三、如何构建用户画像 一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。 人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。 3.1 数据源分析 构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。 对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。 这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。 本文将用户数据划分为静态信息数据、动态信息数据两大类。

如何搭建用户画像的标签体系

如何搭建用户画像的标签体系 1摘要 1.用户标签是构成用户画像的核心因素,是将用户在平台内所 产生的行为数据,分析提炼后生成具有差异性特征的形容词。 即用户通过平台,在什么时间什么场景下做了什么行为,平 台将用户所有行为数据提炼出来形成支撑业务实现的可视化 信息。 2.标签分为三种属性:静态标签判断用户基础需求,动态标签 提升用户体验,预测标签提升用户转化,提高产品价值。 3.“贴标签”形式有两种:用户主动选择特定标签和平台结合用 户行为给用户“贴标签”。 4.标签优化方式:机器优化和人工优化。 5.搭建标签体系流程:收集需求-建立规则-填充数据-标签维护。 6.在公司中,搭建标签需运营、产品、技术协调配合完成;运营 负责制定规则,产品结合业务审核标签合理性,技术负责实 现。 7.标签的作用:增强公司竞争壁垒,提升产品价值,提高运营 效率。 Tips: 1.业务导向:用户标签要贴近产品业务场景及产品所处行业建 立,避免标签脱离业务。 2.数据验证:标签的准确性和数据息息相关,不能只通过用户 1、2次点击某商品或内容,就确定用户对此感兴趣,要结合 数据趋势变化,不断验证,以免片面下结论导致用户画像不 准确。 3.持续优化:伴随用户年龄、偏好等阶段变化,用户需求和在 平台内的行为会不断变化,保持敏锐的用户嗅觉,利于产品 优化迭代,利于公司可持续发展。

2用户标签是什么 用户标签是构成用户画像的核心因素,是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的形容词。即用户通过平台,在什么时间什么场景下做了什么行为,平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息。 3标签体系的目标 产品的本质是用户,用户画像的本质是标签,给用户“贴标签”,最主要的作用是构建产品的用户画像,而精准的用户画像是多方共赢的前提。 公司战略:公司可持续发展的核心,一方面使公司更具竞争壁垒,及时洞察市场风向,预测产品所占市场规模及前景发展,及时优化公司战略,避免过早陷入发展瓶颈;另一方面沉淀大批用户数据,既利于孵化创新产品,也丰富盈利模式(比如与第三方合作)。 产品设计:提升产品价值关键因素,基于精准人群的需求分析和功能设计,更容易得到用户认可,更容易打造产品亮点,提供精准个性化的服务,比如对于社区产品,内容个性化推荐将有效提升社区粘度。 运营管理:用户标签是精细化运营的基础,能有效提高流量的分发效率和转化效率。提高运营效率;如今的新用户获客成本居高不下的情况下,利用现有用户画像,做好存量用户的维护,通过精准营销策略,提升存量用户的留存与活跃。 4标签体系的应用场景 4.1应用场景分类 标签和画像实际上是对数据的再加工,根据不同的加工输出可分成四大类应用场景(如下图):

用户画像系统的技术架构和整体实现

用户画像系统的技术架构和整体实现 本文主要从数据整理、数据平台、面向应用三个方面,一一探讨用户画像的技术架构和整体实现。 数据整理: 1、数据指标的的梳理来源于各个系统日常积累的日志记录系统,通过sqoop 导入hdfs,也可以用代码来实现,比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式,可以通过将数据写入本地文件,然后通过sparksql 的load或者hive的export等方式导入HDFS。 2、通过hive编写UDF 或者hiveql 根据业务逻辑拼接ETL,使用户对应上不同的用户标签数据(这里的指标可以理解为为每个用户打上了相应的标签),生成相应的源表数据,以便于后续用户画像系统,通过不同的规则进行标签宽表的生成。 数据平台 1、数据平台应用的分布式文件系统为Hadoop的HDFS,因为Hadoop2.0以后,任何的大数据应用都可以通过ResoureManager申请资源,注册服务。比如(sparksubmit、hive)等等。而基于内存的计算框架的出现,就并不选用

hadoop 的MapReduce了。当然很多离线处理的业务,很多人还是倾向于使用Hadoop,但是hadoop的封装的函数只有map和Reduce太过单一,而不像spark一类的计算框架有更多封装的函数(可参考博客spark专栏)。可以大大提升开发效率。 2、计算的框架选用Spark以及RHadoop,这里Spark的主要用途有两种,一种是对于数据处理与上层应用所指定的规则的数据筛选过滤,(通过Scala编写spark代码提交至sparksubmit)。一种是服务于上层应用的SparkSQL(通过启动spark thriftserver与前台应用进行连接)。RHadoop的应用主要在于对于标签数据的打分,比如利用协同过滤算法等各种推荐算法对数据进行各方面评分。 3、MongoDB内存数据的应用主要在于对于单个用户的实时的查询,也是通过对spark数据梳理后的标签宽表进行数据格式转换(json格式)导入mongodb,前台应用可通过连接mongodb进行数据转换,从而进行单个标签的展现。(当然也可将数据转换为Redis中的key value形式,导入Redis集群) 4、mysql的作用在于针对上层应用标签规则的存储,以及页面信息的展现。后台的数据宽表是与spark相关联,通过连接mysql随后cache元数据进行filter,select,map,reduce等对元数据信息的整理,再与真实存在于Hdfs的数据进行处理。 面向应用 从刚才的数据整理、数据平台的计算,都已经将服务于上层应用的标签大宽表生成。(用户所对应的各类标签信息)。那么前台根据业务逻辑,勾选不同的标签进行求和、剔除等操作,比如本月流量大于200M用户(标签)+本月消费超过100元用户(标签)进行和的操作,通过前台代码实现sql的拼接,进行客户数目的探索。这里就是通过jdbc的方式连接spark的thriftserver,通过集群进行HDFS

建立用户画像的标签体系

建立用户画像的标签体系 王建军 前一篇粗略的介绍了建立用户画像的过程,连载二更进一步,以时尚杂志全媒体为业务原型,把抽象的文字描述实例化,从战略目的分析、如何建立用户画像体系、怎么对标签进行分类分层级三个不同角度来说说用户画像建立的过程。梳理标签体系是实现用户画像过程中最基础、也是最核心的工作,后续的建模、数据仓库搭建都会依赖于标签体系。 可以获取到的数据分两类,一类是业务系统数据,一类是用户访问网站、APP产生的行为数据。 不同的企业做用户画像有不同的战略目的,广告公司做用户画像是为精准广告服务,电商做用户画像是为用户购买更多商品,内容平台做用户画像是推荐用户更感兴趣的内容提升流量再变现。 战略理清楚后,首先要画出描述用户画像的框架,建立用户画像体系框架的目的是进一步明确用户画像的用途、把标签限定在合理的范围内。具体要结合战略目标、数据情况、应用场景来规划标签系统,选取和战略目标一致的标签维度,把标签按照应用场景进行分门别类。同时注意聚焦和收敛,不要把没用标签装进来,以降低系统的复杂性,避免无用信息干扰分析过程。 用户画像体系和标签分类从两个不同角度来梳理标签,用户画像体系偏战略和应用,标签分类偏管理和技术实现侧。 把标签分成不同的层级和类别,一是方便管理数千个标签,让散乱的标签体系化;二是维度并不孤立,标签之间互有关联;三可以为标签建模提供标签子集,例如计算美妆总体偏好度,主要使用美妆分类的标签集合。

梳理某类别的子分类时,尽可能的遵循MECE原则(相互独立、完全穷尽),尤其是一些有关用户分类的,要能覆盖所有用户,但又不交叉。比如:用户活跃度的划分为核心用户、活跃用户、新用户、老用户、流失用户,用户消费能力分为超强、强、中、弱,这样按照给定的规则每个用户都有分到不同的组里。 标签还可以按照处理过程、标签获取的方式进行划分,分为事实标签、模型标签、预测标签。不同类别的处理方式不一样。 事实标签:直接从原始数据中提取,例如性别、年龄、住址、上网时段等等 模型标签:需要建立模型进行计算,例如美妆总体偏好度 预测标签:通过预测算法挖掘,例如试用了某产品后是否想买正品 但是有些事实标签,如果用户没有填写的话,就需要建立模型来预测。例如数据库中的年龄字段为空,建立依据用户行为来建立特征工程,然后做预测。 参考文档 《如何构建用户画像》 《你确定你真的懂用户画像?》

如何进行用户画像

如何进行用户画像 在产品研发过程中,确定明确的目标用户至关重要。不同类型的用户往往有不同甚至相冲突 的需求,我们不可能做出一个满足所有用户的产品。 为了让团队成员在研发过程中能够抛开个人喜好,将焦点关注在目标用户的动机和行为上,AIan CooPer提出了PerSona这一概念。赢在用户”这本书将其翻译为人物角色” 在腾讯我们习惯了使用用户画像”这个术语。表达的意思一样,是真实用户的虚拟代表,是 在深刻理解真实数据的基础上得出的一个的虚拟用户。我们通过调研去了解用户,根据他们 的目标、行为和观点的差异,将他们区分为不同的类型,然后每种类型中抽取出典型特征,赋予一个名字、一张照片、一些人口统计学要素、场景等描述,就形成了一个用户画像。 Cooper同时也指出,不能为超过3个以上的用户画像设计产品,否则相互冲突的需求就会让我们难以决断。当我们有多个用户画像时,我们需要考虑用户画像的优先级,在产品 设计时,首先考虑满足首要用户画像的需求,然后在不冲突的情况下尽量满足次要用户画像 的需求。当然,当一个产品非常复杂时,我们可能需要针对不同的模块来考虑其用户画像的优先级,比如,一个综合购物网站中,某个女性角色在女装版块是首要用户画像,但是在男 装版块上就成了次要用户画像了。 最佳做法是在产品研发的初期就进行细致的调研并创建产品的用户画像,然而,在实际操作中,很多时候大家可能会觉得某个产品可以做就去做了,产品推出之后发现实际的用户 与先前设想的用户存在比较大的偏差,而基于先前设想的用户所设计的产品架构却很难承载 实际用户的需求。此时首要工作仍然是定义好产品的目标用户。 如何创建用户画像呢?下面以我所负责的一款企业产品为例,来讲述用户画像的创建过程,希望和大家一起交流经验。在这个项目中我们通过定性研究创建了用户画像。当然如果 必要,大家也可以在后期再通过定量研究对得到的用户画像进行验证。然而,即使要创建定 量用户画像,前期充分的定性调研也非常重要,在对聚类分析结果的解读或参数的调整中,对用户的充分理解可以帮助我们创建出有意义的用户画像。 用户画像的创建可分为以下几个步骤: 研究准备亲和圏用户画像框架优尖级排列用户画像与SM收隼 研究准备与数据收集 和所有研究一样,首先我们要确定被访用户类型、设计研究方案和调研提纲。 首先出现的问题是:我们要找谁进行调研。由于调研的目的是创建用户画像,所以,我 们应该尽可能的调研最大范围的不同用户。通过与不同部门的同事进行脑暴找出可能的各种用户类型,我们可能会得到一个条件列表,或者一个如下的用户矩阵,然后就可以根据这些条件去邀约用户了,每种类

用户画像数据建模方法【转载】讲解

用户画像数据建模方法(转) (2014-09-23 09:06:07) 转载▼ 标签: 分类:数据挖掘 用户细分 标签 画像 数据 挖掘 作者:百分点技术总监郭志金 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。 一、什么是用户画像? 男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。 这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。 如果用一幅图来展现,即:

二、为什么需要用户画像 用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少? 也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况? 大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解”人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。

相关文档
相关文档 最新文档