文档库 最新最全的文档下载
当前位置:文档库 › 毕业设计中英文翻译

毕业设计中英文翻译

Terry Lau 1 张韶峰1 周 涛21

北京百分点信息科技有限公司2

电子科技大学

推荐引擎:信息暗海的领航员

引言

互联网的发展使我们获取的信息总量以指数级别增长,目前已知的网页超过5000亿,仅淘宝网上就有接近10亿件商品。而我们分辨甄选信息的能力并没有提高。对于普通用户来说,大多数信息是暗信息——我们有可能对某些信息感兴趣,但由于没有“领航员”的帮助,我们无法看到这些信息。这种被称为“信息过载”的问题,正是目前互联网发展中遇到的最棘手、最重要的问题。

推荐引擎最有希望解决信息过载的问题。推荐引擎的本质是通过分析用户历史活动的记录,包括音乐下载、视频观看、图书购买、网络约会、朋友互动、论坛评论等等,分析用户的个性化喜好,主动向用户推荐他们感兴趣的信息。推荐引擎的精髓是个性化,通过分析群体数据,得到每位用户的个性化喜好,再进行个性化推荐。很多用户最早接触的推荐引擎是亚马逊(A m a-zon )的推荐服务,因此留下了一些刻板的印象,例如推荐引擎服务的都是电子商务公司,采用的都是相似的挖掘方法(比如关联规则和协同过滤),“看过还看过,买过还买过”这类推荐通过简单的数据库查询就可以完成。

我们正在经历由个性化推荐技术构筑未来商业模式,基于很多读者对个性化推荐的憧憬和误解,本文将以国内领先的推荐引擎提供商为实例,介绍其架构和算法,展示基于个性化推荐技术的应用场

关键词:推荐引擎 电子商务 海量数据

景和产品,呈现较完整的个性化推荐的轮廓。

系统架构

作为商用的推荐引擎,良好的架构设计是服务稳定、可靠和扩展的基础。

如图1所示,百分点推荐引擎分为存储层、业务层、算法层和管理层四大功能组件。每个组件内部又分为更小的单元或者服务模块,提供基本的存储或运算服务。单元与单元之间尽量解耦和,仅通过API 协议进行协作,这样一个单元的升级变动带来的影响是可控的。

存储层 提供基本的数据存取服务,并做好

备份和容灾恢复工作,以保证数据的安全可靠。根据不同的应用需求,存储层分为Redis 集群、Mem-base 集群、MySQL 集群和Hadoop/HDFS 四类。其中Redis 和Membase 作为缓存,提供高效的读写操作,支持实时计算,MySQL 集群用于固化缓存中的数据,Hadoop/HDFS 为海量数据的存储和分析提供支持。

算法层 是推荐引擎最核心和最具挑战性的

部分,在百分点推荐引擎中是一系列推荐算法的集合,包括简单的基于相关的联规则挖掘、用户协同过滤、产品协同过滤、局部扩散与热传导算法,复杂的考虑标签、内容和属性的统计学习模型,剖分用户长短期兴趣的实时自适应算法等等。算法层不关心具体的业务逻辑,只负责数据处理和结果返

回。这使得推荐算法具有了最大的通用性,也保证了前端的推荐功能模块可以根据逻辑需求综合多个算法。

业务层 是推荐引擎中直接面向客户的部

分,主要职责是收集客户提交的数据,将其转换为推荐算法需要的输入,交由推荐算法计算;根据客户提交的推荐请求,请求一个或几个推荐算法数据,转换为客户接收的数据格式。业务层是连接具体需求与推荐算法,真实世界与计算机世界的桥梁。

管理层 负责整个系统的服务管理、服务监

控和应急处理,是推荐引擎的控制中枢,直接决定了推荐服务的质量和体量。百分点推荐引擎响应请求的平均时间在200毫秒左右,每天处理5000万次左右的推荐请求,每天通过推荐引擎产生价值400万元的订单,这个数字还在快速上升。推荐引擎的内部升级维护不影响对外提供服务。这些指标的实现都是以高可靠的管理层为基础的。

目前,百分点推荐引擎为200多家客户服务,这些客户来自于电子商务零售业、团购业、互联网资讯业等多个行业,业务需求千差万别。正是因为有良好的架构设计,百分点推荐引擎才能在跨度如此之大的应用场景中游刃有余。

案例

推荐引擎的应用不仅局限于商品的推荐。目前,以个性化推荐为主营业务的公司,

除了百分点科技公司以外,还有Baynote 、ChoiceStream 和Goodrec 等等。很多公司自行开

发推荐引擎。从表1中可以看到,信息推荐应用非常广泛。

图2是推荐引擎最常见的表现形式——“看过还看过”与“买过还买过”推荐栏,类似的有“看过的最终购买”,“买过还看过”等等。图2中

的信息来自于百分点合作伙伴“新七天电器网”的真实推荐,这两个用户最终都购买了推荐栏中的产品。“看过还看过”推荐栏的产品品类比较集中,表1 推荐引擎服务公司及其推荐产品示例(更多的例子可以参考苏萌等人的著作

《个性化:商业的未来》)

图1 百分点推荐引擎架构图

基于用户行为的推荐算法基于内容的推荐算法基于资源扩散的推荐算法基于热传导的推荐算法聚类算法关联规则算法……

算法层

业务层

HTTP Web Service

存储层

Redia集群 Membase集群 MySQL集群 Hadoop/HDFS

配置管理

管理层

自动应急处理

服务监控

这是因为用户在“选择—购买”的阶段,其行为具有“聚焦性”,大多围绕同一品类产品进行比较筛选。当用户购买商品后,“买过还买过”或者“买过还看过”的产品,就具有一定的“发散性”。很多用户都不会购买两个同品类的产品,例如你会一次性买两只篮球吗?这类推荐栏绝对不是简单的数据库查询就能得到的,除了要对数据进行严格的异常检测和去噪去偏处理外,在计算商品推荐分数的时候,往往都是基于内容、行为、网络结构等因素的多种推荐算法的组合应用,而组合应用中各成分的权重以及动态参数选择都需要强有力的自适应后验系统(根据用户行为反馈实时进行学习优化)和A/B 测试系统(将用户随机分为两类或多类,每类展示不同算法的结果)支持。

图3是个性化着陆页

的示意图,摘自百分点科技的合作伙伴“酷运动”网站上的真实信息。该应用的基本思路是,通过分析注册用户或存放有相关cookie 的用户最近在“酷运动”的浏览和购买记录,在用户下一次登陆的时候,给出个性化的展示,原则上每一个用户登陆

图3 个性化着陆页示意图

个性化着陆页示例

访客A再次登录酷运动后看到的推荐商品。

访客A最近在酷运动网站上点击并浏览了商品a 和商品b 。

访客B最近在酷运动网站上点击并浏览了商品c 和商品d 。

访客B 再次登录酷运动后看到的推荐商品。

商品a 商品b 商品c 商品d

个性化着陆页推荐商品

个性化着陆页推荐商品

图2 “看过还看过”与“买过还买过”推荐栏示意图买过还买过推荐栏

看过还看过推荐栏

用户当前浏览的商品 用户最终购买的商品用户当前浏览的商品 用户最终购买的商品

“酷运动”看到的首页都不一样。如图3所示,用户A 曾经在“酷运动”上浏览(但未购买)过两款鞋,本次登陆“酷运动”后首页中栏就向他展示了关联的推荐;用户B 几天前曾经在“酷运动”上浏览过裤子和衣服,本次登录看到的网站首页就和用户A 不一样。百分点科技目前已积累和拥有超过200家电子商务共计1.45亿可识别用户的近百亿次浏览和购买偏好记录。在客户选择加入联盟的情况下,全网打通的用户兴趣图谱将帮助其服务的每一个企业显著提高用户转化率与销售额。一个用户在耐克网站上浏览了很多漂亮慢跑鞋,但是因为价格太贵没有购买,其登录到“酷运动”可能就会接受称心且便宜的慢跑鞋推荐,这对于用户来说是一种难得的惊喜。这种方式可以解决推荐引擎中一部分“冷启动问题”,是个性化推荐未来发展的方向之一。

图4给出了百分点科技为合作伙伴“猛买网”提供的电子邮件营销(EDM )的个性化服务。该服务具有和上述案例不同的形式,但是其技术内核依然是个性化推荐。由于采用了个性化的标题和称谓,该邮件成功地通过垃圾邮件过滤的比例是原来

的3倍左右,而且其被打开的

概率是原来的4~5倍,总体打开率达到原来的十多倍,数量级提升的效果完全来自于个性化推荐。

结语

本文简单介绍了推荐引擎发展的背景和意义,并以推荐服务提供商百分点科技为例,介绍了推荐引擎实施的架构和三个典型案例。推荐引擎个性化推荐的核心技术将驱动并铸就未来的商业模式,是一种适用于丰富场景并衍生出丰富产品的通用技术系统。成功的推

荐引擎必然建立在若干高效算法智能融合的基础之上。

张韶峰

百分点公司技术副总裁。主要研究方向为推荐系统、数据挖掘和商业智能在互联网、电子商务领域的应用。

shaofeng.zhang@https://www.wendangku.net/doc/e36918295.html,

Terry Lau

北京百分点信息科技有限公司架构师。主要研究方向为软件理论、程序

语言以及形式化方法。

周 涛

电子科技大学互联网科学中心主任、教授。

zhutou@https://www.wendangku.net/doc/e36918295.html,

图4 个性化电子邮件营销示意图

个性化电子邮件示例

个性化标题个性化称谓个性化卖点 品牌 品类 价格 ……

个性化内容匹配用户偏好的商品推荐 新品促销 交叉销售 用户保留 ……

相关文档
相关文档 最新文档