当前位置：文档库 › 大数据平台及方案

大数据平台及方案

行业大数据应用开发和分析平台及案例应用

1. 背景

2000年后，随着互联网的快速发展，互联网中网页的数量呈几何式增长，大规模数据分析相关应用和技术开始倍受关注。至2000年底，全球网页的数量已达到40亿，互联网用户从网络中检索信息越来越不方便，为解决这一问题，谷歌等大型互联网公司率先建立了覆盖数十亿网页的索引库，并为互联网用户提供精准的检索服务，有效地提升了互联网内容的检索效率。随着网页库的不断增大，需要存储、管理和处理的数据量不断增大、种类不断增多，这对互联网公司提出新的挑战，传统的技术在效率和效果上已经无法满足实际的应用需求。为以较低成本实现对以往技术无法达到的数据处理规模，Google分别提出分布式系统Google File System（GFS）、分布式并行计算框架MapReduce和分布式数据库BigTable等，这些技术奠定了大规模数据处理和应用基础。

随着大规模数据在互联网领域的商业价值的体现，启发了社会对数据价值的重新审视。年，麦肯锡、世界经济论坛等知名机构和组织对大规模数据分析领域进行了研究总结，随即世界范围的“大数据”（Big Data）热潮发起。政府、医药、电信、银行、制造等经过多年积累而掌握了大数据的行业开始关注以“数据驱动创新”的领域，并且都想利用这些数据（命名为“行业大数据”），从中获取“知识”，从而帮助提升行业建设并创造更高的经济价值。

行业大数据产业的发展急需面向行业的大数据应用开发和分析平台的支撑。尽管目前业界已有诸多数据挖掘工具，如KNIME、Clementine、SPSS、WEKA 等。然而这些工具仅针对数据分析单一环节，并且，这些工具的可扩展性不高，功能扩展具有局限性，还不能有效快捷的行业订制化大数据应用开发和部署。建立统一、灵活、易用的行业大数据应用开发和分析平台具有重要的研究价值和实际应用价值，它将进一步提升行业大数据的实际价值，推动行业大数据技术的进步，带动各行业大数据智能应用产业的发展。

2. 相关现状

图1 传统数据挖掘工具的基本框架

为使数据挖掘过程方便易用，各厂商开发了可视化、可配置的数据挖掘工具，如KNIME、Clementine等（见图1）。这种界面友好的系统交互模式是可以被借鉴。然而，目前常见的数据挖掘工具的基本应用模式（见图2）无法满足目前大数据应用开发和分析的实际需求。

图2 传统数据挖掘工具的基本应用模式

首先，输入系统的数据一般要求事先人工构造并结构化，而大数据具有规模大、结构复杂等特点，以人工的方式构造充足、有效的数据耗时费力、成本巨大、维护困难。另一方面，以人工构造的小规模数据为分析对象获得的分析结果对描述大数据实际蕴含的知识的能力有限，甚至结果可能与实际偏离较大，结果的可靠性不高。

其次，现有数据挖掘工具提供的ETL功能有限，在大数据来源多样、结构复杂、描述不规范问题面前显得捉襟见肘，灵活性和实用性较低。输入系统的数据要求是被精心处理过的干净数据，这主要是因为传统的数据挖掘算法要求数据具有较高的质量，如此才能得到较准确的结果。而在行业大数据应用开发和分析实际背景下，现有工具还无法满足实际的应用需求。

图3 Clementine提供的用于数据分析全过程的功能

第三，常见的数据挖掘工具功能固化，无法适应灵活多变的行业大数据应用开发和分析需求。以Clementine为例，其提供的数据分析全过程包含的功能（如图3所示）仅为一些常见且通用的方法。而对于行业大数据应用开发和分析而言，针对不同的数据类型和特点，通用的数据处理和分析方法无法满足实际需求。根据应用和分析任务本身，灵活订制开发专用的流程和算法具有更高的价值。

此外，尽管常见的数据挖掘软件在提供开发界面的同时还提供了丰富的API，然而，其在使用上十分复杂，即使是有经验的开发人员要在其基础上开发相关的应用，也需要花费大量的时间了解其API结构，扩展性不强。

第四，常见的数据挖掘工具结果输出单一，主要以图表的形式展现，缺乏领域知识表达，需要行业专家的二次解读。同时，同样的分析结果，不同的领域专家会给出不同的解读，客观性和一致性不强。

3. 行业大数据应用开发和分析解决方案

（1）传统的开发模式到面向服务的开发模式的转变：

传统的开发模式以项目驱动开发，针对具体需求，设计复杂的代码架构和接口。然而，这种开发模式产生的软件的性能和质量完全依赖于开发人员的技术水平，并且开发成本巨大。

面向服务的架构（Service-Oriented Architecture）是一个组件模型，它将应用的不同功能单元称为服务，通过这些服务之间定义良好的结构和契约联系起来。接口独立于其它条件采用中立的方式定义。面向服务的开发模式更注重业务分析，通过清洗的业务流程描述和完成业务流程的各项服务的装配形式完成应用的开发，功能由具体构件完成，但不拘泥于具体实现细节，以完成应用功能为主要目的。面向服务的开发模式具有质量标准统一、技术资产积累快、复用率高等特点。

应用开发随需组装构件，完成业务流程，开发效率高。

（2）数据挖掘应用将受益于面向服务的开发模式：

图4 行业数据挖掘应用的宏观过程

行业数据挖掘是由数据驱动且面向服务的。宏观上，行业数据挖掘应用以各种类型待分析的数据为输入，经过挖掘过程，为行业数据分析需求提供满足服务对象领域知识的挖掘结果（如图4所示），该过程满足面向服务的架构的定义。微观上，数据挖掘过程及各部分完成的任务是一个数据驱动且面向各种数据处理服务的（如图5所示）。

图5 面向服务数据挖掘过程

以面向服务的开发模式实现数据挖掘应用的开发，可以简化复杂的数据挖掘算法流程，适应灵活多变的行业大数据应用开发和分析需求，提升高质量代码的服用，提升大数据应用开发和分析效率。

（3）核格行业应用开发和分析平台架构：

核格行业大数据应用开发和分析平台专业面向支持面向服务的大数据应用开发和分析模式，其基本架构如图6所示。

图6 面向服务数据挖掘过程

（4）核格行业应用开发和分析平台核心功能：

1）可视化拖拽式应用开发与分析过程：

2）软件代码自动生成和动态应用部署：

3）数据分析业务逻辑装配：

4）数据处理服务装配：

5）丰富的数据挖掘模型算法基础构件：

6）个性化服务构件创建：

4. 应用案例

快速消费品（Fast Moving Consumer Goods，FMCG）是指那些使用寿命短，消费速度快的消费品。从其定义可以看出，该类产品依靠消费者高频次和重复的使用与消耗，并通过规模化的市场量来获得利润和价值。因此，该类商品具有如下一些属性：

（1）产品周转周期短；

（2）进入市场的通路短而宽；

（3）售后服务的重点主要体现在对客户的意见迅速反馈并有效处理。

此外，快速消费品与其它类型消费品相比，其客户购买策略和购买过程有着明显的差别。快速消费品属于冲动型购买产品，即兴的采购决策，主要取决于个人偏好，产品的固有属性（如外观、包装、广告促销、价格、销售点等）对其销售量起着重要作用。因此，消费者评价分析和产品属性改进的及时性是决定营销方案的重要依据，相关数据的搜集和整理具有重要的情报价值。

快消品的消费者调查数据应以高效、准确、客观的方式获取。传统的研究消

费者的方法主要基于消费问卷调查等结构化数据完成。对于快消品来说，这类方法存在诸多弊端。首先，调查问卷主要以销售方主观的问题设置为主，这种方式与调查目的相悖。其次，调查问卷数据搜集的效率存在不足，发放问卷的过程十分繁琐，并且很可能会适得其反。第三，调查问卷的结果准确性存在不足，不同的消费者其体验存在差异，搜集数据量足够大的调查结果十分困难，而在调查结果不足的情况下分析的结论可信度不高。

以非结构化的电商消费者评价数据作为消费者调查数据具有较高的可行性。首先，宝洁公司是世界上最早开始实践商业智能的公司，并已经与很多第三方电商平台（如阿里巴巴）合作获得，高效的获得自身产品的属性及消费者评价数据。其次，电商消费者的评价数据具有时效性和客观性。第三，其能够反映消费者对使用产品的真实感受。最后，从电商数据中不仅可以获取消费者评价数据，还能够获得全方位的关于本产品和同类相关产品的属性及评价数据，为快消品的消费者评价分析和产品属性改进提供重要的依据。

（1）任务描述：

图6 基于电商消费者评价数据的产品分析

利用电商消费者评价数据可以实现：

1）产品满意度分析：

根据消费者对产品的评价数据，可以分析出该消费者对产品的整体评价。同时，根据这些评价数据，以关键词展示的形式，可以获得消费者对产品整体的评价关键内容。并根据消费者情感随时间变化趋势分析，掌握该产品随时间变化在市场中的用户满意度。利用该结果可以有效掌握快消品的市场销售状况和发展趋势，为产品的更新换代提供参考。

2）产品属性满意度分析：

根据电商产品数据，可以获得关于产品的各项属性信息，例如图6（a）中所示的宝洁沙宣洗发水包含的功效、净含量、适用对象、保质期等属性信息。同时，根据消费者对产品的评价数据，不仅可以获得关于产品更多方面的属性信息，还能够获得对该属性或方面的观点评价信息，例如，从评价“应该是正品！味道不错，比超市便宜”中可以获得关于产品质量、味道、价格三方面的正面评价信息。同样根据消费者对具体产品属性的情感随时间变化趋势分析，可以掌握该产品随时间变化在市场中的用户满意度。利用该结果可以有效掌握快消品的市场销售状况和发展趋势与产品属性之间的关联，针对具体关联为产品的更新换代提供参考。

3）产品满意度因果分析：

产品及其属性满意度分析为分析者提供产品面向方面的定量参考值，而用户

评价包含的语义主要反映在评价内容当中。针对产品存在的问题，应具体改进产品的哪一方面，并且改进的程度可以从产品的具体评价中获得。通过对消费者评价内容进行关键词提取和归纳，可以实现产品满意度的因果分析，列出评价关键结论。从而为决策者提供出定量的报表分析结果之外，基于规则的知识表达的决策支持。

4）同级竞争产品比较分析：

对旗下产品的分析和改进，在一定程度上可以借鉴同级竞争产品被用户接受的特点，并在其基础上进行进一步提升。另一方面，通过掌握其他同类产品的不足，可以使旗下产品在设计和改进时避免同样问题的发生，如此可以有效节约产品研发成本。

有效利用电商数据进行消费者评价分析和属性改进需要解决如下几点关键问题：

（1）多源数据集成：

图7 多源数据融合

目前，电商是快消品的主要销售渠道之一，电商平台已有多家，其结构各异，数据展示效果多样，内容不一。如何实现多源半结构化数据的集成是有效利用电商数据进行消费者评价分析和属性改进的基础问题之一。

（2）半结构化电商数据的产品属性抽取：

图8 半结构化电商数据的产品属性抽取

电商数据属于半结构化数据，产品属性信息隐藏在其中，如何有效的从其中抽取出各产品的属性信息，是实现面向产品属性的态度挖掘的基础问题。

（3）同类产品属性的记录链接：

图9 同类产品属性链接

同类产品比较的对象是产品的属性，然而，不同旗下产品的属性描述不禁相同，将同种属性实现记录链接，并列出不同属性，是实现竞争产品分析的关键问题。

产品名称产品功效

产品型号产品品牌产品价格产品容量保质期 …… 洁净去屑男士洗发水

去屑止痒

洁净去屑男士洗发水沙宣 62.00元 700ml 36个月 ……

产品名称

产品功效型号品牌价格净容量保质期 …… 男士去屑洗发露

去屑止痒，深层修复活力运动薄荷型清扬 55.60元 750ml 36个月 ……

（4）基于弱监督学习的面向方面的态度挖掘：

目前用于态度挖掘的方法主要是基于有监督的分类方法，该类方法要求训练数据集满足“强监督假设”条件，即事先假定带标注的训练数据包含充分、清晰且准确的监督信息来构造强泛化能力的分类模型。然而，这一假设在实际的大数据应用条件下是无法满足的。我们提出的解决方案是对假设条件放宽，采用“弱监督学习”方法实现态度分类模型的训练，然后用于实际的产品态度挖掘应用。

图10 基于弱监督学习的态度挖掘流程

基于弱监督学习的产品评价态度挖掘的基本流程如图10所示。在该流程中主要包含三个关键服务功能，一是用于标注数据的服务，二是模型迭代训练服务，三是利用训练好的最优化态度挖掘分类器对为分析的产品评价数据进行态度预测。实现这三部分功能的方法有很多，根据目前的业务流程，利用核格大数据应用开发和分析平台，根据图10内容，可以直接画出业务逻辑（如图11所示）。利用核格大数据应用开发和分析平台中包含的数据标注构件、弱监督模型贝叶斯模型训练构件和贝叶斯模型预测构件实现满足业务逻辑的服务装配（如图12所示）。最后配置数据数据源和输出结果路径（如图13所示），实现批量化的基于弱监督学习的用户评价数据态度挖掘分析。

图11 基于弱监督学习的态度挖掘业务逻辑封装

图12 基于弱监督学习的态度挖掘服务装配

图13 灵活的参数配置

用于分类的模型很多，如支持向量机、最大熵模型等，利用核格大数据应用开发和分析平台，可以在不改变业务逻辑的情况下，动态的装配不同的分类模型于业务流程中，从而实现根据分析需求灵活、快速的装配出不同的大数据应用，并获得不同的比较结果。