文档库 最新最全的文档下载
当前位置:文档库 › 基于数据分析的大数据质量管理平台应用研究

基于数据分析的大数据质量管理平台应用研究

172

基于数据分析的大数据质量管理平台应用研究

霍文舒,杨宗民,王

琳,王传有

(中国人民解放军32180部队,北京100072)

摘要:根据某用户现有数据中心支持数据源种类有限、不能在线实时数据质量管理、支持数据质量管理规则不丰富、操作

可视化程度不高等问题,重点对涉及的大数据抽取、质量检测和统计分析相关的数据采集、数据质量检验等关键技术展开研究,开发出大数据质量管理平台工具,可为各类用户的数据中心进行数据质量管理。关键词:数据分析;大数据;质量管理中图分类号:TP311.13文献标识码:A 文章编号:1673-1131(2019)02-0172-02

0引言

随着信息化技术的不断发展,大数据研究的不断推进,基

于数据质量管理的云计算大数据研究成为重点突破方向[1-2]

。根据某用户现有数据中心支持数据源种类有限、不能在线实时数据质量管理、支持数据质量管理规则不丰富、操作可视化程度不高等问题,重点对涉及的大数据抽取、质量检测和统计分析相关的数据采集、数据质量检验等关键技术展开研究,开发出大数据质量管理平台工具。

1平台总体架构

大数据质量管理平台的总体架构如图1

所示。

图1平台总体架构

大数据质量管理平台主要通过数据采集从数据源获取待质量检测的数据,根据元数据配置信息对数据源进行数据的转换、清洗、加载、整合等预处理工作,将整合后的数据发送到对比库中统一存储,根据质量检测规则进行离线数据质量检测,或将流数据发送到质量管理进行实时数据质量检测,根据数据质量分析结果,由数据质量报告生成器生成数据质量报告。

大数据质量管理平台包含数据采集、整合入库、质量管理和报表展示四大功能区,由数据采集工具、元数据管理、数据质量规则配置器、数据质量分析器、数据质量报告生成器和系统管理六大子系统组成。其中,数据采集主要包含数据采集工具子系统,整合入库主要包含元数据管理子系统,质量管理主要包含数据质量规则配置器和数据质量分析器子系统,报表展示主要包含数据质量报告生成器和系统管理子系统。

2平台子系统

2.1数据采集工具

大数据质量管理平台支持对Oracle 、HDFS 、Hbase 、文档数

据等数据源的质量管理。针对不同数据源,大数据质量管理平台提供结构化数据源适配器和非结构化数据源适配器。

结构化数据是可以用二维逻辑表结构来表达实现的数据[3]。大数据质量管理平台数据采集支持的结构化数据库有Oracle ,可通过JDBC 的方式从Oracle 数据库中抽取数据源。非结构化数据是不方便用数据库二维逻辑表来表达表现的数据[4]

。大数据质量管理平台数据采集支持的非结构化数据库有Hbase ,非结构化数据存储有HDFS 和文档数据。其中大数据质量管理平台可通过Native JA V A API 、Thrift 和RestFul 三种方式从Hbase 数据库中抽取数据源,通过sqoop 工具获取HDFS 数据,通过文件接口采用HTTP 、FTP 等标准传输协议获取文档数据。

2.2元数据管理

元数据管理包括数据质量检查表配置、元数据基本维护、元数据变更管理、元数据查询等功能。

数据质量检查的数据源可以来自单一的数据表,同样也可以来自多张数据表。元数据基本维护提供对元数据的增加、删除和修改等基本操作。元数据变更管理包括变更通知和版本管理两个部分。元数据查询功能提供快速检索和高级搜索功能,通过元模型、元数据名称、元数据目录路径、元数据属性等关键字,方便准确快捷地查询到需要的元数据。

2.3数据采集工具

数据采集工具,从数据源采集数据,根据元数据配置信息实现数据源的采集、转换和加载等预处理功能,将待质量检查的数据最终整合到统一的指标化数据中心中进行数据质量离线检查,或将待质量检查的流数据发送到数据质量管理环节,进行数据质量在线检查。数据采集工具支持Oracle 、HDFS 、Hbase 、文档数据等数据源。数据采集工具包含工作流管理、采集规则、调度规则、数据预处理和压力自适应功能。

工作流管理包括工作流配置、工作流组件和工作流监控。采集规则提供全量采集、增量采集和实时采集三种方式。子系统提供的作业调度策略按照调度策略的优先级排序主要有触发调度策略、超时取消策略、关联调度策略、定时调度策略、优先级策略和先来先服务策略六种策略。数据预处理包括数据采集、数据转换和数据加载。压力自适应功能是指数据数据采集工具根据数据源负载压力情况,自动调节增加或减少数据采集并发量,以达到提升或降低数据源负载压力。

2.4数据质量规则配置器

数据质量规则配置器是大数据质量管理平台的核心技术,采用C/S 架构,支持图形化界面交互。数据质量规则设置器包含规则可视化配置界面和规则库。

数据质量规则配置器支持图形可视化交互界面,支持组件拖拽式定义数据质量规则检查流程。规则库支持相似重复数据检查规则、引用完整性检查规则、离群值检查规则、平衡检查规则、SQL 检查、空值检查、值域检查、规则检查8种常用检查规则。

2.5数据质量分析器

数据质量分析器借助统计分析与大数据挖掘等方法,分析不符合规范的数据记录的频数和分布等,定位不符合规范的数据记录,支持各种图表方式生成分析报表。数据质量分析器

2019

(Sum.No 194)

信息通信

INFORMATION &COMMUNICATIONS

2019年第2期(总第194期)

相关文档
相关文档 最新文档