文档库 最新最全的文档下载
当前位置:文档库 › H3C大数据设备产品技术白皮书

H3C大数据设备产品技术白皮书

H3C大数据设备产品技术白皮书
H3C大数据设备产品技术白皮书

H3C大数据产品技术白皮书

杭州华三通信技术有限公司

2020年4月

目录

1H3C大数据产品介绍 (1)

1.1产品简介 (1)

1.2产品架构 (1)

1.2.1 数据处理 (2)

1.2.2 数据分层 (3)

1.3产品技术特点 (4)

先进的混合计算架构 (4)

高性价比的分布式集群 (4)

云化ETL (4)

数据分层和分级存储 (5)

数据分析挖掘 (5)

数据服务接口 (5)

可视化运维管理 (5)

1.4产品功能简介 (6)

管理平面功能: (7)

业务平面功能: (8)

2DataEngine HDP核心技术 (9)

3DataEngine MPP Cluster核心技术 (9)

3.1MPP + Shared Nothing架构 (9)

3.2核心组件 (10)

3.3高可用 (11)

3.4高性能扩展能力 (11)

3.5高性能数据加载 (12)

3.6OLAP函数 (13)

3.7行列混合存储 (13)

1H3C大数据产品介绍

1.1产品简介

H3C大数据平台采用开源社区Apache Hadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。

1.2产品架构

H3C大数据平台包含4个部分:

第一部分是运维管理,包括:安装部署、配置管理、主机管理、用户管

理、服务管理、监控告警和安全管理等。

第二部分是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具 Kettle。

第三部分是数据计算。MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。

第四部分数据服务,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和API,为应用层提供服务和中间件调用。

1.2.1数据处理

对于大数据管理平台,应该建立一套标准化、规范化的数据处理流程,例如:如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力。

1.2.2数据分层

●ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编

码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。

●轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇

●明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主

题域划分规则进行的拆分及合并。

●信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:

主题域之间进行关联、汇总计算。汇总数据服务于信息子层,目的是为了节约信息子层数据计算成本和计算时间。

●应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数

据平台的一个上层应用,由大数据平台提供数据支撑。

1.3产品技术特点

先进的混合计算架构

?采用Hadoop和MPP融合技术架构,对半结构化和非结构化数据支持并行计算和低成本存储,提供低时延、高并发的查询和分析功能;对结构化数据采用MPP分布式列存储,支持分布式计算、智能索引等功能,实现高性能结构化数据分析处理。集成MapReduce、Spark、Storm、Tez等多种计算框架,利用YARN资源管理做统一管理,可在同一份数据集上运行多种计算。

离线计算、内存计算和流式计算并存,能满足高吞吐、大数据量和低时延实时处理等多方面的数据计算要求。

高性价比的分布式集群

?基于x86服务器本地的计算与存储资源,计算集群可以动态调整,从数台到数千台之间弹性扩展,按需构建应用,减少总体成本;同时,在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供计算和存储的高可靠保证,具备较强的容错性。

云化ETL

?将不同业务系统中分散、零乱、标准不统一的各种源数据中的数据进行汇聚。支持从DBMS、互联网、物联网、企业生产系统等各种数据源中提取数据。各类数据经过抽取、清洗和转化后,实现多对多地加载到包含但不限于大数据集群和各类关系型数据库中。该过程由一个统一的操作接口封装,经过无代码的可视化配置后,可实现自动化地、分布式地执行整个ETL 作业流程。

数据分层和分级存储

?把数据按照不同阶段分为ODS(Operational Data Store)数据、轻度汇总数据、信息子层数据和应用数据,分别存储在Hadoop平台、MPP分布式数据库和数据仓库,满足不同阶段的计算需求;按照在线数据、历史数据等来管理数据生命周期,满足在线数据的高性能存储的需求;将核心模型数据通过改造融入到数据仓库的核心模型中,减少数据冗余,提升数据质量;将数据仓库中的历史数据迁移到低成本分布式数据库,减轻数据仓库的计算与存储压力并支撑深度数据分析。

数据分析挖掘

?支持R语言,集成机器学习算法库Mahout和Spark MLlib,包含聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。满足批处理统计分析、在线数据检索、R语言数据挖掘、实时流处理、全文搜索等全方位需求。可帮助企业建立高速可扩展的数据仓库和数据集市,结合多种报表工具提供交互式数据分析、即时报表和BI可视化展示能力。

数据服务接口

?提供交互式SQL和可编程API,提取数据存储计算平台的数据处理结果,屏蔽底层细节,为上层应用提供数据服务。主要包括SQL接口、MapReduce/Spark/Storm计算接口等多种可编程API、全文实时搜索接口、业务定向接口、关联查询接口,满足数据查询、可视化BI展示、数据交换、数据分析、目录服务、综合查询等业务应用的需要。

可视化运维管理

?提供Web图形化界面实现运集群的管理和监控,集群的节点、主机和服务的运行状态都能在界面上显示,操作友好,功能丰富。提供集群快速安装部署、机架展示、用户权限管理、主机与服务管理、监控及告警通知等多方面支持,在可管理性方面优势显著。

1.4产品功能简介

管理平面功能:

业务平面功能:

2DataEngine HDP核心技术

DataEngine HDP基于X86服务器本地的计算与存储资源提供了分布式并行计算和低成本存储,提供低时延、高并发的查询功能,集群可以扩展到上千台服务器。H3C通过对Hadoop开源组件的封装和增强,对外提供数据分布式计算存储、数据分析能力。

●资源管理YARN:改进的YARN统一资源管理,在同一物理主机/虚拟主机和数据集上运

行多种计算框架,包括离线计算、内存计算和实时计算。

●分布式文件系统HDFS:分布式文件系统,有较强的容错性,可在x86平台上运行,减

少总体成本,可扩展,能构建大规模的应用。

●数据库HBase:HBase是一种构建在HDFS(Hadoop Distributed File System)之上的

分布式、面向列的存储系统,它具有高可靠、高性能、面向列和可伸缩的特性。HBase 适合于存储大表数据(表的规模可以达到数十亿行以及数百万列),并且对大表数据的读、写访问可以达到实时级别。

●离线计算: MapReduce是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶

段进行处理,适合数据密集型计算场景。

●内存计算: Spark是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用

和交互式应用的计算效率。

●实时计算: Storm擅长流式计算、实时分析,比如广告点击计算、它在实时性要远远

好于MapReduce计算框架。

3DataEngine MPP Cluster核心技术

3.1MPP + Shared Nothing架构

DataEngine MPP Cluster采用完全并行的 MPP + Shared Nothing 的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。

图 3-1 Shared Nothing + MPP 架构示意图

3.2核心组件

DataEngine MPP Cluster产品总共包含三大核心组件,即GCluster、GCware和GNode。GCWare用于各节点GCluster实例间共享信息,GCluster负责集群调度,每个GNode就是最基本的存储和计算单元。

GCluster:

GCluster负责SQL的解析、SQL优化、分布式执行计划生成、执行调度。

GCWare:

GCWare用于各节点GCluster实例间共享信息(包括集群结构,节点状态,节点资源状态等信息),以及控制多副本数据操作时,提供可操作节点,并在多副本操作中,控制各节点数据一致性状态。GCWare对于集群的管理工作是以节点为基本单位的。

GNode:

GNode是GCluster中最基本的存储和计算单元。GNode是由GCWare管理的一个8a实例,每个GCluster节点上有一个GNode实例运行。GNode负责集群数据在节点上的实际存储,并从GCluster接收和执行经分解的SQL执行计划,执行结果返回给GCluster。数据加载时,GNode直接从集群加载服务接收数据,写入本地存储空间。

GCMonit:

GCMonit用于定期监测DataEngine MPP Cluster服务程序的运行状态, 一旦发现某个服务程序的进程状态发生变化,就会根据配置文件中的内容来执行相应的命令。GCMonit进程监控程序为集群中的每个组件提供各自的启停脚本,提供的总脚本可以一次性启停所有模块的服务。

3.3高可用

DataEngine MPP Cluster通过SafeGroup组内冗余机制来保证集群的高可用特性:

1)每个SafeGroup可提供1个或2个副本数据冗余;

2)SafeGroup 内数据副本自动同步;

3)复制引擎自动管理数据同步;

图 3-2 SafeGroup高可用性管理示意图

3.4高性能扩展能力

DataEngine MPP Cluster具备高性能扩展能力:

1)通过SafeGroup 动态扩展集群节点;

2)每个节点可以处理10TB有效数据,同时提供计算和存储能力;

3)GCware 负责新节点的数据同步。

图 3-3 DataEngine MPP Cluster扩展技术示意图

因为DataEngine MPP Cluster采用高性能单节点的MPP扁平架构,因此进行集群扩展时,可以保证平滑扩展和性能的线性增长特性。

图 3-4 DataEngine MPP Cluster高性能高扩展示意图

3.5高性能数据加载

数据加载功能作为DataEngine MPP Cluster的一部分而存在,目的是将用户从其他数据源得到的原始数据文件,按照某种加载规则分发至集群节点,集群各节点接收数据入库保存到本地磁盘。

集群加载采用C/S架构,包括数据分发服务器和数据分发客户端两个应用程序。数据分发服务器接收到客户端的数据加载请求后,服务器端负责原始数据文件切分和数据文件的下

发;各节点调用本地的集群加载服务接收数据入库并保存到本地磁盘。

图 3-5数据加载示意图

3.6OLAP函数

DataEngine MPP Cluster 提供OLAP函数,用于支持复杂的分析操作,侧重于对决策人员和高层管理人员的决策支持。可根据分析人员的要求,快速灵活地进行大数据量的复杂查询处理,以便他们准确掌握企业的经营状况,了解被服务对象的需求,制定正确的方案。

3.7行列混合存储

DataEngine MPP Cluster采用的行列混合存储的存储结构,改善了当需要物化的列数较多,查询命中的数据记录又非常离散时,会频繁访问I/O的状况,大大缩短了查询耗时,从而提高了查询效率。

DataEngine MPP Cluster提供的行列混合存储技术,它通过创建行存列的机制,减少I/O访问的次数,从而有效地提高I/O性能。

相关文档