文档库 最新最全的文档下载
当前位置:文档库 › (完整版)XX银行数据仓库建设项目方案

(完整版)XX银行数据仓库建设项目方案

(完整版)XX银行数据仓库建设项目方案
(完整版)XX银行数据仓库建设项目方案

XX银行

EDW/数据仓库项目方案

目录

第一章系统总体架构............................................................................. 41.1总体架构设计概述 ........................................................................ 4

1.1.1总体架构的设计框架.............................................................. 4

1.1.2总体架构的设计原则.............................................................. 5

1.1.3总体架构的设计特点.............................................................. 51.2EDW执行架构................................................................................. 6

1.2.1执行架构概述 ........................................................................ 6

1.2.2执行架构设计原则 ................................................................. 6

1.2.3执行架构框架 ........................................................................ 71.3EDW逻辑架构.............................................................................. 14

1.3.1逻辑架构框架 ..................................................................... 14

1.3.2数据处理流程 ..................................................................... 201.4EDW运维架构.............................................................................. 21

1.4.1运维架构概述 ..................................................................... 21

1.4.2运维架构的逻辑框架........................................................... 221.5EDW数据架构.............................................................................. 27

1.5.1数据架构设计原则 .............................................................. 27

1.5.2数据架构分层设计 .............................................................. 291.6EDW应用架构.............................................................................. 31

1.6.1应用架构设计原则 .............................................................. 31

1.6.2数据服务 ............................................................................ 32

1.6.3应用服务 ............................................................................ 33第二章 ETL体系建设 ........................................................................... 34

2.1ETL架构概述.............................................................................. 34

2.2ETL设计方案.............................................................................. 362.3ETL关键设计环节....................................................................... 362.

3.1接口层设计策略.................................................................. 362.3.2 Staging Area设计策略....................................................... 362.3.3数据加载策略 ..................................................................... 372.3.4增量ETL设计策略................................................................ 372.3.5异常处理 ............................................................................ 392.3.6作业调度和监控.................................................................. 402.3.7元数据管理......................................................................... 402.3.8 ETL模块设计....................................................................... 402.3.9 ETL流程设计....................................................................... 432.3.10动态资源分配 ................................................................... 452.3.11数据接口设计 ................................................................... 46

第一章系统总体架构

1.1总体架构设计概述

1.1.1总体架构的设计框架

XX银行EDW项目的总体架构分为基础技术架构、应用架构和数据架构三个核心部分。这三个部分共同组成了XX银行EDW系统。

在基础技术架构中,包括执行架构、逻辑架构、功能组件架构和运维架构四个部分。

?执行架构描述系统大的框架和模块区域,以及之间的逻辑关系;是确定

生产环境的建设要求及指导原则。

?逻辑架构描述EDW各个模块之间的数据的接口、数据流向、工具使用和

采用具体的技术实现手段或方式情况,用于规范本项目最终生产环境的

建立。逻辑架构是建立应用架构、执行架构、运维架构的基础,也是建

立执行架构、应用架构以及运维架构的原型系统。

?功能组件架构描述确定系统各个大的组件组件区域的功能模块框架,以

及提供的某种服务类型。

?运维架构是描述EDW项目的运维架构标准,包括运维架构设计的内容、

设计原则、各构成组件的设计考虑因素、约束、要求等。运维架构通过

相应的流程和工具实现对逻辑架构、功能组件架构、执行架构、数据架

构以及应用架构的运维和管理。

而数据架构和应用架构的主要描述:

?应用架构是EDW为满足业务需求所提供的系统应用功能及其蓝图设计,

其中业务需求是应用架构设计的基础,最终的应用架构将以应用系统的

形式体现在执行架构中,主要包括:应用服务和数据服务。

?数据架构描述于EDW系统相关的数据流动策略,即数据在EDW系统的执

行架构下的抽取、转换、储存策略以及应采用的流程,包括数据层次和

总分行之间的数据分部情况等。数据架构是建立执行架构标准的需求定

义。

下图是EDW项目总体架构的框架:

1.1.2总体架构的设计原则

?总体架构在着重考虑实施要求的同时,需要为后续阶段进行规划,以保

证项目最终能够达到目标架构的设计;

?总体架构的设计要基于包括XX银行数据现状分析、实施阶段数据源情

况分析、第一阶段实施EDW设计建议做为参考;

?总体架构设计架构时充分考虑与现有系统兼容,充分利用已有成果,避

免重复开发和建设。

?总体架构设计过程中应遵守XX银行的IT管理规程,保证最终的系统可

以顺利的部署并移交给XX银行的运行维护部门。

1.1.3总体架构的设计特点

?权衡功能、性能、可扩展性、易用性、可管理性和性价比。

?根据XX银行的数据情况和分析需求,采用多层次的企业EDW系统架构来

保证在存在复杂的数据种类和关系的海量数据上进行业务分析和查询

在业务支持能力和性能等方面的要求。

?多级/自动的增量ETL加载机制,有效提高ETL并发度、加载效率,降

低错误处理的复杂性。

?通过用户入口支持用户采用Web浏览器使用查询和分析工具,统一的信

息服务界面,提高系统易用性,减少技术支持工作量。

?利用企业信息集成和Web数据服务,提高系统的数据支持能力和接口的

一致性。统一的数据增强平台也减少数据增强的复杂度。

1.2EDW执行架构

执行架构的主要内容是描述EDW项目执行架构的建设要求及指导原则,用于规范本项目最终生产环境的建设。EDW项目的生产环境的建立需要参考并遵循执行架构部分提出的要求。

1.2.1执行架构概述

执行架构是EDW的概念环境,主要包含:源数据、数据落地区、ETL、数据准备区、数据存储区EDW、业务应用、用户环境、数据管控、系统安全性以及EDW 基础设施平台(包括:服务器、存储、网络)等功能组件。从技术层面上来说,EDW系统的执行架构应实现多种技术平台及应用之间的无缝集成。

1.2.2执行架构设计原则

在EDW项目实施的过程中,系统执行架构的建设应遵循以下技术原则:?开放性原则:EDW项目的生产环境的建设应基于业界开放标准,对系统中使用的网络协议、硬件接口、数据接口等应进行统一规划,EDW系统

应支持主流的应用软件包及其部署的各种硬件平台。

?灵活性与可扩展性:EDW系统的基础设施平台应能够根据未来系统的发展需要以及应用需求,方便的扩展设备容量和提升设备性能;具备支持

多种组件模块、多种物理接口的能力;具备技术升级、设备更新的灵活

性;具备支持业务功能的扩展与重构的灵活性。如:系统容量可以随着

ETL系统数据量的扩展以及应用系统的不断扩展、用户量不断扩展而进

行平滑的扩展。

?高性能原则:系统应达到数据处理时间窗口的要求,用户定义的查询效率、响应时间的要求,满足业务系统的要求;对现有业务系统影响小。

?自动化原则:EDW项目建设的核心任务之一是数据抽取、转换、清洗和加载(ETL),在这个过程中应采用自动化的设计原则,避免手工操作。

同时对于元数据管理过程应采用元数据管理平台来实现对元数据集中、

自动化的管理。

?安全性原则:EDW项目建设中的数据迁移过程都必须保证数据的安全性,例如:在系统建设过程中应对数据中敏感字段进行安全处理、同时整个

系统还应采用网络隔离、用户身份认证及访问控制、数据库安全、操作

系统安全以及完善的安全审计机制。

1.2.3执行架构框架

上图是EDW系统执行架构,其中包含EDW系统中涵盖的功能框架以及框架之间的逻辑关系。在以下的内容中将对执行架构中的功能框架以及框架之间的关系进行详细描述,具体内容包括:

?数据源:包括XX银行的多个业务系统,主要有核心系统、个贷系统、信贷系统、国际业务系统、财务系统和各类渠道系统等。

?数据落地区:此部分内容说明数据落地的用途,同时对数据落地区应具备的功能进行了标准定义以及数据落地区与其他功能组件之间的关联关系;

?ETL:此部分内容描述ETL系统中数据抽取、转换、加载等功能的需求,同时定义了ETL系统建设的标准以及ETL与系统中其他功能组件之间的关系;?数据准备区:此部分描述数据准备区应具备的功能,以及数据准备区在建设过程中的标准需求。

?操作型存储区:此部分内容描述EDW系统在建设的过程中操作型存储区应遵循的标准以及系统建设过程中应满足的需求;

?数据仓库存储区:此部分内容描述EDW系统的数据仓库存储区应遵循的标准以及系统建设过程中应满足的需求;

?业务应用:此部分内容描述BI应用系统建设的系统需求,包含对应用环境、分析环境、静态报表环境;

?用户环境:此部分的内容描述用户在EDW系统中应具备运用的能力,包括:利用通用展现平台进行信息展现、驾驶舱应用、报表应用等;

?时间窗口和性能的定义:此部分描述整个EDW项目中关于时间窗口的定义以及相关系统的性能指标要求;

?元数据管理:此部分描述在系统执行架构中元数据管理的内容以及元数据管理系统的建设的标准定义;

?系统安全性:此部分内容主要描述EDW系统中的安全性管理内容,包括应用安全、网络安全、数据安全、系统安全等,同时描述系统安全在建立过程中遵循的原则;

?基础设施平台(服务器、网络、存储):此部分内容主要描述生产系统中的硬件资源,包括:服务器,网络以及存储的资源需求,容量规划应满足的系

统指标等内容;

1.2.3.1数据源

源数据系统是报表、关键指标、灵活查询、主题分析等应用系统的基础数据来源。在系统建设初期,源数据系统应提供能满足初始业务需要的数据以及业务系统需要提供完整数据的时间窗口,在EDW系统扩展的过程中,各个源数据系统中的数据将逐渐的加载到EDW系统当中。源数据无法满足应用需求时,系统应提供手工方式通过手工数据补入平台将需要的数据补入到EDW系统中。

目前数据源包括XX银行的多个业务系统,主要有核心系统、个贷系统、对公信贷系统、国际业务系统、财务系统和各类渠道系统等。

1.2.3.2数据落地区

数据落地区是为了保证多系统对源系统数据抽取的需求,在数据从源数据系统抽取后在统一的数据集成环境中整合。数据落地区应建立与各相关源数据系统的接口,将这些系统定期卸载的数据以固定的格式接收、存放到落地区,考虑数据传输和加载的速度,源数据系统应以文本文件格式将数据定期传输给数据落地区进行处理。

数据落地区的数据存储格式原则上是与数据源的存储格式保持一致

1.2.3.3数据ETL架构

ETL是数据的抽取、转换、加载的全部过程,它是数据从数据落地区到ETL 服务器以及从ETL服务器到EDW的数据迁移过程以及数据从EDW向数据集市的数据迁移过程中必须使用的过程和方法, ETL系统应包括以下三个主要功能:

?数据抽取:从数据落地区系统抽取EDW中需要的数据;

?数据转换:将从源数据系统获取的数据转换成EDW要求的形式,同时按

照业务需求对数据进行转换;

?数据加载:将助转换后的数据装载到EDW的物理模型中;

1.2.3.4数据准备区

数据准备区是数据存储的临时存储区域,数据在其中只作暂时性保存,数据

经转换后导入到EDW的物理模型中。

数据准备区的功能包括:格式转换、排序去重/筛选、通用基础清洗、连接/合并/分割、业务转换等

1.2.3.5操作型存储区

操作型存储区是数据仓库系统一个重要的环节。该区有着承上启下的作用,从数据形态来看,该区的数据定义贴近业务源系统;从数据标准来看,该区的数据标准是遵循数据仓库系统的标准。所以该区一般分为两个层次,第一个层次称之为良好质量的、统一格式的数据贴源层,第二个层次为统一的、规范的、遵循数据仓库系统标准的数据标准层。

数据贴源层可以继续为行内现有的一些报表系统或者分析系统提供数据,而数据标准层为数据仓库中的企业数据模型的落地扫清了道路。

所以该存储区在整个EDW系统起到了一个承上启下的关键作用。

1.2.3.6EDW存储区

EDW存储区是面向主题的、集成的、面向企业的、最明细的数据存储,其内容是依据最终用户应用和分析需求来进行组织。数据存储区中的数据模型对标准层数据、基础整合数据、汇总数据和面向应用的集市数据按数据层次进行管理,每个数据层有自己的数据管理重点。对于每个数据层次,再按主题进行分类组织。这样就可以有效的将银行企业的操作型数据、汇总型数据和分析型数据以清晰的架构组织、管理起来,并相辅相成。数据层的内容相互促进发展,组成银行完善的数据集合,为各种主题管理应用的构建提供良好的数据架构基础。

1.2.3.7业务应用

业务应用是EDW系统向业务用户提供应用功能支持,根据应用服务提供的形式和所采用的应用系统的不同,业务应用主要定义在以下几个技术环境。

数据集市:在业务应用层中包含了应用系统中需要的应用集市、OLAP、静态报表等数据集市。数据集市是一组特定的、针对某个主题域、部门或用户分类的数据集合。这些数据需要针对用户的快速访问和数据输出进行优化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障EDW的高可用性、可扩展性和高性能。

应用环境:应用环境是为满足业务需要在数据EDW环境中配置的应用软件包。

分析环境:数据分析环境为EDW的高端用户提供即时的数据分析功能等。

报表环境:报表环境是于来产生和发布静态报表的环境,包括:产生的静态报表、OLAP产生的报表、KPI指标展现以及其他系统产生的报表。

1.2.3.8用户环境

用户环境是EDW系统最终向用户提供的某种应用服务的集合,主要有三种应用服务的表现形式:

通用展现平台:通过此平台将报表、KPI展现、灵活查询、分析等多个应用集成到一个平台中,进行统一的展现和信息的管理,包括如:报表生命周期的管理等。

数据分发环境:在数据分发的过程中应提供大容量数据批量分发的能力。给其他需要某个系统的数据提供数据交换功能。

报表分发环境:报表的分发应可以满足系统定义的安全性,如按照不同的用户类型、不同的组织进行分发,不同的用户和组织只能看到属于自己的报表的数据,数据的分发将通过数据传输平台进行。

1.2.3.9元数据管理

元数据管理是对数据信息的收集和发布的集成管理,数据信息包括:数据的业务含义和技术特性。数据仓库系统架构中的各个部分中都含有元数据信息,应对其进行主动式管理,以保证它正确的定义、收集和使用。元数据是“关于数据的数据”。应包括文件结构定义,数据库字段名称,数据模型中的长度和标准,以及在域-域或域-报表对应关系中的计算和公式等内容。

元数据管理的架构如下图所示,系统的最终架构应实现对元数据的集中的管理方式:

1.2.3.10系统安全性

EDW系统中的数据和报表信息均为敏感信息。因此必须采用适当的安全策略以保证其系统和数据的安全性。数据仓库系统的安全性应涵盖如下四个方面:

?验证:系统应对用户进行访问控制,保证只有合法的用户才能进入到系

统中;

?授权:系统应根据用户角色对其进行授权,包括对数据的访问权限,对

功能的使用权限等。

?机密性:所有的敏感数据必须被严格控制,禁止未授权访问,并保障其

安全性。

?一致性:数据和程序只能在授权模式下进行修改。

针对上述6个方面,数据仓库分系统应按照以下的6个方面的标准进行建设:应用层

EDW应用系统是建立在OLAP软件平台的基础上,应用层应实现用户访问控制的功能,针对不同的用户访问不同的系统资源来保证整个应用系统的安全性控制。对于未来的数据仓库系统来说,应与统一门户平台整合,实现整体安全性管理的策略;

数据库层

只有被授权用户才能访问和修改数据库中的信息并且数据在传输过程中应对敏感信息进行加密处理来保证数据的安全。

数据库管理员应按照角色对数据库用户进行划分,并且通过赋予角色权限的方式实现对用户安全性访问控制的管理,如:针对用户组或耽搁用户分配特定数据表访问权限。

系统层

系统应防止未授权访问和系统调用,及时进行系统安全补丁的更新。对于系统主机应采用服务器加固的方法,来保证整个系统的安全性。

网络层

网络层安全是保证网络节点之间数据传递的安全性,以及网络环境不受恶意攻击。

XX银行数据仓库环境建立在企业内部网络中,不同功能的服务器应部署在不同网段中,网段之间相互隔离,对网段之间的访问应通过防火墙并定义严格的访问控制策略。整个系统的网络环境应得到实时监控,对入侵进行检测和处理,并在发生入侵时通知系统管理员。

物理层

物理层安全保障物理设备(主机、路由器等)不受非法用户攻击。目前物理设备的安全性由运行中心负责。

管理

管理部分与上述的所有安全问题相关,对安全问题的管理必须由多个部门共同协作完成。管理层面包括:

?安全资源:实现各种安全使用的资源,如:防火墙,入侵检测和处理设

备,反病毒软件等;

?安全策略和规划:各种安全规则,组织和责任人;

?突发事件处理:在发生安全威胁时的应急处理流程,包括:事件记录、

时间报告制度等流程;

?安全审计:对安全策略的审核和检查;

?灾难恢复计划:发生问题后的系统和数据恢复;

1.3EDW逻辑架构

1.3.1逻辑架构框架

一线业务

使用人员

管理

决策人员

高级

分析人员

业务

分析人员

系统管理

维护人员

如上图所示的XX银行EDW的逻辑体系架构,这一架构是在联科可扩展的EDW 系统框架的基础上,结合XX银行信息系统建设的实际情况而设计出来的多层、

可扩展框架结构。架构的核心上包括源数据层、ETL流程调度、数据平台层、数

据集市层、应用服务层、访问控制层、用户层和数据消费传输通道七个大部分,

另外,元数据管理和安全管理也是系统必不可少的部分,这2部分会涉及到所有

核心层次。

在明确定义各层之间的接口后,多层框架结构具有高度的扩展能力和方便的系统开发和维护性能,符合目前流行的多层应用结构,适合EDW系统多阶段、多

层次的应用特点。

1.3.1.1源数据层

【功能与作用】

总行的各个业务系统为整个EDW系统提供原始数据支持,首先作为ETL层的数据抽取源。

【组成部分】

目前总行的数据源包括XX银行的多个业务系统,主要有核心系统、个贷系统、对公信贷系统、国际业务系统、财务系统和各类渠道系统等。

1.3.1.2ETL流程调度层

【功能与作用】

该层为EDW数据流向的主要环节,EDW系统数据流动的流程调度核心层,流程调度主要针对下面几个方面:

?EDW系统将数据源的数据抽取到数据落地区

?EDW系统对数据执行格式转换、排序去重、通用数据清洗、业务转换后

等操作,最终完成数据准备区加载。

?EDW系统再将数据准备区的数据按照EDW数据模型的方式加载到数据存

储区中。

?在数据存储区中进行基础数据层、加工汇总层和应用集市层的数据加载。

?EDW中的数据准备区和数据存储区可以为为其它系统提供数据服务。

?总行EDW可以为分行EDW提供数据服务。

【组成部分】

上面的逻辑架构图淡绿色色矩形部分为ETL 调度管理技术架构图,其作用是让许多的任务在作业的执行条件满足时自动地执行。ETL 调度管里最基本的可执行元素是单元,每个单元是完成某一特定功能的程序,相关单元组合在一起构成了可以调度的最小组件——任务。由上面的技术架构图可知,ETL 调度管里包含下列组件:

?知识库

建立在DB中的一个数据库,包含了与流程调度相关的一组表,保存ETL流程调度服务器、任务、任务之间的依赖触发关系、任务组、调度计划等多种类型的信息。

?侦测器

驻留在后台的服务,基于定义的触发规则和调度计划监测是否触发任务的执行。

?任务调度引擎

接受侦测器的信息调度任务执行(可以使本服务器任务也可以是其它服务器的任务)。

?任务执行代理

调用任务包含的每个单元执行的服务,同一服务器上可以有多个任务执行代理同时运行。

?任务

封装在Perl程序中,执行数据加载、整合、立方体生成等工作的一组程序。

?日志管理引擎

记录ETL调度管理各个服务器组件以及每个任务的执行日志,日志按天保存,可以定期清理。

?管理监控器

Java应用程序,用于定义任务、任务组合触发关系等信息,同时可以实时监控任务执行情况查看日志。

作为专门为数据仓库系统设计的流程调度管理具有如下特点:

?任务执行代理可分布在多台服务器上。

?结构简单、伸缩性强。

?支持多种执行任务。

1)加载数据

2)整合数据

3)数据质量检查和清洗

4)数据转换

5)OLAP数据生成

6)数据挖掘模型的执行

7)定制报表的产生

8)定制页面的产生

9)数据库备份、告警等系统作业

10)调用其他ETL/ELT工具产生的任务

11)数据导出到指定的渠道系统

?执行的任务可以是另一个任务调度引擎触发(如:EDW)。

?可以启动其它的ETL引擎的任务。

1.3.1.3数据平台层

【功能与作用】

作为本系统的数据核心部分,它负责存储和管理来自各种源数据系统的数据,并为访问用户提供数据服务。

这些数据是按照在逻辑数据模型分主题存放的。

【组成部分】

本层由操作型存储区、仓库存储区和集市应用层四个部分组成。详细内容参见“EDW数据架构”

1.3.1.4数据集市层

【功能与作用】

数据集市是一组特定的、针对某个主题域、部门或用户分类的数据集合。这些数据需要针对用户的快速访问和数据输出进行优化,优化的方式可以通过对数据结构进行汇总和索引。通过数据集市可以保障EDW的高可用性、可扩展性和高性能。

【组成部分】

包括:驾驶舱报表系统和灵活查询以及其他应用集市系统。

1.3.1.5应用服务层

【功能与作用】

通过对数据平台层中的数据进行适当的提炼、汇总,利用通用展现平台向用户提供包括报表服务、查询服务、决策仪表盘等相关服务。该层为用户对中央数据的访问提供各种方式的服务(C/S、B/S),从而实现访问方式的多样化和信息存取的透明化。

【组成部分】

通用展现平台主要包括的功能模块有:

第一个层次是核心模块包括:框架、引擎,核心模块作为报表集成开发环境的基础、核心和框架存在。报表集成开发环境核心功能和模块组装由核心模块统一提供,只暴露给开发人员;

第二个层次是管理模块包括:报表信息、基本管理、代理、信息推送、连接信息,管理模块为报表集成开发环境提供管理服务,它提供报表集成开发环境的用户、权限等的统一管理,管理模块也是报表集成开发环境必选模块,它的很多功能调用由核心模块提供,管理模块包括5个子模块;

第三个层次是应用模块包括:仪表盘、灵活查询、数据录入、报表、复杂报表,应用模块提供报表集成开发环境最终用户(非管理人员)的用户体验,可以和管理模块相结合有选择地灵活部署。

1.3.1.6访问控制层

【功能与作用】

访问控制层主要包括WEB、认证、安全、门户四方面的服务。该层位于用户层和中间服务层之间,为用户层成提供HTTP服务、门户的单点登录、用户统一认证、提交用户层请求到中间服务层,对用户实施安全策略,为用户管理报表、查询文档,提供个性化定制等。

1.3.1.7用户层

由上面的逻辑架构图可知用户层包括各种最终用户。按照用户使用EDW系统的方式和特点,可以划分为业务分析人员、高级分析人员和管理决策人员。所有用户统一通过用户门户访问EDW系统各类应用,从而实现了EDW系统的应用界面、安全管理统一,同时用户可以对门户进行个性化定制以方便自己使用。

实际上,EDW系统还包括进行系统建设的开发人员、系统运行人员和系统管理人员,这里所指的用户层主要针对业务用户进行描述。

业务分析人员

主要指总行各业务部门、各分行的业务用户,如:客户经理。该类人员直接使用模块化的应用界面访问EDW系统,生成或预览预定义报表,进行相对固定的查询以及多维分析。这类用户会使用B/S和C/S两种客户端访问EDW系统。

?高级分析人员

是指总行各业务部门、各分行的较为高级的用户。除能够执行一般业务分析人员进行的操作外,可以对指定的主题、指标进行自定义的灵活分析和比较。分析的方式包括自定义查询、自定义报表、多维旋转和穿透钻取等等。这类用户会使用B/S和C/S两种客户端访问EDW系统。

?管理决策人员

主要包括各部门的领导、分行领导和总行领导。EDW系统为管理决策人员分配专门的系统资源,建立最为直观和方便的存取界面,为决策人员赋予最大的信息访问权限,实现决策人员对信息的自由访问。同时,EDW系统将决策人员最为关心的信息主动发布到决策人员的访问界面上,简化信息访问的方式,使得决策人员在第一时间获得经营管理的各种重要信息和指标。这类用户只会使用B/S 客户端访问EDW系统。

1.3.1.8消费数据传输通道

在数据仓库系统建立以后,会有很长一段时间旧有的报表系统和分析系统需要逐步迁移,在此期间,需要有一个消费数据传输通道来支持旧有系统的良好运转。

1.3.1.9安全管理体系

安全管理体系主要包括以下四个方面:

?网络安全

主要包括在不同网络层次设置不同级别的防火墙及IDS系统,同时在每

一个安全层次下通过部署不同的安全原则,这完全符合XX银行的安全级

别规定。

?操作系统安全

系统所有应用或数据库服务器均采用Unix操作系统,操作系统本身有着

严密的系统安全认证与用户权限管理体系,并具备登录、审核以及资源

访问的审计与跟踪。

?数据安全

提供各种基于数据库的安全保护机制。

应用安全

应用是直接面对用户的,虽然应用系统能够持续提供服务是涉及到系统

安全的问题,但是因为这些问题更多的是由系统的安全问题来保证的。

所以就应用级的安全策略更多的是保证对数据访问的合法性。

1.3.1.10元数据管理体系

在机构内关于数据的信息称为“元数据(Metadata)”。清楚地区分数据库中的数据和元数据是很重要的,所谓元数据,是指关于数据的数据,即用来描述数据的类型、来源、定义、存储位置,使得可以正确地使用数据仓库。

元数据仓库(Meta Data Repository)对业务人员来说是很重要的,是业务人员与数据仓库的数据交流的传达手段。IT人员可能已经拥有许多有效的工具进行数据存取。但对业务人员,他们需要一种手段和工具来理解他们存取的数据。

在本期EDW系统的建设中,包括技术元数据和业务元数据两类,其数据源涵盖了EDW系统的各个环节,包括:数据源系统、EDW数据库、EDW逻辑数据模型、ETL系统、业务应用系统等,同时,还将涉及数据的业务含义和业务规则等相关业务文档。在架构上,元数据系统包括:元数据应用、元数据报表、元数据分析、元数据集成系统、元数据展现系统、元数据管理系统、元数据维护系统。

1.3.2数据处理流程

各业务数据源系统通过多种方式(如:ETL工具直接从源系统获取、源系统数据批量导出)将数据获取过来,由数据落地区区进行集中管理。

后续的数据加工、转换通过ETL Server来完成,中间采取不落地的方式,将加工完毕后的数据放在数据准备区域。ETL Server 可通过 ds job,FTP,NFS 等方式从数据落地区获取数据,将处理后的结果放在数据准备区域。再将数据准备区的数据加载到数据存储区中。

根据目标系统的不同,采用灵活的方式向外提供数据,可使用ETL 工具直接向目标系统加载或者通过 FTP方式向其他目标传输。为支持其他的业务需求,将近期(30-60天)的明细数据、流水数据集中存放在数据库系统中,日常增量数据刷新数据库系统。

整个过程通过调度工具进行统一调度,集中管理,确保各项任务有序完成。

数据仓库建设方案详细

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分容:外部数据汇集、部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

某某银行数据仓库建设项目方案说明

XX 银行 EDW/ 数据仓库项目方案 目录 第一章系统总体架构 (5) 1.1总体架构设计概述 (5) 1.1.1 总体架构的设计框架 (5) 1.1.2总体架构的设计原则 (6) 1.1.3总体架构的设计特点 (7) 1.2 EDW执行架构 (7) 1.2.1执行架构概述 (8) 1.2.2执行架构设计原则 (8) 1.2.3执行架构框架 (9) 1.3 EDW逻辑架构............................................ 1 8

1.3.1逻辑架构框架.......................................... 1 8 1.3.2数据处理流程......................................... 2 7 1.4 EDW运维架构............................................ 2 7 1.4.1 运维架构概述 (27) 1.4.2 运维架构的逻辑框架 (29) 1.5 EDW数据架构............................................ 3 6 1.5.1数据架构设计原则...................................... 3 6 1.5.2数据架构分层设计....................................... 3 8 1.6 EDW应用架构............................................. 4 1 1.6.1应用架构设计原则....................................... 4 1 1.6.2数据服务............................................... 4 2 1.6.3 应用服务 (43) 第二章ETL体系建设 ........................................... 4 4 2.1 ETL架构概述.............................................. 4 4 2.2 ETL设计方案.............................................. 4 6 2.3 ETL关键设计环节......................................... 4 6 2.3.1 接口层设计策略 (46)

数据仓库建设方案84099

1.数据仓库概述 经过多年IT的建设,信息对于XXX 的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX 内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX 业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX 全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML 、EXCEL 等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX 各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX 业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

商业银行数据仓库报表设计分析

**商业银行数据仓库 报表设计 版本:1.0 4/18/2020

目录 1.报表系统 (3) 1.1. 业务分析 (3) 1.2. 财务分析报表系统 (3) 1.2.1.资产业务分析(月) (3) 1.2.1.1. 资产规模增长情况分析 (4) 1.2.1.2. 资产增量变化情况分析 (4) 1.2.1.3. 资产结构变化情况分析 (4) 1.2.1.4. 贷款资产专项统计 (5) 1.2.2.负债业务分析 (5) 1.2.2.1. 负债规模增长情况分析表 (5) 1.2.2.2. 负债增量变动情况分析表 (5) 1.2.2.3. 负债结构变化情况分析表 (6) 1.2.2.4. 存款负债专项统计 (6) 1.2.3.所有者权益分析 (6) 1.2.3.1. 所有者权益增长情况分析 (6) 1.2.3.2. 所有者权益增量变动情况分析 (7) 1.2.3.3. 所有者权益结构变化情况分析 (7) 1.2.4.财务收支分析 (7) 1.2.4.1. 收支规模增长情况分析 (7) 1.2.4.2. 收支增量变动情况分析 (8) 1.2.4.3. 当期收支情况分析 (8) 1.2.4.4. 财务收支结构变动情况分析 (8) 1.2.4.5. 财务收支计划完成情况分析 (8) 1.2.5.财务比率分析 (9) 1.2.5.1. 各项财务比率分析表 (9) 1.3. 资金计划业务需求 (10) 1.3.1.资金头寸统计 (10) 1.3.2.资金负债管理指标 (10) 1.3.3.现金管理 (10) 1.3.3.1. 结算备付金统计 (10) 1.3.3.2. 库存现金统计 (11) 1.3.3.2.1. 即时余额统计 (11) 1.3.3.2.2. 日均余额统计 (11) 1.3.3.3. 业务量统计 (11) 1.3.4.票据贴现业务统计 (12) 1.4. 综合统计分析 (12) 1.4.1.存款统计 (12) 1.4.1.1. 存款结构统计 (12) 1.4.1.1.1. 日均存款统计 (12) 1.4.1.1.2. 存款即时余额统计 (12)

EDW数据仓库项目方案

XX银行 EDW/数据仓库项目方案

目录 第一章系统总体架构................................................................. 51.1总体架构设计概述............................................................... 5 1.1.1总体架构的设计框架 ..................................................... 5 1.1.2总体架构的设计原则 ..................................................... 6 1.1.3总体架构的设计特点 ..................................................... 71.2EDW执行架构.................................................................... 7 1.2.1执行架构概述............................................................... 8 1.2.2执行架构设计原则 ........................................................ 8 1.2.3执行架构框架............................................................... 91.3EDW逻辑架构................................................................. 18 1.3.1逻辑架构框架............................................................ 18 1.3.2数据处理流程............................................................ 271.4EDW运维架构................................................................. 28 1.4.1运维架构概述............................................................ 28 1.4.2运维架构的逻辑框架 .................................................. 301.5EDW数据架构................................................................. 36 1.5.1数据架构设计原则 ..................................................... 36

数据仓库系统建设方案详细

河北省工商银行 数据仓库系统建设方案 建 议 书

北京世纪明日网络科技有限公司 二零零零年三月 河北省工商银行数据仓库系统建设方案 目录 第一章前言 1.1数据仓库发展史 1.2竞争日趋激烈的金融市场 1.3中国专业银行面临的挑战 1.4中国专业银行实施数据仓库的意义 1.5中国专业银行实施数据仓库已具备的条件 第二章数据仓库总体概述 2.1 数据仓库基础 2.2 数据仓库技术概述 2.3 一个可扩展数据仓库的基本框架

2.4 一个数据仓库实施流程 第三章系统体系结构设计 3.1系统设计指导思想 3.2 方案总体框架图 3.3 系统体系结构设计 3.4 系统方案的组成 第四章银行数据仓库的建设 4.1 面向应用的OLTP系统和面向主题的OLAP系统 4.2 个性化服务的定义 4.3 业务探索/业务发掘 4.4 建立市场客户信息基础 4.5 利用数据仓库实现的基本模块 4.6 更高层次的开发应用 4.7 综合信息发布 第五章方案实施建议 5.1 开发模式 5.2 组织机构 5.3 项目实施进程

5.4 项目进度计划 第六章产品报价 6.1 软件产品报价 6.2 硬件产品报价 6.3 项目开发实施费用 第一章前言 1.1 数据仓库发展史 相对于许多行业而言,信息处理技术还是一门新兴的技术,但是其发展速度却几乎是最快的。随着计算机硬件技术的飞速发展,软件技术也是日新月异。 许多企业和机构已经建立了相对完善的OLTP(联机事物处理)系统。随着时间的推移,这些系统中积累了大量的历史数据,其中蕴含了许多重要的信息。通过对这些历史数据的分析和综合处理,可以找到那些对企业发展至关重要的业务信息,从而帮助有关主管和业务部门作出更加合理的决策。70年代中期出现的MIS(管理信息系统)实际上就是在这种背景下产生的。 但MIS具有极大的局限性。首先,它是按预先定义好的流程对数

数据仓库建设步骤

数据仓库建设步骤 1.系统分析,确定主题 确定一下几个因素: 操作出现的频率,即业务部门每隔多长时间做一次查询分析。 在系统中需要保存多久的数据,是一年、两年还是五年、十年 用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 用户所能接受的响应时间是多长、是几秒钟,还是几小时。 2.选择满足数据仓库系统要求的软件平台 选择合适的软件平台,包括数据库、建模工具、分析工具等。有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: 厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 数据库对大数据量(TB级)的支持能力。 数据库是否支持并行操作。 能否提供数据仓库的建模工具,是否支持对元数据的管理。 能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: 1)确定建立数据仓库逻辑模型的基本方法。 2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 3)识别主题之间的关系。 4)分解多对多的关系。 5)用范式理论检验逻辑数据模型。 6)由用户审核逻辑数据模型。 4.逻辑数据模型转化为数据仓库数据模型 具体步骤如下: 1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作 处理的数据项要删除。 2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。 3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。

4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。 粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的 查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。 5.数据仓库数据模型优化 数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。 优化数据仓库设计的主要方法是: 合并不同的数据表。 通过增加汇总表避免数据的动态汇总。 通过冗余字段减少表连接的数量,不要超过3~5个。 用ID代码而不是描述信息作为键值。 对数据表做分区。 6.数据清洗转换和传输 由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。 在设计数据仓库的数据加载方案时,必须考虑以下几项要求: 加载方案必须能够支持访问不同的数据库和文件系统。 数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。 支持各种转换方法,各种转换方法可以构成一个工作流。 支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。 7.开发数据仓库的分析应用 建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。 信息部门所选择的开发工具必须能够: 满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预 测和趋势分析。 提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。 使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。 事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。 8.数据仓库的管理

银行数据仓库构建分析

如何构建银行数据仓库 数据仓库技术作为一项数据管理领域的新技术,其精髓在于针对联机分析处理(OLAP)提出了一种综合的解决方案,与以往很多技术不同的是,它主要是一种概念,在此概念指导下完成系统的构造。既没有可以直接购买到的现成产品,也没有具体的分析规和实现方法,也就是说没有成熟、可靠且被广泛接受的数据仓库标准。在以往关系数据库的设计和实现中,不仅有详细的理论推导,还有无数的设计实例,无论你使用的是什么公司的数据库产品、开发工具,只要按照规做,那么实现同一业务需求的方案都会很相似。而现有数据仓库的实现中,出现了MOLAP方案和ROLAP方案的区别,出现了形形色色的数据仓库建模工具、表现工具,而设计人员的个人经验和素质也会在其中扮演很重要的角色。 数据仓库技术的实现方式 目前在数据仓库技术的实际应用中主要包括如下几种具体实现方式。 1、在关系数据库上建立数据仓库(ROLAP) 2、在多维数据库上建立数据仓库(MOLAP)

MOLAP方案是以多维方式来组织数据,以多维方式来存储数据;ROLAP 方案则以二维关系表为核心表达多维概念,通过将多维结构划分为两类表:维表和事实表,使关系型结构能较好地适应多维数据的表示和存储。在多维数据模型的表达方面,多维矩阵比关系表更清晰且占用的存储更少,而通过关系表间的连接来查询数据的ROLAP系统,系统性能成为最大问题。MOLAP方案比ROLAP方案要简明,索引及数据聚合可以自动进行并自动管理,但同时丧失了一定的灵活性。ROLAP方案的实现较为复杂,但灵活性较好,用户可以动态定义统计和计算方式,另外能保护在已有关系数据库上的投资。 由于两种方案各有优劣,因此在实际应用中,往往将MOLAP和ROLAP 结合使用,即所谓的混合模型。利用关系数据库存储历史数据、细节数据或非数值型数据,发挥关系数据库技术成熟的优势,减少花费,而在多维数据库中存储当前数据和常用统计数据,以提高操作性能。 3、在原有关系库上建立逻辑上的数据仓库 由于目前正在运行的OLTP系统中已经积累了海量数据,如何从中提取出决策所需的有用信息就成为用户最迫切的需要。新建数据仓库固然能从功能、性能各方面给出一个完整的解决方案,但需要投入大量的人力、物力,并且数据仓库的建设和分析数据的积累需要一段时间,无法及时满足用户对信息分析的迫切需要。因此在筹建数据仓库的前期,可以采用一些合适的表现工具,在原有OLTP系统上建立起一个逻辑的数

数据仓库设计文档模板

数据仓库设计与实现 学号 128302106 姓名江晨婷 成绩 教师张丹平 二O一五年四月

数据仓库建设方案设计与实现 摘要:本文以博士学位调查为基础,创建方案,设计与实现数据仓库,通过对当前各种主流数据仓库软件在性能、价格等方面的对比,充分考虑统计业务、单位数量等实际情况,本系统决定采用SQL Server 2005数据仓库软件来构建综合信息分析系统的数据仓库。 关键词:数据仓库;联机分析;数据挖掘;博士学位 一、概述 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 1.数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 2.数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 3.数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 二、博士学位授予信息年度数据统计分析 1.按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示

银行信用卡数据仓库建设

银行信用卡数据仓库建设 一、需求分析 银行建立数据仓库的必要性。中国的银行业在发展过程中,已逐步实现了绝大多数核心业务的计算机处理,积累了大量的客户数据和经营数据,这些数据是银行的宝贵财富,如何利用这些数据,发掘有价值的信息,解决问题的关键是建立银行企业级的数据仓库,实现对银行所有经营信息和客户信息的有效存储,并针对银行不同部门的管理决策需要,进行多层次的数据加工处理,以多种方式呈现真正有价值的信息(例如,维度,商业需求用户数量等),满足银行管理决策和客户分析的需要。 由此可以看出,整合数据建立一个全银行统一的数据中心,对于银行来说是非常重要的。通过数据仓库技术,将x银行全国各地的数据整合,并对数据进行一系列的抽取、加工、清洗、加载,使得数据能够有很高的利用价值。通过智能化的报表加工工具Cognos来快速的生成多种多样的报表,从不同的维度来展现数据。这些报表对于管理层来说数据更准确、更有价值,而且还可以根据上级的不同需求来随时生成想要看到的报表。这些对于银行发展新的客户、改善与老客户的关系、提高市场竞争力和占有率是非常重要和迫切的。 二.维度分析 1)卡量分析 2)客户量分析

3)账户分析 通过对卡量、客户量和账户量分析指标的业务定义的分析,卡信息汇总表选取的入仓字段有卡号、开卡日期、激活日期、销卡日期、销卡日期、到期日、发卡机构。 通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的入仓字段有机构代码、性别代码、客户号。 通过对卡量、客户量和账户量分析指标的业务定义的分析,选取的账号信息汇总表的入仓字段有账号、销户日期、账户状态、开户日期、销户日期、账户余额、逾期状态。 三、所用到的技术简单概述 1)ETL概述 E是Extraction的简写,表示数据的抽取;T是Transformation的简写,表示数据的转换;L是Loading的简写,表示数据的加载。ETL是数据抽取(Extraction)、转换(Transformation)、加载(Loading)的过程。 抽取(Extraction),在数据仓库系统的建设中是对数据的操作,就是将数据从 各种原始的业务系统中读取出来,这是要建立数据仓库系统的所有工作的前提。

建设数据仓库的八个步骤

大数据技术部 建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤 摘要:建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。 关键词:数据仓库元数据 建设数据仓库 建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。 开发数据仓库的过程包括以下几个步骤。 1.系统分析,确定主题 建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。 业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门

的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。 2.选择满足数据仓库系统要求的软件平台 在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准: ·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。 ·数据库对大数据量(TB级)的支持能力。 ·数据库是否支持并行操作。 ·能否提供数据仓库的建模工具,是否支持对元数据的管理。 ·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。 ·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。 3.建立数据仓库的逻辑模型 具体步骤如下: (1)确定建立数据仓库逻辑模型的基本方法。 (2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。 (3)识别主题之间的关系。 (4)分解多对多的关系。

数据仓库技术制定方案

数据仓库制定方案 在当下的数据仓库系统安全控制模块中,我国数据仓库安全分为不同的等级。总体来说,我国的数据仓库安全性是比较低。为更好的健全计算机数据仓库体系,进行数据仓库安全体系的研究是必要的。很多软件都是因为其比较缺乏安全性而得不到较大范围的应用,归根结底是数据仓库安全性级别比较低。为满足现阶段数据仓库安全工作的需要,有利于数据仓库保密性的控制,保证这些数据存储与调用的一致性。 当前数据仓库安全控制过程中,首先需要对这些数据进行可用性的分析,从而有利于避免数据仓库遭到破坏,更有利于进行数据仓库的损坏控制及其修复。其次为了保证数据仓库的安全性、效益性,也离不开对数据仓库整体安全性方案的应用。最后必须对数据仓库进行的一切操作进行跟踪记录,以实现对修改和访问数据仓库的用户进行追踪,从而方便追查并防止非法用户对数据仓库进行操作。 2.1数据仓库安全整体规划 本方案通过对电力行业敏感信息泄露安全威胁的分析,对数据仓库安全进行整体设计与规划,通过全系列数据仓库安全产品相互之间分工协作,共同形成整体的防护体系,覆盖了数据仓库安全防护的事前诊断、事中控制和事后分析。 制定严密可行的实施计划,整个工程严格按照计划进行;公司质量控制部利用ISO9000质量管理规范对工程的软件开发及实施全过程进行监督和控制;建立完善的软件开发和工程实施的文档体系。对程序进行测试,对各个模块之间的关联情况下可能出现的问题进行严密的测试,并不断完善在测试过程中暴露出来的问题。在这过程中质量控制小组将全程参与,确保软件质量。 需求调研是数据仓库开发的最重要的环节之一,在调研的过程中能否真实、准确地描述客户的需求,对于数据仓库的开发有着举足轻重的影响。与客户沟通不够导致对同一个事物的描述或者理解有分歧和差异,或者调研过程中流于表面文字,而没有进入实际的操作,都可能造成在需求调研的过程中造成对需求不精确的理解。失之毫厘,谬之千里,需求调研的微小差异可能会在软件的开发过程中造成较大的偏差,直接影响了工程的建设质量。为此我们为需求调研工作分配了充裕的人力的时间,制定了完善的调研方案,对需求调研的深度和广度做了规

数据仓库dw建设

1. 数据仓库概述 经过多年IT的建设,信息对于企业的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好企业内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,企业业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏企业全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖企业各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取企业业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 核心业务边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的各种同构、异构数据(前提是拥有足够的权限)。信息整合服务在整个企业层面保证

数据仓库建设方案

第1章数据仓库建设 1.1 数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Stor

m、Flume及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2 数据采集 专家系统数据仓库数据采集包括两个部分内容:外部数据汇集、内部各层数据的提取与加载.外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume 和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史: 在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库: 前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW)。什么是数据模型,就是满足整

数据仓库设计与实现

数据仓库的设计与实现

第1章数据仓库的设计与实现 1.1数据仓库设计过程 数据仓库的设计一般从操作型数据开始,通常需要经过以下几个处理过程;数据仓库设计——数据抽取——数据管理。 一、数据仓库设计 根据决策主题设计数据仓库结构,一般采用星型和雪花模型设计其数据模型,在设计过程中应保证数据仓库的规范化和体系各元素的必要联系。 二、数据抽取 根据元数据库中的主题表定义、数据源定义、数据抽取规则定义对异地异构数据源进行清理、转换、对数据进行重新组织和加工,装载到数据仓库的目标库中。 三、数据管理 数据管理分为目标数据维护和元数据维护两方面。目标数据维护是根据元数据为所定义的更新频率、更新数据项等更新计划任务来刷新数据仓库,以反映数据源的变化,且对时间相关性进行处理。元数据是数据仓库的组成部分,元数据的质量决定整个数据仓库的质量。当数据源的运行环境、结构及目标数据的维护计划发生变化时,需要修改元数据。 1.2需求分析与决策主题的选取 通过对管理者和各级别的用户的数据分析需求进行调研,我们收集并整理出了用户的决策分析需求如下: 1.2.1 博士学位授予信息年度数据统计分析 一、按主管部门统计 从主管部门的角度,分析在一个时间段(年)内,各主管部门所授予的博士学位信息统计。可回答如“2008,由某部门主管的,博士学位授予一共有多少,其平均学习年限是多少,脱产学习的有多少人?”等问题。具有表格和图形两种方式来展示分析结果。典型报表格式如表1所示。

表1 200__年度授予博士学位情况统计表(按主管部门统计) 表1续200__年度授予博士学位情况统计表(按主管部门统计) 二、按性质类别统计

数据仓库建设方案-2018-3-28

数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标准和规范、信息孤岛、不具备大容量的数据管理和分析能力。

3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图 技术架构图:

3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,

数据仓库建设方案-2018-

数据仓库建设方案-2018-3-28

数据仓库建设 商务智能(Business Intelligence)用于支持制定业务决策的技能、流程、技术、应用和实践。核心是通过数据提取、整理、分析,最终通过分析结果制定有关策略、规划,帮助企业了解新的趋势、抓住新的市场机会、发现潜在的威胁,达到资源的合理配置,节约成本提高效益。数据仓库是商业智能的基础,它为OLAP、数据挖掘提供分析和决策支持。 一、数据仓库概念 1.数据仓库定义 是一个面向主题的、集成的、相对稳定的、反映有有历史变化的数据集合,用于支持管理决策。具有以下特点: ●详细交易及相关业务数据的集合 ●包含必要的内部与外部信息 ●来自于多个数据源、业务操作系统 ●保存一定的时间周期 ●按照企业内业务规则决定存储模型 2.建设的必要性 目前大多数信息系统由于建设时间、建设方、各阶段需求不同,会出现一系列问题:缺乏整体规则、信息缺乏完整性、缺乏统一的信息管理标

准和规范、信息孤岛、不具备大容量的数据管理和分析能力。 3.价值 ●提高管理决策的科学性和管理效率 ●信息的整合,可推动现在有信息管理体系的重构 ●打通信息孤岛全局共享,降低数据获取的难度 ●逐渐取代各类业务管理报表系统 ●运用历史数据发现规律 二、数据仓库建设 1.业务需求定义 梳理出所有业务过程,分析业务内容提取需求,对其相关的数据进行探查,并对各系统核心业务人员访谈,准确的了解业务需求情况,近期调研 2.技术体系结构 生命周期图

技术架构图:

3.数据仓库数据建模 数据模型是抽象描述现实世界的一种方法,是通过抽象的实体及实体之间的联系来表示现实世界中事务的相互关系的一种映射,数据仓库模型是数据模型中针对特定的数据仓库应用系统的特定模型。数据仓库建模方法种类较多,常见的三种是范式建模、维度建模、实体建模,每种方法本质上都是从不同的角度解决业务中的问题。 关于数据仓库建模单独用一篇来详细介绍,这儿仅对维度建模做基本的介绍,维度建模由数据仓库领域另一位大师Ralph Kimall所倡导,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 1.维度模型是什么 维度建模将客观世界划分为度量和上下文。度量是由业务过程和支持它们的业务源系统来捕捉的,常常以数据值形式出现,将其称作“事实”,事实由大量上下文包围着,这些文本形式的上下文被直观地分割成多个独立的逻辑块,我们称其为“维”。维度描述了度量上下文的5W(who、what、when、where、why)信息,以及这些上下文是如何作用的。 企业的每一个业务过程都可以用维度模型来描述,维度模型由一系列含有数值量度量的事实表组成,事实表中的数值则被一系列带有文本属性的维度表环绕。

数据仓库建设思路整理

数据仓库建设思路整理 1.建设背景: 目前我行数据缺失、历史数据查询困难、各部门数据提取依赖SQL 脚本实时查询而效率低下、正确性不高等问题。在这种背景下我行数据仓库建设显得尤为重要。 2.数仓系统功能模型: 当前同业主流数据仓库系统功能模型大体如图1.0所示: 图1.0 主要分以下几个模块: 源数据:主要是下发的核心业务、ECIF、信贷系统、财务系统,支付系统等数据以及第三方提供并为我行使用的数据。 FTP服务器:主要负责接下发数据或通过调用接口等形式获取

第三方源数据文件。 文件卸载区:负责从FTP服务器获取当前需要更新到数据仓库的数据。 文件备份区:负责将进入数据仓库的数据文件进行备份管理。 ODS(Operational Data Store):操作型数据存储,仅对源数据增加源系统和数据日期作为区分存储起来。可以用于明细和流水等原始记录查询。 FDS(Fundational Data Strore):基础数据存储,按客户、存款、贷款、公共、银行卡、总账、中间业务、渠道八个主题对数据进行汇总和计算。 IDS(Integrated Data Store):集成数据存储,对数据按客户维、账户维、时间维、机构维、产品维等维度对数据进行集成。 应用系统:主要负责展示、分析和使用数据仓库数据。 数据仓库管理平台:主要负责作业调度,元数据管理,系统监控等功能。 3.数据仓库技术模型: 根据数据仓库个模块的不同特性总结各层级所用到的技术或者软件如下图2.0所示:

图3.0 上图每层实现技术区分商业和开源实现方案,其中商业软件

性能好、服务支持好,但是因为都是国外大型公司产品,产品价格高;而开源方案在性能方面不如商业软件,同时需要投入较多较多时间,人力进行整合。建设过程中可以结合数据规模,数据储存时间,实际访问需求量等方面综合考虑,采用不同的技术实现方案。

相关文档
相关文档 最新文档