文档库 最新最全的文档下载
当前位置:文档库 › 数据仓库

数据仓库

数据仓库
数据仓库

一、选择题

1、数据仓库是随时间变化的,下面的描述不正确的是:

A、数据仓库随时间变化不断增加新的数据内容。

B、捕捉到的新数据会覆盖原来的快照。

C、数据仓库随时间变化不断删去旧的数据内容。

D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。答案: B

2、关于基本数据的元数据是指:

A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。

B、基本元数据包括与企业相关的管理方面的数据和信息。

C、基本元数据包括日志文件和建立执行处理的时序调度信息。

D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息。

答案: A

3、下面有关数据粒度的描述不正确的是:

A、粒度是指数据仓库小数据单元的详细程度和级别。

B、数据越详细,粒度就越小,级别也就越高。

C、数据综合度越高,粒度就越大,级别也就越高。

D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。

答案: B

4、有关数据仓库的开发特点,不正确的描述是:

A、数据仓库开发要从数据出发。

B、数据仓库使用的需求在开发出去就要明确。

C、数据仓库的开发是一个不断循环的过程,是启发式的开发。

D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。

答案: B

5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断提高的要求。其实,实现原理是将数据写入多张磁盘中,如果—张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。有关RAID不同级别的描述不正确的是:

A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。

B、RAID 1称为镜像。在这一级别上,数据被冗余地写入成对的驱动器中,可以独立地从每个驱动器提取该数据。这种方法没有什么缺点,是备份时候经常用到的技术。

C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。

D、RAID 5如果采用这一水平的技术,则数据记录在成组的驱动器上扇区交错地存放着,所有驱动器都有奇偶校验信息。

答案: B

6、有关数据仓库测试,下列说法不正确的是:

A、在完成数据仓库的实施阶段中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统集成测试。

B、当数据仓库的每个单独组件完成后,就需要对它们进行单元测试。

C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。

D、在测试之前没必要制定详细的测试计划。

答案: D

7、OLAP技术的核心是:

A、在线性

B、对用户的快速响应

C、互操作性

D、多维分析

答案: D

8、关于OLAP的特性,下面正确的是:

①快速性②可分析性③多维性④信息性⑤共享性

A、①、②、③

B、②、③、④

C、①、②、③、④

D、①、②、③、④、⑤

答案: D

9、关于OLAP和OLTP的区别的描述,不正确的是:

A、OLAP主要是关于如何理解聚集的大量不同的数据。它与OLAP应用程序不同。

B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务。

C、OLAP的特点在于事务量大,但事务内容比较简单且重复率高。

D、OLAP是以数据仓库为基础的,其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的。

答案: D

10、OLAM技术一般简称为“数据联机分析挖掘”,下面说法正确的是:

A、OLAP和OLAM都基于客户机/服务器模式,只有后者有与用户的交互性。

B、由于OLAM的立方体和用于OLAP的立方体有本质的区别。

C、基于Web的OLAM是Web技术与OLAM技术的结合。

D、OLAM服务器通过用户图形接口接收用户的分析指令,在元数据的指导下,对超级立方体作一定的操作。

答案: D

11、数据仓库的数据具有四个基本特征,下列不正确的是:

A、面向主题的。

B、集成的。

C、不可更新的。

D、不随时间变化的。

答案: D

12、下列是关于OLAP的描述,不正确的是:

A、一个多维数组可以表示为:(维1,维2,……,维n)

B、维的一个取值称为该维的一个维成员

C、OLAP是联机分析处理

D、OLAP是以数据仓库进行分析决策的基础

答案: A

13、关于OLAP和OLTP的说法,下列不正确的是:

A、OLTP事务量大,但事务内容比较简单且重复率高

B、OLAP的最终数据来源与OLTP不一样

C、OLTP面对的是决策人员和高层管理人员

D、OLTP以应用为核心,是应用驱动的

答案: B

14、关于数据仓库元数据的描述,下列不正确的是:

A、元数据描述了数据的结构、内容、码、索引等项内容。

B、元数据内容在设计数据仓库时确定后,就不应该再改变。

C、元数据包含对数据转换的描述。

D、元数据是有效管理数据仓库的重要前提。

答案: B

15、下列描述不正确的是:

A、模型辅助决策系统一般可以使用若干个模型来解决同一问题。

B、人机交互系统是决策支持系统的一个组成部分。

C、决策支持系统包含模型库和模型库管理系统。

D、智能决策支持系统包含知识库系统。

答案: A

16、决策支持系统可以用不同的方法进行构造,下列的说法不正确的是

A、可以用生命周期法和原型法构造决策支持系统。

B、原型法是一个迭代过程。

C、原型法中不存在对用户的反馈。

D、SDLC即是系统开发的生命周期法

答案: C

17、数据清洗是数据转移的一种基本类型,它不能通过下列的那种方法来完成:

A、范围检验

B、枚举清单

C、相关检验

D、删除不合格的数据

答案: D

18、下列不是数据转移的基本类型的是:

A、简单转移

B、清洗

C、集成

D、继承

答案: D

19、开展数据挖掘的基本目的是:

A、建立数据仓库。

B、帮助用户作决策。

C、从大量数据中提取有用信息。

D、对数据进行统计和分析。

答案: C

20、产生数据挖掘的根本原因是:

A、数据统计分析。

B、技术的发展。

C、商业推动。

D、数据仓库的产生。

答案: A

21、()是通过数据库中的一些属性来预测另一个属性,它在验证用户提出的假设的过程中

提取信息。

A、文本数据挖掘

B、发现驱动的数据挖掘

C、验证驱动的数据挖掘

D、Web数据挖掘

答案: C

22、对于在数据仓库中设计、使用OLAP的用户来说,下面不属于OLAP的衡量标准的是:

A、解释性批处理提取。

B、弹性报告和一致性能报告。

C、对物理层的自动调整。

D、体系结构。

答案: D

23、对MOLAP和ROLAP的比较,不正确的说法是:

A、MOLAP的查询能力一般较好,而在ROLAP中进行查询,往往很难预料查询结果。

B、MOLAP所需要的数据加载时间比较长,而ROLAP的加载时间要比MOLAP短。

C、ROLAP比MOLAP的查询速度都要快很多。

D、MOLAP在分析过程中的精度较高,具有分析的优势。

答案: C

24、关于OLAP服务器及其工具,说法正确的是:

A、只有Oracle提供了OLAP功能。

B、评价OLAP服务器的标准不包括全局结构视图。

C、OLAP的服务引擎都应满足分析模型及应用在功能、规模和技术特征上的要求。

D、对OLAP服务器的管理能力没有特别的要求。

答案: C

25、数据挖掘工具按照使用方式分类,可以分为:

A、分为基于神经网络的工具,基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具等。

B、分成决策方案生成工具,商业分析工具和研究分析工具三类。

C、分成专用型数据挖掘工具和通用型数据挖掘工具两大。

D、分成基于神经网络的工具和研究分析工具。

答案: B

二、填空题

1、数据仓库(简答题必考)是_____、______、______、______有组织的数据集合,支持管理的决策过程。答案:面向主题、集成的、时变的、非易失的

2、一般来说,可将数据仓库的开发和应用过程细分为_____、______、______、______。答案:设想阶段、规划和成长阶段、控制阶段和稳定阶段

3、_____是对现实世界进行抽象的工具,需要将现实世界的事物及其有关特征转换为信息世界的数据,才能对信息进行处理与管理,这就需要依靠_____作为这种转换的桥梁。这种转换经历了从现实到_____,从_____到_____,最后从_____到物理模型的转换。

答案:数据模型、数据模型、概念模型、概念模型、逻辑模型、逻辑模型

4、元数据(简答题必考)是关于数据、_____和应用程序的结构和意义的描述信息,其主要目标是_____。其范围可以是某个特别的数据库管理系统中从现实世界的概念上的一般概括,到_____。

答案:操纵数据的进程、提供数据资源的全面指南、详细的物理说明

5、按对象级别对元数据进行分类,可以从三个抽象级别上来认识:_____、逻辑级和_____。答案:概念级、物理级

6、数据库系统的特点主要体现在下面几个方面:_____、数据的共享性、_____和_____。答案:数据的结构化、数据的独立性、数据统一由DBMS管理和控制。

7、依据数据仓库数据量大但是操作单一的特点,可以采取一些技术来进行数据仓库的物理数据模型设计,如:合并表、_____、引入冗余、_____、建立广义索引等等。

答案:建立数据序列、表的物理分割、生成导出数据

8、数据仓库的接口技术包含多技术接口技术、_____和数据的高效率加载技术。

答案:语言接口技术

9、数据仓库中数据的组织方式与数据库不同,通常采用_____分级的方式进行组织。—般包括早期细节数据、_____、轻度综合数据、_____以及_____五部分。

答案:当前细节数据、高度综合数据、元数据

10、数据仓库的需求分析根据不同领域可以划分为_____、设计的需求、_____和最终用户的需求等方面。

答案:业主(投资者)的需求、开发者的需求

11、数据仓库虽然是从数据库发展而来的,但两者存在大的差异,从数据存储内容看,数据库只存放_____,而数据仓库则存放_____,数据库中的数据的目标是面向_____,而数据仓库则面向_____。

答案:当前值、历史值、业务操作人员、高层管理人员

12、数据库内的数据是_____的,只要有业务发生,数据就会更新,而数据仓库则是_____的历史数据,只能定期添加、刷新。

答案:动态变化、静态

13、数据仓库主要是供决策分析用的,所涉及的数据操作主要是_____,一般情况并不进行_____

答案:数据查询、修改操作

14、数据仓库创建后,首先从_____中抽取所需要的数据到数据准备区,在数据准备区中经过_____的净化处理,再加载到数据仓库数据库中,最后根据用户的需求将数据发布到_____。答案:数据源、数据、数据集市/知识挖掘库中

15、“主题”在数据仓库中由一系列_____实现的。一个主题之下表的划分可按_____、数据所属时间段进行划分。主题在数据仓库中可用_____方式进行存储,如果主题存量大为提高处理效率可采用_____方式进行存储。

答案:列表、数据的综合、多维数据库、关系数据库

三、简答题

1、什么是数据挖掘(Data Mining)? (简答题必考)

答案:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。挖掘的数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

2、数据挖掘研究内容是什么?

答案:主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模

型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。

3、数据挖掘提取出的知识主要由哪些类型?

答案:数据挖掘所发现的知识最常见的有以下四类:广义知识(Generalization),关联知识(Association),分类知识(Classification&Clustering),预测型知识(Prediction),偏差型知识(Deviation)。

4、什么是专家系统?

答案:专家系统是一个智能计算机程序系统,其内部含有大量的某一个领域专家水平的知识与以验,能够利用人类专家的知识和解决问题的方法来处理领域问题,专家系统是一种模拟人类专家解决领域问题的计算机程序系统。

5、简述数据仓库的组成。

答案:数据仓库管理部分的组成包括:

①定义部件。这一部件用于定义和建立数据仓库系统,

●设计和定义数据仓库的数据库。

●定义数据来源。

●确定数据源向数据仓库复制数据的转换、清理规则。

②数据获取部件。依据数据定义部件定义的规则从数据源中指数据抽取到数据仓库中,完成清洗、变换和集成工作,将数据装载到数据仓库中,定期清理数据仓库,消除数据仓库与源数据库的不一致,清除失效数据等。一般情况下可以通过一些通用工具完成,但是由于数据源中的数据类型、格式非常复杂,因此有些情况下需要编制特定的工具完成数据获取工作。

③管理部件。主要包括对数据仓库中数据的维护、安全、备份、恢复、日志等工作。这些工作需要借助数据库管理系统的功能实现。

④元数据管理,也可称为信息目录管理。它主要完成元数据的管理、存储以及对整个数据仓库数据的检测和管理,由以下部分组成:

●技术元数据。技术元数据由关于数据源、目标、转换规则、清理规则以及数据源与数据仓库之间的映射组成。

●业务目录。业务目录由数据仓库管理员生成,由数据来源、当前值、预定义的查询等方面组成,是针对具体应用数据的元数据管理。

(2)数据仓库工具集

数据仓库工具集主要由一些分析工具组成,主要包括检索查询工具、多维数据的OLAP分析工具、统计分析以及数据挖掘工具等(严格地说,数据挖掘工具只是数据仓库支持辅助决策的一种方法,数据挖掘列以从数据仓库中挖掘知识、规律,也可以从数据库或者一些平面文件中挖掘,但是从支持辅助决策的角度来看,将它归为数据仓库系统的一部分)。

OLTP与OLAP 的主要区别有以下几点:(简答题必考)

(1)、所面向的用户和系统:OLTP是面向客户的,由职员或客户进行事务处理或者查询处理。

OLAp是向向市场的,由经理、主管和分析人员进行数据分析和决策的。

(2)、数据内容:OLTP系统管理当前数据,这些数据通常很琐碎,难以用于决策。OLAP 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息,这些特点使得数据适合于决策分析。

(3)、数据库设计:通常,OLTP采用ER模型和面向应用的数据库设计,而OLAP系统通常采用星型模式或雪花模式和面向主题的数据库设计。

(4)、视图:OLTP系统主要关注一个企业或部门的当前数据,而不涉及历史数据或不同组织的数据。与之相反,OLAP系统常常跨越一个企业的数据库模式的多个版本,OLAP系统也处理来自不同组织的信息,由多个数据源集成的信息。

(5)、访问模式:OLTP系统的访问主要由短的原子事务组成,这种系统需要并发控制和恢复机制。而OLAP系统的访问大部份是只读操作,其中大部份是复杂查询。

(6)、度量:OLTP专注于日常时实操作,所以以事务吞吐量为度量,OLAP以查询吞吐量和响应时间来度量。

数据仓库报告

数据仓库 学号:20111004458 班级:193113 姓名:华秀 指导老师:李程俊 2015年1月20日

目录 一、数据仓库的定义 (3) 二、实时数据仓库的技术基础和研究现状 (3) 1.技术基础: (3) 2.研究现状 (7) 三、什么是OLTP、OLAP它们的区别有哪些? (8) OLTP: (8) OLAP: (8) OLAP和OLTP的区别 (8) 四、OLAP有哪些操作 (9) 五、数据立方体 (10) 六、数据挖掘分类 (11) 七、数据挖掘技术 (11) (1)决策树方法 (11) (2)关联规则 (12) (3)神经网络 (12) (4)遗传算法 (12) (5)聚类分析 (12) (6)统计学习 (12) (7)粗糙集 (13) 八、 K means聚类算法 (13)

一、数据仓库的定义 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。 对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库是近年来才提出的新概念.所谓数据仓库(Data Warehouse)是指这样一种数据的存储地,来自于异地、异构的数据源或数据库的数据经加工后在数据仓库中存储、提取和维护.传统数据库主要面向业务处理,而数据仓库面向复杂数据分析、高层决策支持.数据仓库提供来自种类不同的应用系统的集成化和历史化的数据,为有关部门或企业进行全局范围的战略决策和长期趋势分析提供了有效的支持.数据仓库使用户拥有任意提取数据的自由,而不干扰业务数据库的正常运行. 当前,一些企业已经在传统数据处理方面有了较丰富的经验,他们采用数据仓库希望能从中得到更多好处,例如,以合理的代价取得有效的决策支持、促进企业中业务处理过程的重组、改善并强化对客户的服务、强化企业的资产/负债管理、促进市场优化、加速资金周转、帮助实现企业的规模优化.数据仓库的产生和发展为数据采掘技术开辟了新的战场,同时也提出了新的要求和挑战.目前的研究还主要着眼于数据仓库的构建和维护的基本理论、方法上,例如数据仓库更新问题的研究,因为这是迈向实用化的第一步的、首要的任务.下一步将把重点放在数据仓库的有效应用研究上.为高级的决策支持服务是数据仓库的最终目的,因此基于数据仓库的数据采掘理论和技术的研究,自然成为信息科学学术界的热点问题. 二、实时数据仓库的技术基础和研究现状 1.技术基础: 数据仓库系列技术,主要支撑技术有以下一些: 数据库技术、ETL技术、OLAP技术、元数据管理技术、前台展现技术、报表技术、挖掘技术、仿真优化技术。 这些支撑技术结合各行业业务后,可以生产各式各样的应用。当然这些技术中,重点突出了在数据仓库方面的特征,而忽略了计算机技术的一些特征。比如:OLAP技术,那么就需要计算机存储技术、压缩技术、分区技术、加解密技术、图形化技术等等,这里就不再单独列示。 数据库技术是支撑数据仓库技术的最基础技术。有关系数据库、层次数据库、网络数据库等类型,目前呈现比较好的发展态势的对象关系数据库也是一种类型。最典型的是关系数据库的应用。在数据仓库实践中,关系数据库是实质的数据库存储工具,但针对不同的数据仓库方案,有的关系数据库是还提供了有关的数据仓库元素的查询函数或组件,在支撑数据仓库数据存储的基础上,还能支撑数据仓库的数据探查,比如:Teradata,但是,大部分数据库,以及在大部分数据仓库建设方案中,只是利用数据库作为数据存储的工具。这样,实质上数据仓库与数据库在技术表现看起来可能是一样的,但是,在系统存储模型上却有着本质的区别。数据库技术在存储模型建设方面强调数据模型的规范性和高效存储能力(少冗

数据仓库建设的几点建议.doc

北京甲骨文软件有限公司咨询经理鲁百年博士 一、国内信息化的现状 1、信息化建设的发展历史:在国内信息化建设过程中,基本上是按照当时业务系统的需求进行建设,例如:在一个企业中,财务部门为了减少工资发放的差错,提高发放的效率,先建设一个工资发放和管理程序;为了报账和核对的需求,建设一个财务管理程序;在银行首先为了业务处理的方便,将最基本的手工记帐和处理的业务建成一个系统,过一段时间,如果有新的业务推出,就再建设一个新的系统,或在原系统的基础上增加新的业务处理。这样的结果使每个系统和系统之间缺少真正的信息沟通和信息交换。 2、为何要建立数据仓库:前面我们讲过,业务系统各自为政,相互独立。当很多业务系统建立后,由于领导的要求和决策的需求,需要一些指标的分析,在相应的业务系统基础上再增加分析和相应的报表功能,这样每个系统就增加了报表和分析功能。但是,由于数据源不统一导致了对同一个指标分析的结果不相同。为了解决该问题,Bell Inman提出了数据仓库的概念,其目的是为了分析和决策的需要,将相互分离的业务系统的数据源整合在一起,可以为领导和决策层提供分析和辅助决策。 3、国内企业对数据仓库建设认识的误区: 大家对数据仓库的认识是将业务系统的数据进行数据抽取、迁移和加载(ETL),将这些数据进行整合存放在一起,统一管理,需要什么样的分析就可提供什么样的分析,这就是数据仓库。这样做的结果是花了一年到两年的时间都无法将整个企业业务系统的数据整合在一起,花钱多、见效慢、风险大。一年后领导问起数据仓库项目时,回答往往是资金不足,人力不够,再投入一些资源、或者再延长半年的时间就会见到效果,但是往往半年过后还是仅仅可以看到十几张或者几十张报表。领导不满意,项目负责人压力也很大,无法交待。这时,项目经理或者项目负责人才意识到,项目有问题,但是谁也不敢说项目有问题,因为这样显然是自己当时的决策失误。怎么办?寻找咨询公司或者一些大的厂商,答案往往是数据仓库缺乏数据模型,应该考虑数据模型。如果建设时考虑到整个企业的数据模型,就可以建设成企业级的数据仓库(EDW。什么是数据模型,就是满足整 个企业分析要求的所有数据源。结果会如何,我个人认为:这样做企业级数据仓

数据仓库总结

数据仓库系统与传统数据库系统的区别数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。 数据挖掘与传统分析工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。 数据挖掘的步骤 1.描述数据--- 计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性。 2.历史数据建立一个预言模型,然后再用另外一些数据对这个模型进行测试。 3.验证你的模型 数据挖掘与传统数据分析方法区别(1)数据挖掘的数据源与以前相比有了显著的改变;数据是海量的;数据有噪声;数据可能是非结构化的;(2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。 数据挖掘方法与过程 方法:决策树关联规则人工神经网络粗糙集理论遗传算法 过程:1.对数据库数据整理,抽取出用来完成特定挖掘目标的数据集。2.选择合适的挖掘方法和工具,在领域专家指导下进行知识获取研究3.对事物的发展进行预测 数据采集与处理:从数据仓库中选取相关的数据集合。知识库:指导数据挖掘和评价挖掘结果。数据挖掘:对数据仓库中提取的数据进行分析处理。知识评价:是以兴趣度作为衡量标准来查找和选择对最终决策活动友有益的的知识。OLAP与数据挖掘(DM)的比较相同之处:OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处:(1)前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。 (3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。因此,OLAP与数据挖掘各有所长。 OLAP与OLTP的区别(1)OLTP主要面向公司职员;OLAP则主要面向公司领导者。(2)OLTP应用主要是用来完成客户的事务处理,其数据基础是操作型数据库,如民航订票系统、银行储蓄系统等等,通常需要进行大量的更新操作,同时对响应时间要求较高;而OLAP是以数据仓库或数据多维视图为基础的数据分析处理,是针对特定问题的联机数据访问和分析,它一般不对仓库数据作修改处理,而只是查询,其应用主要是对客户当前及历史数据进行分析,辅助领导决策,其典型的应用有对银行信用卡风险的分析与预测、公司市场营销策略的制定等,主要是进行大量的查询操作,对时间的要求不太严格。 OLTP OLAP 面向人群业务系统的操作、维护人员管理、决策者 功能日常操作处理分析、决策辅助 实现方式基于交易的处理系统基于查询的分析系统 应用场合面向生产应用面向特定主题 数据库设计实体-联系模型星形或雪花模型 数据当前的、最新的细节数据历史的、聚合的数据 响应时间对响应时间要求非常高查询时间长 数据仓库与数据集市的差别 (1)范围不同:数据仓库面向的是整个企业,为整个企业提供所需的数据;数据集市则面向各个部门。 (2)粒度不同:数据仓库中的数据粒度非常小;数据集市中的数据主要是概括级的数据。 (3)数据组织方式不同数据集市中数据的结构通常被描述为星型结构或雪花结构。一个星型结构包含两个基本部分—一个事实表和各种支持维表。事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数据是最密集的数据等等。 数据仓库:是一个面向主题的、集成的、不可更新的且随时间不断变化的数据集合,用来支持管理人员的决策。数据仓库的根本任务:把信息加以整理归纳并及时提供给管理决策人员。主要作用:提供报表和图表、支持多维分析、数据挖掘的基础。

九种数据仓库产品及解决方案评析

前言: 随着我国企业信息化建设步伐的不断加快,全球性市场竞争的加剧,越来越多的企业开始建设自己的数据仓库系统,希望能对历史数据进行具体而又有针对性的分析与挖掘,以期从中发现新客户和客户新的需求。 目前市场上各种数据仓库产品及其解决方案品种繁多,且大多属于“舶来品”,产品定位不同,各有特点,究竟选择哪家的产品能更适合自己的企业特点与未来发展? 本文对目前市场上九种主流数据仓库产品(Business Objects、Oracle、IBM、Sybase、Informix、NCR、Microsoft、SAS、CA)进行分析与总结,根据各公司提供的数据仓库工具的功能,将其分为三大类:单点产品、提供部分解决方案的产品、提供全面解决方案的产品。下面对其进行一一介绍,以期能够给你的选择提供一定的参考。 九种数据仓库产品及解决方案评析 =============================================== 一、单点产品 这类产品仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。比较有特色的是Business Objects。 Business Objects 所谓单点产品是指仅局限于数据仓库方案实施中的一部分或某一特定功能,主要是作为第三方产品或者和其它公司的产品结合起来进行使用。 ?产品特点: Business Objects是一个集查询、报表和OLAP技术为一身的智能决策支持系统。它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台(所有Windows 平台及Unix平台)和多种数据库(如Oracle、informix、Sybase、Microsoft SQL Server、DB2、CA-Ingres、Teradata、Red Brick、FoxFro、dBase、Access等),同时它还支持Internet/Intranet,可以通过WWW进行查询、报表和分析决策。 ?主要工具: Business Objects提供工具如下: BusinessObjects是集成查询,报表和分析功能的工具; Webintelligence是世界上第一个通过Web进行查询、报表和分析的决策支持工具; Businessquery是第一个可以在Microsoft Excel中集成企业公共数据源中数据的工具; Businessminer是面向主流商业用户的数据挖掘工具,可以实现深入的分析用以发掘深层次的数据之间的关系。

建设数据仓库7个步骤

成功实施数据仓库项目的七个步骤 建立一个数据仓库并不是一个简单的任务,不应该由一个人单独完成。由于数据仓库最佳结合了业务惯例和信息系统技术,因此,一个成功的数据仓库实施需要这两方面的不断协调,以均衡其所有的需要,要求,任务和成果。我很乐意与大家分享我在规划和管理任何数据库项目时采用的方法,这些数据库包括交易数据库,数据仓库,和混合型数据库。由于我生活在关系数据库和数据仓库以及用以支撑它们的数据提取,转换和加载(ETL )过程中,所以我会集中在这些领域讨论我的方法。然而,您可以将这些方法扩展到整个栈--OLAP立方体和如报告,特征分析(ad-hoc analysis),记分卡和仪表盘展示之类的信息传递应用。 我不是吃撑了要告诉一个真正的项目经理( PM )如何做他或她的工作,相反,我写的这些是为那些数据库管理员和开发者,他们没有好运气能与有经验的项目经理一起工作;同样也适合这样的IT专业人员,他们被突然要求:“建立一个数据仓库“,并且需要自己扮演项目经理的角色。我的讨论不会是完整的,但我希望这会给您足够的信息来让您的项目球滚起来。 如图1所示,数据仓库项目有3个轨道(tracks):数据轨道,技术轨道和应用层轨道。当您在整理任何数据库项目计划时,我建议您以这三个轨道为模板来管理和同步您的活动。当您向技术决策者( TDMs ) ,商业决策者( BDMs ) ,和所有其他该数据仓库项目参与者讲解您的计划时,您也可以把图1当作一个高级的概要图来使用。 使用一种生命周期管理方法 我鼓励您利用您的组织可以提供的资源,比如设计,开发和部署系统和软件的技术和方法。如果贵公司对于这些工作没有采用任何正式的方法,继续前进吧,您可采用我为我自己的数据库项目开发的7D数据库生

数据仓库总结

·数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 ·数据仓库的特点 –面向主题 –集成 –相对稳定 –反映历史变化 数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。 数据仓库,Data Warehouse,可简写为DW。 数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。 ◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。 ◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 ◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 ◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。 发展阶段: 数据仓库的架构 1.数据源:他是数据仓库的基础,位于数据仓库构架的最底层,是数据仓库的数据源泉。包括各个业务处理子系统的信息。 2. ETL:是数据仓库的核心。数据仓库如何高效管理数据是区别与面向操作数据库的主要标准。完成按照主题管理数据,聚合数据存放于多维数据库中。 3.数据存储与管理:是整个数据仓库系统的核心 4.OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势 5.前端展现:主要包括各种报表、查询、OLAP分析、数据挖掘等。

数据仓库概念的简单理解

数据仓库概念的简单理解 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。如下图所示: 数据源: 是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;数据的存储与管理: 是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,Data Mart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。 OLAP服务器: 对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP 基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。 前端工具与应用: 前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。? 集线器与车轮状结构的企业级数据仓库 ?

数据仓库建设方案详细

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分容:外部数据汇集、部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

数据仓库与数据挖掘实验报告

数据仓库与数据挖掘 实验报告 姓名:岩羊先生 班级:数技2011 学号:XXXXXX 实验日期:2013年11月14日

目录 实验 ........................................................................................................................ 错误!未定义书签。 【实验目的】....................................................................................... 错误!未定义书签。 1、熟悉SQLservermanager studio和VisualStudio2008软件功能和操作特点; ................................................................................................................ 错误!未定义书签。 2、了解SQLservermanager studio和VisualStudio2008软件的各选项面板和 操作方法; .............................................................................................. 错误!未定义书签。 3、熟练掌握SQLserver manager studio和VisualStudio2008工作流程。错误! 未定义书签。 【实验内容】....................................................................................... 错误!未定义书签。 1.打开SQLserver manager studio软件,逐一操作各选项,熟悉软件功能; (4) 2.根据给出的数据库模型“出版社销售图书Pubs”优化结构,新建立数据库并导 出; (4) 3.打开VisualStudio2008,导入已有数据库、或新建数据文件,设计一个“图书 销售分析”的多维数据集模型。并使用各种输出节点,熟悉数据输入输出。 (4) 【实验环境】....................................................................................... 错误!未定义书签。 【实验步骤】....................................................................................... 错误!未定义书签。 1.打开SQL Server manager studio; (5) 2.附加备份的数据库文件pubs_DW_Data.MDF和pubs_DW_Log.LDF并且做出

数据仓库实验报告

数据仓库与数据挖掘上机实验报告 实验目的:学习Analysis Services的操作 实验内容: 浏览SQL Server 2000 Analysis Services 随机教程;规划需求分析;仓库设计;建立分析数据库,设置数据源;建立多维数据库(Cube);设置多维数据库的数据存储方式及访问权限实验分析: 下面进行实验,建立多维数据库(使用Northwind数据库),先用数据清洗转换,将需要的表从源库转换到新数据库,为数据仓库提供需要的数据,要形成的维表有Products,Category,Employees,Dates,Facts(事实表),在实验二中Products和Category将组成雪花架构的维表。 实验过程:建立多维数据库 内容:建立多维数据库(cube),要建立事实表Facts和维表Products,Categories,Employees,Dates,设置多维数据库的数据存储方式 目的:学会建立事实表,度量,时间维度,雪花表,使用数据存储方式 步骤: 1) 设置数据源,建立myNorthwind数据库。 2) 建立多维数据集的事实表,使用Analysis Server的向导。此时显示刚才选中的myNorthwind数据集,还有一个系统自带的FoodMart数据集。向导提示选择事实数据表,在这里我们选好了Facts表作为事实表。

*在下一步用了定义度量值的数据中选择TotalPrice,UnitPrice,Quantity,Discount作为度量,度量值的选择与决策者关心的项目有关。在这里假设决策者关心的是价格对销量产生的影响,从这些数据中可以得出进一步的经营方针。 3)定义好事实表后,我们要建立cube的维度表 ①选择维度的创建方式,维度表的结构有星型架构,雪花架构等等,在本实验中,只用到前两个架构,因为本实验中根本没必要用到其他的结构。而雪花架构的运用也只是用于学习和研究,在实际中,如此简单的数据仓库结构也不需要雪花架构,因为它会降低系统的性能。

数据仓库和数据挖掘实验报告

一、上机目的及内容 目的: 1.理解数据挖掘的基本概念及其过程; 2.理解数据挖掘与数据仓库、OLAP之间的关系 3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。 内容: 将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出购买自行车模式。请将要挖掘的维度(事例维度)设置为客户,再将客户的属性设置为数据挖掘算法识别模式时要使用的信息。然后算法将使用决策树从中确定模式。下一步需要训练模型,以便能够浏览树视图并从中读取模式。市场部将根据这些模式选择潜在的客户发送自行车促销信息。 要求: 利用实验室和指导教师提供的实验软件,认真完成规定的实验内容,真实地记录实验中遇到的各种问题和解决的方法与过程,并根据实验案例绘出模型及操作过程。实验完成后,应根据实验情况写出实验报告。 二、实验原理及基本技术路线图(方框原理图或程序流程图) 关联分析:关联分析是从数据库中发现知识的一类重要方法。 时序模式:通过时间序列搜索出重复发生概率较高的模式。 分类:分类是在聚类的基础上对已确定的类找出该类别的概念描述,代表了这类数据的整体信息,既该类的内涵描述,一般用规则或决策树模式表示。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及Microsoft SQL Server套件 四、实验方法、步骤(或:程序代码或操作过程)及实验过程原始记录( 测试数据、图表、计算等) 创建Analysis Services 项目 1.打开Business Intelligence Development Studio。 2.在“文件”菜单上,指向“新建”,然后选择“项目”。 3.确保已选中“模板”窗格中的“Analysis Services 项目”。 4.在“名称”框中,将新项目命名为AdventureWorks。 5.单击“确定”。

数据仓库 历史与现在发展状况

数据仓库 一数据仓库简介 随着处理信息量的不断加大,企业需要多角度处理海量信息并从中获取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。数据仓库因其面向主题性,集成性,稳定性和时变性,不仅在数据的集成,存储上效果好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。数据仓路按照特定的方法(ETL)从数据源中提取数据,以特定主题作维度利用特定的算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。 二数据仓库历史 1.1981年NCR公司(national cash register corporation)为Wal mart 建立了第一个数据仓库,总容量超过101TB(十年的会计文档还不足1TB) 2.商务智能的瓶颈是从数据到知识的转换。1979年,一家以决策支持系统为已任、致力于构建单独的数据存储结构的公司Teradata诞生了。Tera,是万亿的意思,Teradata的命名表明了公司处理海量运营数据的决心。1983年,该公司利用并行处理技术为美国富国银行(Wells Fargo Bank)建立了第一个决策支持系统。这种先发优势令Teradata至今一直雄居数据行业的龙头榜首。 3. 1988年,为解决企业集成问题,IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新的术语:数据仓库(Data Warehouse) 4.1992年,比尔·恩门(Bill Inmon)出版了《如何构建数据仓库》一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得以大规模应用的序幕。 5.1993年,毕业于斯坦福计算机系的博士拉尔夫·金博尔,也出版了一本书:《数据仓库的工具》(The Data Warehouse Toolkit),他在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。最终拉尔夫金博尔尔由下而上,从部门到企业的数据仓库建立方式迎合人们从易到难的心理,得到了长足的发展。 6.1996年,加拿大的IDC(international date corporation)公司调查了62家实现数据仓库的欧美企业,结果表明:数据仓库为企业提供了巨大的收益、进行数据仓库项目开发的公司在平均2.72年内的投资回报率为321%。 7.到如今,数据仓库已成为商务智能由数据到知识,由知识转化为利润的基础和核心技术。 8.在国内,因数据仓库的实施需要较多的投入,再加之需要足够的数据积累才能看到结果,不能很好的被企业普遍接受。对数据仓库的发展产生了一些负面影响。但实时的,多维的处理海量数据已成为信息时代企业发展所必须的工作。 三主流数据仓库产品 IBM、Oracle、Sybase、CA、NCR、Informix、Microsoft和SAS等有实力的公司相继通过收购或研发的途径推出了自己的数据仓库解决方案。BO和Brio等专业软件公司也前端在线分析处理工具市场上占有一席之地。根据各个公司提供的数据仓库工具的功能,可以将其分为3大类:解决特定功能的产品(主要包括BO的数据仓库解决方案)、提供部分解决方案的产品(主要包括Oracle、IBM、Sybase、Informix、NCR、Microsoft及SAS等公司的数据仓库解决方案)和提供全面解决方案的产品(CA是目前的主要厂商)。

分享三款主流数据库及其特点

分享三款主流数据库及其特点 1.Oracle数据库 Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库解决方案。 基本介绍: ORACLE数据库系统是美国ORACLE公司(甲骨文)提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(CLIENT/SERVER)或B/S体系结构的数据库之一。比如SilverStream就是基于数据库的一种中间件。ORACLE数据库是目前世界上使用最为广泛的数据库管理系统,作为一个通用的数据库系统,它具有完整的数据管理功能;作为一个关系数据库,它是一个完备关系的产品;作为分布式数据库它实现了分布式处理功能。但它的所有知识,只要在一种机型上学习了ORACLE知识,便能在各种类型的机器上使用它。Oracle数据库最新版本为Oracle Database12c。Oracle数据库12c引入了一个新的多承租方架构,使用该架构可轻松部署和管理数据库云。此外,一些创新特性可最大限度地提高资源使用率和灵活性,如Oracle Multitenant可快速整合多个数据库,而Automatic Data Optimization和Heat Map能以更高的密度压缩数据和对数据分层。这些独一无二的技术进步再加上在可用性、安全性和大数据支持方面的主要增强,使得Oracle数据库12c成为私有云和公有云部署的理想平台。

数据仓库成功应用案例讨论

中国银行广东分行数据仓库成功应用案例 信用卡业务是商业银行业务中非常重要的一部分,中国的商业银行开展信用卡业务已多年,相关数据积累相对完备且真实,信用卡业务的经营运作也已从简单的扩大规模、以量取胜阶段进入到成熟竞争、以质取胜阶段,各商业银行不断推出新的服务品种和花样繁多的增值服务,提高市场占有率并强化品牌意识以获得利润。 中国加入WTO后,银行卡业务将在3至5年内对外资银行开放,而银行卡业务不依赖于分支机构的特点将使中国的商业银行信用卡业务面临更加严酷的竞争。信用卡业务竞争本质上就是客户的竞争,而且是优质客户的竞争。针对客户发现、客户提升、客户保持、市场细分、忠诚度、贡献度、个性化服务乃至个人信用风险等等一系列围绕客户关系的新问题,支持日常运作的信用卡生产系统是面向柜员和交易的日常营运和客户服务基础设施,无法提供众多分析、决策型用户对大量历史数据同时进行突发的、复杂的决策分析,而建立一套以客户为中心的信用卡业务分析系统则是实现上述命题的必要可行手段。 在这种情况下,中国银行广东分行引入了海波龙的Hyperion Intelligence,希望通过利用Hyperion Intelligence应用实现这样的目标:建立一套以客户为中心的信用卡业务分析系统,方便企业各级工作人员获取各类信息,实现对成本收益、风险控制、绩效评估、客户管理、营销战役等决策目标的支持,并达到风险管理和控制、客户关系管理与个性化服务、商户分析与市场策略、费用控制与利润分析四大应用目标。 成功典范 中国银行广东省分行是国内金融界最早成功实施数据仓库应用解决方案的单位,其在1996年投产的省市两级金融管理信息系统(FMIS)因首次采用并成功实施先进的数据仓库/OLAP技术而荣获“八五”国家科技攻关重大成果奖,并成为目前业界反复引用的典型成功案例。 在随后的数年中,中国银行广东省分行在决策支持/数据仓库应用研发方面的投入一直保持相当大的力度,陆续推出数项新的应用,应用领域也从最初的财务管理、资产负债指标监控等分析主题逐步延伸至目前的客户及消费行为分析、个人信用评估、授信风险监控、客户关系管理以及一对一个性化营销等分析主题。 广东华际友天信息科技有限公司和中国银行广东省分行共同实施的信用卡分析系统采用了Hyperion和IBM在业界领先的数据仓库技术和工具,专门针对信用卡业务的商业智能应用。此系统的研制目的是为与信用卡业务有关各级管理人员、统计分析人员、风险监控人员,特别是业务发展人员提供灵活有效的实时数据分析/决策支持环境,使他们能够便捷地获得并分析客户特征信息、各交易要素信息以及市场统计信息,从而支持成本收益、风险控制、绩效评估、客户管理、营销战役等决策目标的实现。

数据仓库建设方案

1.数据仓库概述 经过多年IT的建设,信息对于XXX的日常管理已经日益重要,并逐渐成为重要的信息资产,信息资产的管理已经成为日常管理中一个非常重要的环节。如何管理和利用好XXX内部纷繁的数据也越来越成为信息管理的一项重要工作。 在过去相当一段时间内,XXX业务系统的构建主要围绕着业务的数据展开,应用的构建多是自下而上构建,主要以满足某个部门的业务功能为主,我们称之为业务处理的时代。这样的构建方式造成了一个个分立的应用,分立的应用导致了一个个的静态竖井。由于数据从属于应用,缺乏XXX全局的单一视图,形成了一个个信息孤岛,分立的系统之间缺乏沟通,同样数据的孤岛导致只能获得片面的信息,而不是全局的单一视图。存储这些信息的载体可能是各种异构或同构的关系型数据库,也有可能是XML、EXCEL等文件。因此,构建新一代的一体化平台提上了日程并最终促成全域数据的管理方式,目的是覆盖XXX各个环节的关键业务数据,完善元数据管理,形成全局的数据字典、业务数据规范和统一的业务指标含义,能够灵活的获取XXX业务数据的单一视图(需要保证数据的一致性、完整性、准确性和及时性)。数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间。最终,这些数据可以为部队分析、决策支持(多维分析、即席查询、数据挖掘)等应用提供更及时、准确、有效的支持。 数据仓库的目标是实现跨系统数据共享,解决信息孤岛,提升数据质量,辅助决策分析,提供统一的数据服务。同时,数据仓库的构建也面临着各种挑战,比如信息整合在技术上的复杂度、信息整合的管理成本、数据资源的获取、信息整合的实施周期以及整合项目的风险等。

2. 全域数据库总体架构 边防一体化其他XML Excel Web 服务消息队列文本数据智能传感器 虚拟传感器摄像头全域数据库总体架构 全域数据库总体的层次,最下面是基础架构层,主要包括支撑这一架构运行的主机系统、存储备份系统、网络系统等内容。从下往上看,再上面是数据源层,既包括各个业务的关系型数据源、内容管理数据源也包括半结构化数据源比如XML 、EXCEL 等,也包括各个总队、支队的业务数据源。 数据源层之上是“交换服务体系”,主要包括信息服务总线和服务总线两部分。信息服务总线主要实现数据层的信息整合和数据转换,而服务总线主要实现应用层的信息交换和整合。信息服务总线主要依托联邦、复制、清洗、转换等技术实现,其主要包括信息整合服务和清洗转换加载服务两部分。通过信息服务总线的信息整合服务(数据联邦、复制),可以透明、实时的访问分布在总队和支队的各个业务系统中的

《××项目数据仓库数据质量报告》

版本号: 数据仓库数据质量报告 项目名称:

变更记录 变更审阅

一、引言 1.编写目的 这部分说明文档编写目的,描述本系统特点及使用数据仓库技术实现的业务目标。 2.背景 这部分是项目背景描述。 3.参考资料 这部分列出本文档引用资料的名称,并说明文档上下级关系。 4.术语定义及说明 这部分列出本文档中使用的术语定义、缩写及其全名。 二、数据质量评估工作范围 1.本次数据质量评估的目标 这部分明确本次数据质量评估的目标,这些目标可能包括: ●识别数据质量的关键问题,以使这些问题可以通过源数据系统数据弥补、数据补充系统或者是ETL流程进行清洗等手段解决 ●建立管理和控制机制,并使之能在短期和长期均发挥监控数据环境的作用 ●建立在信贷信息数据仓库中管理及维护数据的长期计划 2.本次项目确定的数据质量标准 这部分将《软件需求说明书》中制定本项目数据质量标准复制到这里,作为本次数据质量评估交付时的标准。 3.参与本次评估的人员组成 这部分详细说明参与本次数据质量评估的人员组成和职责分工。 4.数据质量评估方法 这部分说明本次项目使用的数据质量评估方法,包括记录评估结果的表格样式、数据质量评估工作的流程、数据质量评估结果的认证流程、评估结果的交付流程等。

三、数据质量评估结果 1.数据源数据质量评估结果 这部分将《初级数据质量分析报告》作为附件添加到文档后。 2.数据仓库数据清洗转换规则 这部分根据《初级数据质量分析报告》的结果记录数据仓库数据清洗转换的规则,只针对重点数据域设计作出说明。 四、数据质量监控维护方案 1.数据质量监控团队组织 这部分将尽可能地定义数据质量监控团队人员的组成、角色和分工。 2.数据仓库数据质量问题管理 这部分记录明确执行数据仓库数据质量监控和修改流程的触发条件,包括质量问题的类型及质量分类的标准等。 3.数据仓库数据质量监控管理计划 这部分是针对可以预见的数据质量问题提出监控管理的计划,包括沟通途径、会议计划、管理流程等。 4.数据仓库数据质量修正方案 这部分将可能使用的数据质量修正方案列在其中,必要时需要提供详细的数据修改流程和计算公式。通用的修正方案包括在数据源中修改、在ETL程序中修改、在数据仓库里修改和使用数据补录程序修改。

相关文档