文档库

最新最全的文档下载
当前位置:文档库 > 一种新的数据仓库ETL框架及其应用

一种新的数据仓库ETL框架及其应用

一种新的数据仓库ETL框架及其应用

一种新的数据仓库ETL框架及其应用

转换就是处理这些不一致性的过程。数据转换一般包括数据分析与数据清洗两个过程。

数据分析就是为了找出数据质量问题。数据质量主要有两个方面的问题,一个是单数据源数据质量问题,另一个是多数据源的数据交互集成时的数据质量问题。单数据源数据质量问题主要有:数据本身的错误,数据冗余和重复,数据之间关联错误,数据库模式,设计不完善,缺乏一些完整的约束机制等。多数据源数据质量问题主要有:异构的数据模式冲突,它可以分为名字冲突和结构冲突两种;数据语义不一致,它是由于数据库的设计者对于现实的抽象采用了不同的描述方式,因而会造成同一个事务被表达成了不同的形式或者不同的事务表达为相同的形式。

数据仓库高质量的决策必须依赖高质量的数据。数据清洗解决数据仓库集成数据的质量问题,保证数据正确性(Correctness)、一致性(Consisten—ey)、完整性(Completeness)和可靠性(Reliability)。我们把未达到这些要求的现实世界的数据称为是“肮脏”的数据,数据清洗包括:

增添辅助的知识库,主要用于:辅助进行数据类型检查、数据格式规范化、不一致的缩写等处理过程;将预处理后的数据通过知识库引擎和一系列的规则进行处理,以及处理一些规则处理无法完成的重复记录。

将非标准数据统一化成结构数据,根据数据字典消除不一致的数据(比如缩写),将元素标准化,对标准化的元素进行~致性校验。

将内容上的一些错误进行修改,在其它记录中寻找相似重复记录,也就是进行匹配(matching)。根据匹配的结果进行处理,删除部分记录或者多个记录合并为一个更完整信息的记录。同时将这些步骤中的处理过程和结果写入元数据存储中心,以便进行后续清洗过程,避免重复清洗。

3。5数据装载

从分布式、异构的数据库中抽取数据时,可能有大量的数据需要通过网络传到目标数据仓库,同时数据仓库只有装载数据和访问数据的能力。选择了XML作为数据交换规范,一方面能很好地统一不同的数据源数据,但另一方面.由于XML自身的特点,在规模大的数据传输中,加大了目标数据仓库的接受能力到达“瓶颈”的可能性。因此在进入目标数据仓库前加一带缓冲数据库,周期性地收集异构系统中的XML数据,并根据当时网络状况,运用一定的算法,进入缓冲数据库。由于数据仓库直接面对的是缓冲数据库,能很好地提高数据抽取效率。

将XML文档传到数据装载阶段后,通过A—GENT对这些数据进行分类、集中,然后用JDOM将XML文档分成各个逻辑对象的实体影射成JA—VA类的一个实体,将必要的元素组织成SQL语句,并且执行这些SQI,语句,以完成XMI,文档到数据库数据的转化和各种操作。其中数据的加载方式有3种:

图3GDSISAS系统架构

插入;只需要将所有数据完全插入到目标表中,每一个记录都是新记录,记录包括时问字段,可以通过时间字段将新增数据抽取出来加载到数据库中。

增加:需要对目标表同时做更新及插入操作,根据主键对已有的记录进行更新操作,对于不存在的记录进行插入的操作,对于数据量大的表,此操作的效率非常低。

刷新:即将目标表的数据完全更新。主要针对上面第一种类型进行操作。

这三种数据加载方式各有各的优点,具体采用哪种加载方式要根据效率和业务现实等多种因素。4基于ETL框架的GSlsAS系统开发为提高养老保险的管理和服务水平,中国劳动

一种新的数据仓库ETL框架及其应用

?2】7?

一种新的数据仓库ETL框架及其应用

一种新的数据仓库ETL框架及其应用

一种新的数据仓库ETL框架及其应用

作者:毛明志, 黄春贤

作者单位:中山大学信息科学与技术学院,广州,510275

本文读者也读过(8条)

1.赵尚微保险业数据仓库中的ETL研究[学位论文]2007

2.胡逢彬.沈炜.HU Feng-bin.SHEN Wei数据ETL过程中的数据质量控制[期刊论文]-信息技术2006(4)

3.王绍卜企业信息安全研究与策略[期刊论文]-商场现代化2006(12)

4.陈卫文电信经营分析系统中数据质量控制子系统的设计与实现[学位论文]2006

5.查纯.杨策平.ZHA Chun.YANG Ce-ping金融信息安全模型分析[期刊论文]-湖北工业大学学报2008,23(6)

6.刘萍浅析金融信息安全[期刊论文]-甘肃金融2009(7)

7.何晨钢ETL系统在保险行业ODS中的设计和实现[学位论文]2008

8.Zhuolun Zhang.Sufen Wang A Framework Model Study for Ontology-driven ETL Processes[会议论文]-2008本文链接:http://www.wendangku.net/doc/08551dac0975f46526d3e104.html/Conference_6349752.aspx