文档库 最新最全的文档下载
当前位置:文档库 › 数据仓库与数据挖掘课程设计

数据仓库与数据挖掘课程设计

数据仓库与数据挖掘课程设计
数据仓库与数据挖掘课程设计

数据仓库与数据挖掘实验报告

( 2014 -- 2015 年度第一学期)

名称:数据仓库与数据挖掘课程设计

题目:图书馆数据仓库系统分析与设计

院系:经济管理系

班级:

学生姓名:

指导教师:

成绩:

日期:2014年12月

目录

1.项目背景 3

2.系统功能概述 3

目标分析 (3)

系统配置 (4)

硬件配置 (4)

系统开发平台 (4)

3.数据仓库的方案设计 4

主题 (4)

概念模型 (5)

逻辑模型 (6)

物理模型 (7)

元数据模型 (9)

4.系统分析与设计10

1)模块划分 (11)

2)数据库设计 (13)

5.数据挖掘设计11

6.报表设计17

7.课程设计心得体会19

1.项目背景

我国是一个拥有五千年历史的国家来说,自古就是一个礼仪之邦,文化之邦,书籍的种类和数量更是多如繁星,所以,历史上有许多的关于书籍多的记载和比喻,如“汗牛充栋”。恩格斯曾经说过“书是人类进步的阶梯”,随着人们生活水平的逐步提高,人们已经不再满足于物质生活的享受,而更多的满足于精神文化生活的享受。但是就我国的现状来说,同发达国家的图书馆相比,我国图书馆的管理存在着很大的问题。图书馆中往往有着许多的资源不能很好的利用,对于我国一个发展中的国家来说,这是资源的重大浪费!而且在图书馆中人们往往找不到自己需要的资源或是资源被他人所占用。所以,图书馆应该建立自己的数据仓库,并且对其进行必要的数据挖掘,更好的在有中国特色的社会主义中发挥更好的作用,更好的服务人民!

2.系统功能概述

目标分析

对于图书馆的读者信息管理(包括读者ID,姓名,性别,专业ID,证件号码,累计借阅情况和备注);书籍信息管理(包括书籍的编号,名称,分类,存放的位置,作者,出版社,数量,破损程度,价格,出版时间);图书的借阅信息管理(包括图书编号,借阅姓名,图书名称,借书日期,还书日期,备注,是否归还)等信息的管理。提高经营管理的最重要的保证就是信息技术。图书馆要想在经济的效益取得丰厚的回报,就必须对书籍的的情况,读者的借阅情况有一个深入的分析和了解,建立一个统一的数据库,实施有效地监控,对读者的爱好和需要的数据进行分析,进行必要的挖掘。最后提高读者的满意度!

所以,据该图书馆的具体情况,研制开发了"图书馆管理系统",系统的主要功能设计有:

(1)读者的信息管理程序设计:读者ID,姓名,性别,专业ID,证件号码,累计借阅情况和备注等信息的录入,修改,删除,查询。

(2) 图书信息程序设计:图书的编号,名称,分类,作者,出版社,存放的位置,数量,破损程度,价格,出版时间等信息的录入,修改,删除,查询。

(3) 图书的借阅信息管理设计:

1)借还书管理:主要负责日常的借书登记、还书登记,和逾期未还图书的催还工作。

2)检索查询:按照各种组合条件对图书借阅情况查询,也可以进行模糊查询。

3)借书统计:统计各类书借阅情况,借阅次数;统计个人借书情况,打印日常报表。

4)定期整理图书借阅信息:将还书情况总结整理后彻底删除。

此外,图书管理人员还要定期做整理图书资料的全部图书清单、分类印图书清单、借阅清单以及整理填写各种报表等工作。

系统配置

硬件配置

PC一台。

系统开发平台

操作系统:Microsoft Windows Server 2003 Enterprise Edition

工具软件:Microsoft SQL Server 2005

Microsoft Visual Studio 2005

Microsoft Office 2003 Excel Access

3.数据仓库的方案设计

主题

主题是一个抽象的概念,是在高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象,《图书馆管理系统》的主题选取有如下五个方面:读者信息、图书信息、存放区域,分类信息和专业表,从这些主题方面来分析《图书馆管理系统》。

概念模型:

确定在数据仓库中,怎样的粒度数据才能满足管理人员对数据仓库图书馆经营管理策划分析的需要。

图书馆经营管理主题中,数据源来自图书馆登记记录的计算机上的每个读者的数据。分析旅馆图书馆领导管理人员通过哪些角度,即需要通过哪些维度来考察、选择经营方案。一般情况下,在确定图书馆经营策划时,图书馆管理人员需要通过分类信息、读者信息、存放区域、图书信息和专业表五个维度对图书的借阅情况方案进行分析,通过业绩,使管理人员更了解图书借阅方案的可用性和效果。

1. 读者信息维

图书馆的读者信息维度可以包含读者ID、姓名、性别、专业ID、证件号码、累计借阅次数及备注等内容。在读者信息维中的累计借阅次数情况是由图书的编号以及旅客的专业ID共同实现的要将二者加入到图书借阅情况中。在数据仓库的应用中有时需要对读者的专

业不同来分类,进行图书类型的选择,分析哪个专业的学生选择哪类图书的频率高,对其相应的选择图书的存放的区域。

2.存放区域维

通过设置图书存放区域的类别:A区、B区、C区、D区和E区,这五个区域按照书柜距离图书馆入口的距离划分,A区距离图入口最近,比较便于进入图书馆的读者浏览,因此增大了图书被借走的几率,。根据图书的受欢迎程度的不同,有利于读者们的更加方便自由的选择,同时也为图书馆盈利带来了极大的好处。存放区域维设置有:区域ID、区域名、备注,这些字段的设置都为图书馆的管理带来了极大的方便。

3.图书信息维

图书馆的图书信息维包括:图书的编号、名称、分类、存放的位置、出版社、作者、数量、破损程度、价格、出版时间等数据的信息。图书馆管理人员通过对图书的时时状态的变化,预测读者的行为,并对未来的发展做出预测,同时也可以改变图书馆藏书的布局,比如图书数量,图书的摆放位置等,以适应读者不断变化的需要。

4. 分类信息维

分类信息维中存储分类代码和分类信息。

分类信息的内容由管理员设定,该图书馆中包含15类图书,各类图书摆放在特定的区域,分类相当于一种那个索引,将同一类别的书籍聚集到一起并放在相同位置。分类信息直接引导读者寻找书籍的位置,对读者借书有很大的影响,一个详细准确的图书分类是每一个图书馆所必须的。

5.专业维

专业维中存放着所有的专业名称和信息,是所有读者的所属类别,与读者信息维相关联。专业维作为分析图书受欢迎度的条件之一,对分析图书的受欢迎度

逻辑模型:

图书馆数据仓库的逻辑模型的研究是对概念模型的进一步细化,是将概念模型过渡到人脑的一种抽象。图书馆管理的需求主要针对图书的管理和读者选择的图书进行预测,依据这两方面内容来帮助图书馆高层管理者有依据的预测图书馆未来的书籍构造,同时也方便大多数读者的查找需要。

读者在进入图书馆后,首先要寻找自己想要的书籍,此时就需要根据借助馆内各个位置所标识的图书分类来确定图书位置,在找到图书所在的分类后就能确定图书位置,然后浏览书名,出版社及作者,破损程度,价格,页数版次等信息后,确定次数是否对自己有价值,若需要这本书,就去图书馆管理员处办理借书手续,将借书信息如书名、借书人、借书时间等登记在数据库中。

物理模型:

在数据仓库的物理设计中,主要解决数据的存储结构、数据的索引策略、数据的存储策略、存储分配优化等问题。物理设计的主要目的有两个,一是提高性能,二是更好地管理存

储的数据。访问的频率、数据容量、选择的RDBMS支持的特性和存储介质的配置都会影响物理设计的最终结果。

(1)确定数据的存储结构

并行存储结构——RAID(Redundant Array of Inexpensive Disk,廉价冗余磁盘阵列)。

·RAID

·RAID1级。

·RAID2级。

·RAID3级。

·RAID4级。

·RAID5级。

(2)位图索引

(3)数据仓库物理模型的优化问题

1).合并表:几个表的记录分散存放在几个物理块中时,多个表的存取和连接操作的代价会很大。

2).建立数据序列:按照某一固定的顺序访问并处理一组数据记录。将数据按照处理顺序存放到连续的物理块中,形成数据序列。

3).引入冗余:一些表的某些属性可能在许多地方都要用到,将这些属性复制到多个主题中,可以减少处理时存取表的个数。

4).表的物理分割:每个主题中的各个属性存取频率是不同的。将一张表按各属性被存取的频率分成两个或多个表,将具有相似访问频率的数据组织在一起。

5).生成派出数据:在原始数据的基础上进行总结或计算,生成派出数据,可以在应用中直接使用这些派出数据,减少I/O次数,免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了不同用户重复计算可能产生的偏差。

元数据模型:

元数据分为两种一种是静态元数据,另一种是动态元数据。

1.静态元数据:

1.1图书信息:图书编号,图书名称,出版社,作者,出版时间,页数,价格。

1.2图书分类:分类编号,分类名称

1.3图书存放区域:区域编号,区域名称

2.动态元数据:

2.1图书借出次数:图书的借出次数,体现受欢迎程度。

2.2 图书存放区域:图书的存放位置,可以按照决策改变。

(1)图书管理元数据

(2)图书管理事实元数据

(3)数据成员元数据

4.系统分析与设计

1)模块划分:

《图书馆管理系统》共分为三个主要模块:读者信息管理,图书信息管理,图书借阅信息管理,每个模块的具体内容如下:

读者信息管理

图书馆信息管理系统中,读者是图书馆的核心,一个图书馆的设置要合理,这样才能够满足读者们的需求。同时,也要根据读者的需求和图书的借阅程度以及图书馆的图书的借阅的程度来制定图书馆馆的图书的存放的位置。由于不同的专业的学生,以及学生对图书的喜爱的不同,则可以分析挖掘出图书的受欢迎的程度不同,作为图书馆的管理人员,要充分认识到这一点,根据读者们对图书欢迎程度不同而制定出存放的位置,这样才能增加读者的满意度,提高图书馆的管理效率。因此,对图书馆读者信息的良好管理,则有利于图书馆整体的经营水平的提高,也同时为图书馆馆带来了巨大的经济利润。具体设计步骤如下:

1) 读者信息登记

用于读者自身信息(包括读者ID,姓名,性别,专业ID,证件号码,累计借阅情况和备注)及借阅登记工作。

2) 读者信息注销

用于读者注销图书卡及会员身份。

3) 读者信息结算

用于管理人员的结算工作, 记录读者的还书情况。若有欠书, 则打印欠书单及开出必要的罚金。

4) 查询读者

可按读者编号或读者名称查询读者的详细资料, 也可查询指定时间段的所有读者的借阅图

书信息。

图书信息管理

图书信息管理工作包括:图书入库、图书的存放地点、图书的自身信息、图书出库贯穿了一本图书从进入图书馆馆到离开图书馆馆的全部过程。这使各个模块既相互关联, 又相互独立。在每一个模块中, 又有不同的操作, 下面则分别详细叙述。

1.图书入库

一个图书馆要想有一个好的经营模式, 那么,它必须有不断的大量的新的图书。为了不使图书馆蒙受损失,新的图书入库前都要做一个详细的记录, 确定每本图书的编号,如何有更好的效益,就需要进行深入的分析和数据挖掘,这样可以选择读者需要的图书的名称和数量,为图书馆节省大量的资金,提高图书馆的效率。

2.图书的存放地点

将图书馆的书籍划分为几个区域,对不同的区域放置不同类的书籍。把经常被读者借阅的图书放在更方便的地方,可以方便读者,进而提高读者的满意度。对每一类的图书都必须摆放在统一的地方,对图书进行必要的管理。这样可以对图书馆的图书有一个全面的了解。3.图书的自身信息

在图书的入库时, 需要对图书的自身信息进行全面细致的记录。图书的自身信息的记录包括图书的编号,名称,分类,作者,出版社,存放的位置,数量,破损程度,价格,出版时间等信息进行记录,录入系统的数据库。

4.图书出库

图书的出库信息可以说是图书馆的最重要的记录的信息,为了维护图书馆的利益,并且使图书馆获得最大的利益,对图书的出库信息信息的记录,可以说是对图书馆的计划及经营至关重要,它对于以后的数据挖掘及分析有着很大的作用,可以说是影响着图书馆的未来!

图书的借阅信息管理

1)借还书管理:主要负责日常的借书登记、还书登记,和逾期未还图书的催还工作。

2)检索查询:按照各种组合条件对图书借阅情况查询,也可以进行模糊查询。

3)借书统计:统计各类书借阅情况,借阅次数;统计个人借书情况,打印日常报表。

4)定期整理图书借阅信息:将还书情况总结整理后彻底删除。

此外,图书管理人员还要定期做整理图书资料的全部图书清单、分类印图书清单、借阅清单以及整理填写各种报表等工作。

2) 数据库设计:

首先,我们建了一个图书馆数据库,库中包含了7张数据表,表名及其功能分别是:

1.存放区域:将图书馆的图书分放在A、B、C、D、E五个区域。

2.读者借书:用于记录读者ID、姓名、专业ID及借书的详细情况。

3.读者信息:用来记录读者的基本信息,包括姓名,性别,专业ID,证件号码,累积的借阅次数及备注等信息。

4.分类信息:用来把图书馆的图书划为科学的分类。

5.图书管理:图书的编号,存放区域的ID,分类,读者的ID,借出的次数。

8.图书的信息:包括图书的编号,名称,分类,存放的区域,出版社,作者,价格,破损的程度,数量,出版的时间,页数,版次,入库的时间,借出次数,受欢迎的程度,附件,简介及登记人等信息。

9.专业表:用于记录学生专业。

其次,我们对数据库进行ETCL操作,将数据库转换成数据仓库:图书馆数据仓库中包含7个表,表名及期功能分别是:

1.读者借书:记录学生ID,姓名专业ID及借阅的图书的情况。

2.存放区域:进过数据分析之后,将受欢迎程度高的书籍放置在更为方便读者的地方。3.读者信息:读者姓名,性别,专业ID,证件号码,累计的借阅的次数及备注等信息。4.分类信息:为了更好的服务读者,对图书进行必要的分类。

5.图书管理:图书编号,存放区域ID,分类,读者ID,了解图书的借阅的情况,挖掘出图书的受欢迎的程度,摆放相应的位置。

6.图书信息:图书编号,名称,分类,存放的区域,数量,破损的程度,价格,页数,借出次数,受欢迎的程度,及附件。用于分析。

7.专业表:用于了解读者专业的情况。用于分析使用。

最后,由于选取图书编号,存放区域ID,分类ID,读者ID,所以,选用了图书管理为事实

表,然后选用了四个维表进行分析,存放区域.、图书信息、分类信息、读者信息,采用了雪花型,专业表为详细类别表,对读者信息进行详细描述。

5.数据挖掘设计:

5.1 挖掘主题

首先,要明确挖掘要求,包括挖掘要求及欲达到的目的。旅馆管理系统是根据输入房间类型预测销售总量,根据预测的数据,得到相关顾客的信息,使决策者及时作出决策并制定出一系列的方案。

5.2 数据预处理

(一)定义数据源

(1)创建数据准备区

创建图书馆数据库,数据准备区的创建可以利用SQL Server2005中的数据库创建与表创建工具实现。通过ETCL来抽取转换成图书馆数据仓库。

(2) Analysis Manager数据库的创建与数据源确定

定义图书信息为要挖掘的数据源,Analysis Server系统是一个管理多维数据集的有力工具,可以用来创建对数据仓库访问、分析多维数据集和知识发现的数据挖掘模型。

(二)建立多维数据集

(1)定义一个新的数据源视图

将数据库中的表具体抽取转换成图书管理表,读者信息表,存放区域表,图书信息表,分类信息表以及专业表。

(2)标识事实数据表和维度表

该项目中的事实表为图书管理,维表为图书信息表,读者信息表,存放区域表,分类信息表,,专业表详细类别表。

(3)创建多维数据集,选择合适的度量值。包括:

图书编号表示对图书的统。

存放区域ID表示图书馆的存放地点。

分类ID表示图书馆的图书的具体的分类。

读者ID表示对读者的记录。

5.3 DM算法选择

1)类的选择

类可以有三种选择:关联规则、分类法和聚类法,此软件中选择分类法。

2)算法的选择

采用决策树算法。

5.4 DM

定义合适的挖掘参数

将图书信息表中的图书分类、图书存放区域、图书页数、图书价格等作为输入列,对图书的受欢迎程度进行预测,

将图书信息表中的读者的节约信息作为输入列,对图书的借阅的受欢迎的程度进行预测,使我们可以通过这个简单的决策树来对我们的图书馆的建设和购书情况的具体的操作并且根据受欢迎的程度设计图书的摆放的位置。

图书的摆放的位置包括A区,B区,C区,D区,E区。

可预测列范围比较广,包括图书的受欢迎的程度。

5.5 结果展示

图5-1

5.6 评价

通过这个简单的决策树,我们可以得到算法:

IF存放区域=“A区”THEN AND IF 分类=“计算机”受欢迎程度=“高”

IF存放区域=“A区”THEN AND IF 分类=“不等于计算机”受欢迎程度=“中”

IF存放区域=“不等于A区”AND IF 存放区域=“C区”THEN 受欢迎程度=“中、低”

IF存放区域=“不等于A区”AND IF 存放区域=“不等于C区”THEN 受欢迎程度=“低”

测试属性是根据统计信息来进行选择的即(信息增益值),通过测试属性来建立了决策树,我们又采用了钻取技术,来对己有的决策树进行分析。如图5-1所示:

6.报表设计:

报表主要是从图书的存放区域角度,图书分类角度进行分析,更详细可从图书价格,图书数量等角度分析,报表内容更加复杂。得出的报告清晰的显示出哪个区域哪个类别图书借出的多少,以及图书受欢迎的程度,再根据这些数据决定图书的摆放位置和摆放方式等。似的图书的摆放设计更加人性化。

以上饼图展示出图书馆书籍中受欢迎程度为高、中、低的所属类别,以及每个类别中图书的受欢迎程度,用户可以从图中分析出读者对图书馆中各类图书的喜爱程度,并帮助管理者对图书馆的图书布局,图书构成作出决策达到便于管理和节约成本的目的。

7.课程设计心得体会

通过此次课程设计,使我们更加扎实的掌握了有关数据仓库与数据挖掘方面的知识,在设计过程中虽然遇到了一些问题,但经过一次又一次的思考,一遍又一遍的检查终于找出了原因所在,也暴露出了前期我们在这方面的知识欠缺和经验不足。实践出真知,通过亲自动手制作,使我们掌握的知识不再是纸上谈兵。

过而能改,善莫大焉。在课程设计过程中,我们不断发现错误,不断改正,不断领悟,不断获取。最终的检测调试环节,本身就是在践行“过而能改,善莫大焉”的知行观。这次课程设计终于顺利完成了,在设计中遇到了很多问题,最后在老师的指导下,终于游逆而解。在今后社会的发展和学习实践过程中,一定要不懈努力,不能遇到问题就想到要退缩,一定要不厌其烦的发现问题所在,然后一一进行解决,只有这样,才能成功的做成想做的事,才能在今后的道路上披荆斩棘,而不是知难而退,那样永远不可能收获成功,收获喜悦,也永远不可能得到社会及他人对你的认可!

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

数据仓库的构建和ETL专业课程设计样本

数据仓库的构建和ETL专业课程设计

Northwind数据仓库的构建和ETL 课程设计与实验报告

课程设计与实验教学目的与基本要求 数据仓库与知识工程课程设计与实验是学习数据仓库与知识工程的重要环节,通过课程设计与实验,可以使学生全面地了解和掌握数据仓库与知识工程课程的基本概念、原理及应用技术,使学生系统科学地受到分析问题和解决问题的训练,提高运用理论知识解决实际问题的能力。 使学生在后继课的学习中,能够利用数据仓库与数据挖掘技术及实践经验,解决相应的实际问题,并能在今后的学习和工作中,结合自己的专业知识,开发相应的数据仓库与数据挖掘应用程序。培养学生将已掌握的理论与实践开发相结合的能力,以及在应用方面的思维能力和实践动手能力。 课程设计与实验一数据仓库的构建和ETL (一)目的 1.理解数据库与数据仓库之间的区别与联系; 2.掌握数据仓库建立的基本方法及其相关工具的使用。 3.掌握ETL实现的基本方法及其相关工具的使用。

(二)内容 1. 以SQL Server为系统平台,设计、建立创建数据仓库NorthwindDW(根据课程设计内容)。 2. 将业务数据库Northwind的数据经过ETL导入(或加载)到数据仓库NorthwindDW。 3. 将数据仓库NorthwindDW事实表的前100个记录导出到Excel中。 (三)数据仓库设计要求 Northwind数据库存储了一个贸易公司的订单数据、产品数据、顾客数据、员工数据、供货商数据等,假设贸易公司的经营者迫切的需要准确地把握贸易公司经营情况,跟踪市场趋势,更加合理地制定商品采购、营销和奖励政策。具体的分析需求是: ●分析某商品在某地区的销售情况 ●分析某商品在某季度的销售情况 ●分析某年销售多少金额的产品给顾客 ●分析某员工的销售业绩 任务:确定主题域、确定系统(或主题)的边界。设计数据模型(星型模型)的事实表和维表。

数据挖掘聚类算法课程设计报告

数据挖掘聚类问题(Plants Data Set)实验报告 1.数据源描述 1.1数据特征 本实验用到的是关于植物信息的数据集,其中包含了每一种植物(种类和科属)以及它们生长的地区。数据集中总共有68个地区,主要分布在美国和加拿大。一条数据(对应于文件中的一行)包含一种植物(或者某一科属)及其在上述68个地区中的分布情况。可以这样理解,该数据集中每一条数据包含两部分内容,如下图所示。 图1 数据格式 例如一条数据:abronia fragrans,az,co,ks,mt,ne,nm,nd,ok,sd,tx,ut,wa,wy。其中abronia fragrans是植物名称(abronia是科属,fragrans是名称),从az一直到wy 是该植物的分布区域,采用缩写形式表示,如az代表的是美国Arizona州。植物名称和分布地区用逗号隔开,各地区之间也用逗号隔开。 1.2任务要求 聚类。采用聚类算法根据某种特征对所给数据集进行聚类分析,对于聚类形成的簇要使得簇内数据对象之间的差异尽可能小,簇之间的差距尽可能大。 2.数据预处理 2.1数据清理 所给数据集中包含一些对聚类过程无用的冗余数据。数据集中全部数据的组织结构是:先给出某一科属的植物及其所有分布地区,然后给出该科属下的具体植物及其分布地区。例如: ①abelmoschus,ct,dc,fl,hi,il,ky,la,md,mi,ms,nc,sc,va,pr,vi ②abelmoschus esculentus,ct,dc,fl,il,ky,la,md,mi,ms,nc,sc,va,pr,vi ③abelmoschus moschatus,hi,pr 上述数据中第①行给出了所有属于abelmoschus这一科属的植物的分布地区,接下来的②③两行分别列出了属于abelmoschus科属的两种具体植物及其分布地区。从中可以看出后两行给出的所有地区的并集正是第一行给出的地区集

大数据仓库与大数据挖掘技术复习资料

数据仓库与数据挖掘技术复习资料 一、单项选择题 1.数据挖掘技术包括三个主要的部分( C ) A.数据、模型、技术 B.算法、技术、领域知识 C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识 2.关于基本数据的元数据是指: ( D ) A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B.基本元数据包括与企业相关的管理方面的数据和信息; C.基本元数据包括日志文件和简历执行处理的时序调度信息; D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。 3.关于OLAP和OLTP的说法,下列不正确的是: ( A) A.OLAP事务量大,但事务内容比较简单且重复率高 B.OLAP的最终数据来源与OLTP不一样 C.OLTP面对的是决策人员和高层管理人员 D.OLTP以应用为核心,是应用驱动的 4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D ) A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6.在ID3 算法中信息增益是指( D ) A.信息的溢出程度 B.信息的增加效益 C.熵增加的程度最大 D.熵减少的程度最大 7.以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. ANN 8.以下哪项关于决策树的说法是错误的( C ) A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次 C.决策树算法对于噪声的干扰非常敏感 D.寻找最佳决策树是NP完全问题 9.假设收入属性的最小与最大分别是10000和90000,现在想把当前值30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A )

数据仓库

哈尔滨工业大学华德应用技术学院实验报告 课程名称:数据仓库与数据挖掘 系别:计算机应用技术系 专业:软件工程 学号:1099111130 姓名:陈天任 学期:2012春季学期 实验成绩:

实验项目列表 序号实验名称成绩1SQL Server Integration Services 2SQL Server Analysis Services 3SQL Server Reporting Services 4 5 6 7 8 9 10 11 12 指导教师签字:

实验名称:实验一SQL Server Integration Services 实验时间:2012.4.17实验地点:S201 实验目的:熟悉数据仓库的ETL操作,熟悉SQL Server2005中SSIS的使用;熟练掌握平面文件、excel文件和sql server三者之间的数据转换; 实验步骤:启动SSMS,在sql server2005中新建一个数据库命名为dw。在dw数据库上单击鼠标右键,在弹出的快捷菜单中,选择“任务→导入数据”,设置表名字T2、选择文件源类型excel、选择文件地址、选择导入的数据库dw、设置字段名、设置字段类型。所有的设置完成点击“完成”.打开数据库,查看表,刷新,导入完成。 在Microsoft SQL Server2005中启动SQL Server Business Intelligence Development Studio,在文件菜单中选择“新建→项目”,在弹出的新建项目对话框中选择,填好名称和位置后,点击确定。(1)在Microsoft SQL Server2005的dw数据库中,新建user表,结构如下一图:新建系别表,结构如下二图: (2)控制流中添加数据流任务,数据流中添加 ,,。 (3)设置平面文件源,源文件text1,设置OLE DB,第四列“系别编号”参照新建的系别表中的“编号”,将test1中的前三列及系别表中的系别列导入到dw数据库中的user表中,建立三者的关系,点击文件点启动,等三个控件都变成绿色代表导入成功。 3.将AdventureWorks数据Production.TransactionHistoryArchive表里

数据仓库与数据挖掘课程设计报告书

目录 1. 绪论 (2) 1.1项目背景 (2) 1.2 提出问题 (2) 2 数据库仓库与数据集的概念介绍 (2) 2.1数据仓库 (2) 2.2数据集 (2) 3 数据仓库 (3) 3.1 数据仓库的设计 (3) 3.1.1数据仓库的概念模型设计 (3) 3.1.2数据仓库的逻辑模型设计 (3) 3.2 数据仓库的建立 (3) 3.2.1数据仓库数据集 (3) 3.2.2建立维表 (4) 4.数据挖掘操作 (4) 4.1数据预处理 (4) 4.1.1描述性数据汇总 (4) 4.2决策树 (4) 5、实验心得 (12) 6、大总结 (12)

1. 绪论 1.1项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。 1.2 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。 2 数据库仓库与数据集的概念介绍 2.1数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 2.2数据集 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。

大数据仓库建设方案设计

第1章数据仓库建设 1.1数据仓库总体架构 专家系统接收增购项目车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果。针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持。 根据专家系统数据仓库建设目标,结合系统数据业务规范,包括数据采集频率、数据采集量等相关因素,设计专家系统数据仓库架构如下: 数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据服务等几个方面的内容: 数据采集:负责从各业务自系统中汇集信息数据,系统支撑Kafka、Storm、Flume

及传统的ETL采集工具。 数据存储:本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储。 数据分析:数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法。 数据服务总线:数据系统提供数据服务总线服务,实现对数据资源的统一管理和调度,并对外提供数据服务。 1.2数据采集 专家系统数据仓库数据采集包括两个部分内容:外部数据汇集、内部各层数据的提取与加载。外部数据汇集是指从TCMS、车载子系统等外部信息系统汇集数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载。 1.2.1外部数据汇集 专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等。 根据项目信息汇集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展。 本方案在数据采集架构采用Flume+Kafka+Storm的组合架构,采用Flume和ETL 工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指标进行预警。具体采集系统技术结构图如下:

数据仓库与数据挖掘试题

武汉大学计算机学院 20XX级研究生“数据仓库和数据挖掘”课程期末考试试题 要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。 一、单项选择题(每小题2分,共20分) 1. 下面列出的条目中,()不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的,下面的描述不正确的是()。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中()是错误的。A A.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域 4. 以下关于OLAP的描述中()是错误的。A A.一个多维数组可以表示为(维1,维2,…,维n) B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中,下列()模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

数据仓库与数据挖掘-教学大纲

《数据仓库与数据挖掘》教学大纲 一、课程概况 课程名称:数据仓库与数据挖掘 英文名称:Data warehousing and data mining 课程性质:选修 课程学时:32 课程学分:2 授课对象:信息类的大学本科高年级学生 开课时间:三年级下学期 讲课方式:课堂+实验 主讲老师: 二、教学目的 本课程把数据视为基础资源,根据软件工程的思想,总结了数据利用的历程,讲述了数据仓库的基础知识和工具,研究了数据挖掘的任务及其挑战,给出了经典的数据挖掘算法,介绍了数据挖掘的产品,剖析了税务数据挖掘的案例,探索了大数据的管理和应用问题。 三、教学任务 完成《数据仓库与数据挖掘》教材内容,及教学计划中的互动实践内容,另有学生自主选题的大作业、选作的论文报告。32学时:课堂24、实验2、课外2、研讨4学时。 四、教学内容的结构 课程由9个教学单元组成,对应于《数据仓库与数据挖掘》的内容。 第1章数据仓库和数据挖掘概述 1.1概述1 1.2数据中心4 1.2.1关系型数据中心 1.2.2非关系型数据中心

1.2.3混合型数据中心(大数据平台)1.3混合型数据中心参考架构 第2章数据 2.1数据的概念 2.2数据的内容 2.2.1实时数据与历史数据 2.2.2时态数据与事务数据 2.2.3图形数据与图像数据 2.2.4主题数据与全部数据 2.2.5空间数据 2.2.6序列数据和数据流 2.2.7元数据与数据字典 2.3数据属性及数据集 2.4数据特征的统计描述22 2.4.1集中趋势22 2.4.2离散程度23 2.4.3数据的分布形状25 2.5数据的可视化26 2.6数据相似与相异性的度量29 2.7数据质量32 2.8数据预处理32 2.8.1被污染的数据33 2.8.2数据清理35 2.8.3数据集成36 2.8.4数据变换37 2.8.5数据规约38 第3章数据仓库与数据ETL基础39 3.1从数据库到数据仓库39 3.2数据仓库的结构39 3.2.1两层体系结构41 3.2.2三层体系结构41 3.2.3组成元素42 3.3数据仓库的数据模型43 3.3.1概念模型43 3.3.2逻辑模型43 3.3.3物理模型46 3.4 ETL46 3.4.1数据抽取47 3.4.2数据转换48 3.4.3数据加载49 3.5 OLAP49 3.5.1维49 3.5.2 OLAP与OLTP49 3.5.3 OLAP的基本操作50

数据仓库设计的21条原则:7个步骤,7个禁忌和7种思路

高效实现数据仓库的七个步骤 数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。 在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。 1. 配备一个全职的项目经理或你自己全面负责项目管理 在通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。 2. 将项目管理职责推给别的项目经理 由于数据仓库实现过程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract-Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。 3.与用户进行沟通 这里所讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,

数据仓库与数据挖掘习题

数据仓库与数据挖掘习题 1.1什么是数据挖掘?在你的回答中,强调以下问题: (a) 它是又一个骗局吗? (b) 它是一种从数据库,统计学和机器学习发展的技术的简单转换吗? (c) 解释数据库技术发展如何导致数据挖掘 (d) 当把数据挖掘看作知识发现过程时,描述数据挖掘所涉及的步骤。 1.2 给出一个例子,其中数据挖掘对于一种商务的成功至关重要的。这种商务需要什么数据挖掘功能?他们能够由数据查询处理或简单的统计分析来实现吗? 1.3 假定你是Big-University的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名,地址和状态(例如,本科生或研究生),所修课程,以及他们累积的GPA(学分平均)。描述你要选取的结构。该结构的每个成分的作用是什么? 1.4 数据仓库和数据库有何不同?它们有那些相似之处? 1.5简述以下高级数据库系统和应用:面向对象数据库,空间数据库,文本数据库,多媒体数据库和WWW。 1.6 定义以下数据挖掘功能:特征化,区分,关联,分类,预测,聚类和演变分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘的例子。 1.7 区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处? 1.8 根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗? 1. 9 描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。 1. 10 描述关于性能问题的两个数据挖掘的挑战。 2.1 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(构造使用数据仓库),而不愿使用查询驱动的方法(使用包装程序和集成程序)。描述一些情况,其中查询驱动方法比更新驱动方法更受欢迎。 2.2 简略比较以下概念,可以用例子解释你的观点 (a)雪花模式、事实星座、星型网查询模型 (b)数据清理、数据变换、刷新 (c)发现驱动数据立方体、多特征方、虚拟仓库 2.3 假定数据仓库包含三个维time,doctor和patient,两个度量count 和charge,其中charge 是医生对一位病人的一次诊治的收费。 (a)列举三种流行的数据仓库建模模式。 (b)使用(a)列举的模式之一,画出上面数据仓库的模式图。 (c)由基本方体[day,doctor,patient]开始,为列出2000年每位医生的收费总数,应当执行哪些OLAP操作? (d)为得到同样的结果,写一个SQL查询。假定数据存放在关系数据库中,其模式如下:fee(day,month,year,doctor,hospital,patient,count,charge) 2.4 假定Big_University的数据仓库包含如下4个维student, course, semester和instructor,2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的

《数据仓库与数据挖掘》课程设计报告模板

江西理工大学应用科学学院 《数据仓库与数据挖掘》课程设计报告 题目:某超市数据集的OLAP分析及数据挖掘 系别: 班级: 姓名: 二〇一二年六月

目录 一、建立数据仓库数据库结构和设置数据源 (1) 1.任务描述 (2) 2.建立数据仓库数据库 ................................................................................................................ 3.设置数据源 ................................................................................................................................ 二、销售数据OLAP分析............................................................................................... 1.任务描述 .................................................................................................................................... 2.设计星型架构多维数据集(Sales) ............................................................................................. 3.设计存储和数据集处理 ............................................................................................................ 4.OLAP分析................................................................................................................................. 三、人力资源数据OLAP分析....................................................................................... 1.任务描述.................................................................................................................................... 2.设计父子维度的多维数据集(HR) ............................................................................................ 3.修改多维数据集(HR)的结构.................................................................................................... 4.设计存储和数据集处理............................................................................................................ 5.OLAP分析 ................................................................................................................................ 四、数据仓库及多维数据集其它操作 ........................................................................... 1.任务描述.................................................................................................................................... 2.设置数据仓库及多维数据集角色及权限 ................................................................................ 3.查看元数据................................................................................................................................ 4.创建对策.................................................................................................................................... 5.钻取............................................................................................................................................ 6.建立远程Internet 连接............................................................................................................ 五、数据仓库高级操作 ................................................................................................... 1.任务描述 .................................................................................................................................... 2.创建分区 .................................................................................................................................... 3.创建虚拟多维数据集 ................................................................................................................ 4.DTS调度多维数据集处理........................................................................................................ 5.备份/还原数据仓库 ................................................................................................................. 六、数据挖掘 ................................................................................................................... 1.任务描述 .................................................................................................................................... 2.创建揭示客户模式的决策树挖掘模型 .................................................................................... 3.决策树挖掘结果分析 ................................................................................................................ 4.创建聚类挖掘模型 .................................................................................................................... 5.聚类挖掘结果分析 .................................................................................................................... 6.创建基于关系数据表的决策树挖掘模型 ................................................................................ 7.浏览“相关性网络”视图 ........................................................................................................

数据仓库与数据挖掘学习心得

数据仓库与数据挖掘学习心得 通过数据仓库与数据挖掘的这门课的学习,掌握了数据仓库与数据挖掘的一些基础知识和基本概念,了解了数据仓库与数据库的区别。下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。 《浅谈数据仓库与数据挖掘》这篇论文主要是介绍数据仓库与数据挖掘的的一些基本概念。数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据数据归类的标准,每个主题对应一个客观分析的领域,他可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据极少更新的。数据仓库内的数据时间一般为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大。 数据仓库的特点如下: 1、数据仓库是面向主题的; 2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库; 3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询; 4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,它在商业领域取得了巨大的成功。

作为一个系统,数据仓库至少包括3个基本的功能部分:数据获取:数据存储和管理;信息访问。 数据挖掘的定义:数据挖掘从技术上来说是从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。 数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的的关系,从而服务于决策。数据挖掘的主要任务有广义知识;分类和预测;关联分析;聚类。 《数据仓库与数据挖掘技术在金融信息化中的应用》论文主要通过介绍数据额仓库与数据挖掘的起源、定义以及特征的等方面的介绍引出其在金融信息化中的应用。在金融信息化的应用方面,金融机构利用信息技术从过去积累的、海量的、以不同形式存储的数据资料里提取隐藏着的许多重要信息,并对它们进行高层次的分析,发现和挖掘出这些数据间的整体特征描述及发展趋势预测,找出对决策有价值的信息,以防范银行的经营风险、实现银行科技管理及银行科学决策。 现在银行信息化正在以业务为中心向客户为中心转变6银行信息化不仅是数据的集中整合,而且要在数据集中和整合的基础上向以客为中心的方向转变。银行信息化要适应竞争环境客户需求的变化,创造性地用信息技术对传统过程进行集成和优化,实现信息共享、资源整合综合利用,把银行的各项作用统一起来,优势互补统一调配各种资源,为银行的客户开发、服务、综理财、管理、风险防范创立坚实的基础,从而适应日益发展的数据技术需要,全面提高银行竞争力,为金融创新和提高市场反映能力

数据仓库与数据挖掘课程设计

数据仓库与数据挖掘课 程设计 Document serial number【KKGB-LBS98YT-BS8CB-BSUT-BST108】

目录 1. 绪论 (2) 项目背景 (2) 提出问题 (2) 2 数据库仓库与数据集的概念介绍 (2) 数据仓库 (2) 数据集 (2) 3 数据仓库 (3) 数据仓库的设计 (3) 数据仓库的概念模型设计 (3) 数据仓库的逻辑模型设计 (3) 数据仓库的建立 (3) 数据仓库数据集 (3) 建立维表 (4) 4.数据挖掘操作 (4) 数据预处理 (4) 描述性数据汇总 (4) 决策树 (4) 5、实验心得 (12) 6、大总结 (12) 1. 绪论 项目背景 在现在大数据时代,各行各业需要对商品及相关关节的数据进行收集处理,尤其零售行业,于企业对产品的市场需求进行科学合理的分析,从而预测出将来的市场,制定出高效的决策,给企业带来经济收益。 提出问题 对于超市的商品的购买时期和购买数量的如何决定,才可以使销售量最大,不积压商品,不缺货,对不同时期季节和不同人群制定不同方案,使企业收益最大,通过数据挖掘对数据进行决策树分析,关联分析,顺序分析与决策分析等可以制定出最佳方案。

2 数据库仓库与数据集的概念介绍 数据仓库 数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。 数据仓库是决策系统支持(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据集 数据集是指一种由数据所组成的集合。Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。 3 数据仓库 数据仓库的设计 3.1.1数据仓库的概念模型设计 概念模型的设计是整个概念模型开发过程的三阶段。设计阶段依据概念模型分析以及分析过程中收集的任何数据,完成星型模型和雪花型模型的设计。如果仅依赖ERD,那只能对商品、销售、客户主题设计成如图所示的概念模型。这种模型适合于传统的数据库设计,但不适合于数据仓库的设计。 3.1.2数据仓库的逻辑模型设计 逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出各个业务的需求,同时对系统的物理实施有着重要的指导作用,它的作用在于可以通过实体和关系勾勒出企业的数据蓝图,数据仓库的逻辑模型设计任务主要有:分析主题域,确定要装载到数据仓库的主题、确认粒度层次划分、确认数据分割策略、关系模式的定义和记录系统定义、确认数据抽取模型等。逻辑模型最终设计成果包括每个主题的逻辑定义,并将相关内容记录在数据仓库的元数据中、粒度划分、数据分割策略、表划分和数据来源等。 数据仓库的建立 3.2.1数据仓库数据集 一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

相关文档
相关文档 最新文档