文档库 最新最全的文档下载
当前位置:文档库 › 数据仓库与数据挖掘教程(第2版)课后习题答案 第八章

数据仓库与数据挖掘教程(第2版)课后习题答案 第八章

数据仓库与数据挖掘教程(第2版)课后习题答案 第八章
数据仓库与数据挖掘教程(第2版)课后习题答案 第八章

第七章作业

说明等价关系、等价类以及划分的定义。

等价关系:对于?a ∈A (A 中包含一个或多个属性),A ?R ,x ∈U ,y ∈U ,他们的属性值相同,即fa (x )=fb (y )成立,称对象x 和y 是对属性A 的等价关系。

等价类:在U 中,对属性集A 中具有相同等价关系的元素集合成为等价关系IND (A )的等价类。

划分:在U 中对属性A 的所有等价类形成的划分表示为A={Ei | Ei=[xi]a ,i=1,2,… } 说明集合X 的上、下近似关系定义。

下近似定义:

任一一个子集X ?U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei ?X} 或A-(X )={x|[x]A ?X} 表示等价类Ei=[x]A 中的元素x 都属于X ,即?x ∈A-(X ),则x 一定属于X 。

上近似定义:

任一一个子集X ?U ,属性A 的等价类Ei=[x]A ,有:A-(X )=U{Ei|Ei ∈A ∧Ei ∩X ≠?} 或A-(X )={x|[x]A ∩X ≠?} 表示等价类Ei=[x]A 中的元素x 可能属于X ,即?x ∈A-(X ),则x 可能属于X ,也可能不属于X 。

说明正域、负域和边界的定义。

全集U 可以划分为三个不相交的区域,即正域(pos ),负域(neg )和边界(bnd ): POSA(X)= A-(X )

NEGA(X)=U- A-(X )

BNDA(X) = A-(X )-A-(X )

4.

粗糙集定义:

若 ,即 , 即边界为空,称X 为A 的可定义集; 否则X 为A 不可定义的,

即 ,称X 为A 的Rough 集(粗糙集)

确定度定义:

()A U A X A X X U α----=

其中U 和A X A X ---分别表示集合U 、(AX AX ---)中的元素个数

5.

在信息表中根据等价关系,我们可以用等价类中的一个对象(元组)来代表整个等价类,这实际上是按纵方向约简了信息表中数据。对信息表中的数据按横方向进行约简就是看信息表中有无冗余的属性,即去除这些属性后能保持等价性,使对象分类能力不会下降。约减后的属性集称为属性约减集。

6.

属性集A 的所有约简的交集称为A 的核。记作

()()

A X A X --=()BND X =Φ()()A X A X --≠()()

core A red A =

Core(A)是A中为保证信息表中对象可精确定义的必要属性组成的集合,为A中不能约简的重要属性,它是进行属性约简的基础。

7

表6.3中,定义类别第一类人和第二类人为决策属性,身高、头发、眼睛为条件属性,身高为a,头发为b,眼睛为c,类别d。

C={a,b,c},D={d}

IND(C)={{1},{2},{3},{4},{5},{6},{7},{8},{9}}

IND(D)={{1,2,3,4},{5,6,7,8,9}}

Pos C(D)=U

IND(C\{a})={{1,3},{2},{4},{5,9},{6,7},{8}}

IND(C\{b})={{1,6},{2,3,7},{4},{5},{8},{9}}

IND(C\{c})={{1,4,9},{2},{3,5},{6},{7,8}}

Pos (C\{a}) (D)=U

Pos (C\{b}) (D)={4,5,8,9}

Pos (C\{c}) (D)={2,6,7,8}

IND(C\{b,c})(D)={{1,4,6,9},{2,3,5,7,8}}

Pos ()(C\{b,c})(D)=空集

所以red D(C)={{a,b},{a,c}}

8

条件属性C和决策属性D之间的依赖度r(C,D)=|Pos C(D)| / |U|

其中|Pos C(D)|表示正域Pos C(D)的元素个数,|U|表示整个对象集合的个数。

9

依赖度r(C,D)的性质:

若r=1,意味着IND(C) IND(D),即在已知条件C下,可将U上全部个体准确分类到决策属性D的类别中去,即D完全依赖于C。

若0

若r=0,则称D完全不依赖于C,即利用条件C不能分类到D的类别中去。

10.属性a的重要度SGF(a、C、D)的含义是什么?

答:

属性重要度的定义:C、D包含A C为条件属性集,D为决策属性集,a属于a关于D的重要度定义为SGF(a,C, D)=r(C,D)-r(C-{a},D)

其中r(C-{a},D)表示在C中缺少属性a后,条件属性与决策属性的依赖程度SGF(a、C、D)表示C中缺少属性a后,导致不能被准确分类的对象在系统中所占的比例。

(2)SGF(a、C、D)性质。

1,SGF(a、C、D)∈[0,1]。

2,若SGF(a、C、D)=0,表示属性a关于D是可省的,因为从属性集中去除属性a 后,C-{a}中的消息,原来可以被准确分类为所有的对象仍可以能准确的划分到决策类中去。

3. SGF(a、C、D)≠0,表示属性a关于D是不可省的。因为属性集C中去除属性a 后,某些原来可以被准确分类的对象再不能准确划分。

11.最小属性集的概念是什么?

答:设C, D分别是信息系统S的条件集和决策属性集,属性集P(P是C的子集)是C 的一个最小属性集,当且仅当r(P,D)=r(C,D)并且P包含’,P,r(P’,D)≠r(P,D),说明若P是C的最小属性集,则P具有与C同样的区分决策的能力。

需要注意的是,C的属性集一般不是唯一的,而要找到所有的最小属性集是以个NP问题。在大多数应用中,没有必要找到所有的最小属性集。用户可以根据不同的原则来选择一个他认为最好的最小属性集。

12、在数据库中获得最小属性集的步骤是什么?

答:在数据库中根据决策属性将一组对象划分为各不相交的等价集,通过条件属性来决定每一个决策类,并产生每一个类的判定规则,对每个判断规则进行精简,得到具有全部条件属性区分决策属性所划分的决策类能力的集合。

13、如何利用集合之间的上下近似关系获得规则?

答:设U中有两个划分C={Ei}和D={Yj},把C视为分类条件,把D视为分类结论,(1)当Ei∩Yj≠时,有ij:Des(Ei)?Des(Yj), Des(Ei)和Des(Yj)分别为Ei和Yj中的特征描述。

当Ei∩Yj=Ei即下近似时,建立的规则ij是确定的,规则的可信度cf=1;

当Ei∩Yj≠Ei即上近似,建立的规则ij是不确定的,规则的可信度cf=

(2)当Ei∩Yj=时,Ei和Yj不能建立规则;

14、按照聚类的原理和方法划分有哪三种聚类算法?各种聚类算法的思想是什么?答:按聚类的原理和方法划分,可分为层次聚类、划分聚类和基于密度的聚类;

层次聚类:递归地对对象进行合并或分裂直至满足某终止条件;

划分聚类:给定聚类数目k和目标函数F,将D划分为k个类,是目标函数在此划分下达最优,即把聚类问题过转换为一个组合最优问题,从一个初始划分开始,利用迭代控制策略优化目标函数;

基于密度的聚类:单位体积内点的个数为该点的密度,根据空间密度的差别,把具有相似密度的点作为聚类。

15

K-均值聚类算法的计算步骤:

首先随机地选取k个初始聚类中心,并把每个对象分配给离他最近的中心,从而得到一个初始聚类;然后,计算出当前每个聚类的重心作为新的聚类中心,并把每个对象重新

分配到最近的中心;如果新的聚类的质量优于原先的聚类,则用新聚类代替原聚类。循环执行这一过程直至聚类质量不再提高为止。

16.规则的支持度和可信度是什么?

规则的支持度:规则A→B在数据库D中具有支持度S,表示S是D中事物同时包含AB的百分比,它是概率P(AB)。

规则的可信度:规则A→B具有可信度C,表示C是包含A项集的同时也包含B项集,相对于包含A项集的百分比,这是条件概率P(B|A)。

17.关联规则的兴趣度定义是什么?说明兴趣度的作用。

兴趣度为

I(A→B)=P(AB)/P(A)P(B)

公式反应了项集A与项集B的相关程度。

在兴趣度的使用中,一条规则的兴趣度越大于1说明我们对规则越感兴趣(即其实际利用价值越大);一条规则的兴趣度越小于1说明我们对这条规则的反面规则感兴趣(即其反面规则的实际利用价值越大);显然,兴趣度I不小于0。

18.使用apriori算法找出所有的频繁项目集。

假定最小事务支持计数为2 Min-sup=2/4=0.5

C1候选集:A支持度2 ,B支持度3,C支持度3,D支持度1,E支持度3

D不是频繁项集

L1 1-项集A支持度2 ,B支持度3,C支持度3,E支持度3

C2候选集:A,B支持度1,A,C支持度2,A,E支持度1,B,C支持度2,B,E支持度3,C,E支持度2

A,B、A,E不是频繁项集

L2频繁2-项集:A,C支持度2,B,C支持度2,B,E支持度3,C,E支持度2

C3候选集:B,C,E=2

L3频繁3-项集:B,C,E=2

算法终止,L3是最大频繁项集

19.实现apriori算法,说明apriori算法的主要系统开销在哪里?

(1)可能产生大量的候选集。当长度为1的频繁集有10000个的时候,长度为2候选集个数将会超过10M。还有就是如果要产生一个很长的规则的时候,要产生的中间元素也是巨大的。

(2)必须多次重复扫描数据库,对候选集进行模式匹配,因此效率低下。

20 L1频繁1-项集:

项集 A B C D E

2 3 3 1 3

支持度计

L2频繁2-项集

A,C A,D C,D B,C B,E C,E A,B A,E 项

2 1 1 2

3 2 1 1

L3频繁3-项集

项集A,C,D A,B,C A,C,E B,C,E

支持度计数 1 1 1 2

L4频繁4-项集

项集A,B,C,E

支持度计数 1

差异:随着最小支持度的逐渐减小,Apriori算法的性能急剧降低,而FP-树算法的性能相对稳定,所需时间没有发生突变的增加,FP-树算法比Apriori算法快一个数量级,且FP-树算法对不同长度的规则都有很好的适应性。

21,计算过程:

第一个事物:“T0:e”只有一个事物,从L表中节点链中,项e的指针指向树中节点e,且e的计数为1,即e:1。

第二个事物“T1:a,c,g,i”包含四个事物,具有四个分支,其中a为根节点,c链接到a,i链接到c,g链接到i,且计数均为1,从L表中节点链中,项,a,c,g,i的指针分别指向树中的a,c,i,g节点,因为不包含e事物,所以从R节点产生一个新分支指向a。

第三个事物“T2:d,h”因为最小支持度为20%,所以只有一个事物d,计数为1,因为不包含事物e,所以从R产生一个新分支指向d,从L表中节点链中,项d的指针指向树中的d节点。

第四个事物“T3:b,d”因为最小支持度为20%,所以只有一个事物d,从L表中节点链中,项d的指针指向树中的d节点,d计数加1.即d:2.

第五个事物“T4:d,e”包含两个事物,节点e计数加1,即e:2,,节点d链接到e,即d:1,因为已存在d:2,则有d:2指向d:1.

第六个事物“T5:a,c,e,i”包含四个事物,节点e计数加1,即e:4,a链接到e,因为已存在节点a:1,所以节点a:1指向a,a计数为1,即a:1,c连接到a,i链接到c,c:1,i:1分别指向c,i。c,i计数加1,即c:1,i:1.

第七个事物“T6:a,c,e,f,i”因为最小支持度,所以只有四个事物,则a链接到e,c链接到a,i链接到c,e,a,c,i计数分别加1,即e:4,a:2,c:2,i:2.

第八个事物“T7:a,e,g”包含三个事物,则a链接到e,g链接到a,e,a,g计数分别加1,即e:5,a:3,g:1,因为已存在g:1,所以有g:1指向新节点g:1.

第九个事物“T8:a,c,e,i”包含四个事物,则a链接到e,c链接到a,i链接到c,e,a,c,i计数分别加1,即e:6,a:4,c:3,i:3.

第十个事物“T9:c,e,g”包含三个事物,则产生一条新分支,a链接到e,g链接到a,e,c,g计数分别加1,即e:7,c:1,g:1.因为已存在节点c:3,g:1,所以节点c:3指向新节点c:1,节点g:1指向新节点g:1.

22.对上题得出的频繁项集,求出关联规则。

答:不懂。

23.集合论原理用于分类问题的思想是什么?

答:集合论原理用于分类问题时,主要是利用集合之间的覆盖关系,构成规则知识。

24.集合论原理集合论或集论是研究集合由一堆抽象物件构成的整体)的数学理论,包含了集合、元素和成员关系等最基本的数学概念。在大多数现代数学的公式化中,集合论提供了要如何描述数学物件的语言。集合论和逻辑与一阶逻辑共同构成了数学的公理化基础,以未定义的“集合”与“集合成员”等术语来形式化地建构数学物件。用于解决聚类问题时,主要是按数据集中元素间的距离远近或者是相似度的大小聚集成多个类别集合。

25. 关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导(antecedent或left-hand-sid e, LHS)和后继(consequent或right-hand-side, RHS) 。集合论原理用于关联规则挖掘是计算数据项集在整个集合中和相关集合中所占的比例,大于阈值时构成数据项之间关联规则。

数据库技术与应用第二版 课后答案资料

第1章习题参考答案 1.思考题 (1)什么是数据库、数据库管理系统、数据库系统?它们之间有什么联系? 答:数据库是存贮在计算机内的有结构的数据集合;数据库管理系统是一个软件,用以维护数据库、接受并完成用户对数据库的一切操作;数据库系统指由硬件设备、软件系统、专业领域的数据体和管理人员构成的一个运行系统。 (2)当前,主要有哪几种新型数据库系统?它们各有什么特点?用于什么领域,试举例说明?答:主要有:分布式数据库、面向对象数据库、多媒体数据库、数据仓库技术、空间数据库。 (3)什么是数据模型?目前数据库主要有哪几种数据模型?它们各有什么特点? 答:数据模型是一组描述数据库的概念。这些概念精确地描述数据、数据之间的关系、数据的语义和完整性约束。很多数据模型还包括一个操作集合。这些操作用来说明对数据库的存取和更新。数据模型应满足3方面要求:一是能真实地模拟现实世界;二是容易为人们理解;三是便于在计算机上实现。目前在数据库领域,常用的数据模型有:层次模型、网络模型、关系模型以及最近兴起的面向对象的模型。 (4)关系数据库中选择、投影、连接运算的含义是什么? 答: 1)选择运算:从关系中筛选出满足给定条件的元组(记录)。选择是从行的角度进行运算,选择出的记录是原关系的子集。 2)投影运算:从关系中指定若干个属性(字段)组成新的关系。投影是从列的角度进行运算,得到的新关系中的字段个数往往比原关系少。 3)连接运算:将两个关系按照给定的条件横向拼接成新的关系。连接过程是通过两个关系中公有的字段名进行的。 (5)关键字段的含义是什么?它的作用是什么?

答:一个关系中可以确定一个字段为关键字段,该字段的值在各条记录中不能有相同的值。(如:门牌号码);关键字段的作用主要是为建立多个表的关联和进行快速查询。 (6)什么是E-R图?E-R 图是由哪几种基本要素组成?这些要素如何表示? 答:E-R图也称实体-联系图(Entity Relationship Diagram),提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。构成E-R图的基本要素有3种,即实体、属性和联系。其表示方法为:用矩形框表示现实世界中的实体,用菱形框表示实体间的联系,用椭圆形框表示实体和联系的属性,实体名、属性名和联系名分别写在相应框内。ABAAC ABCAA 第2章习题解答 1. 思考题 (1)在SQL Server 2008中的数据库中包含哪些对象?其中什么对象是必不可少的?其作用又是什么? 答:SQL Server 2008中的数据库对象主要包括数据库关系图、表、视图、同义词、可编程性、Service Broker、存储和安全性等。其中表对象是必不可少的。表是由行和列构成的集合,用来存储数据。 (2)SQL Server提供的系统数据库master它的作用是什么?用户可以删除和修改吗?为什么?答:master 数据库记录SQL Server 系统的所有系统级信息。主要包括实例范围的元数据、端点、链接服务器和系统配置设置以及记录了所有其他数据库的存在、数据库文件的位置以及SQL Server 的初始化信息。用户不可以删除和修改,它是由系统创建和维护的数据库。 (3)什么文件是数据库文件?组成数据库的文件有哪些类型?如何识别?它们的作用是什么?答:存放数据库数据和数据库对象的文件叫数据库文件;在SQL Server 2008系统中组成数据库的文件有2种类型:数据文件和事务(事务就是一个单元的工作,该单元的工作要么全部完成,要么全部不完成)日志文件。而数据文件又由主数据文件和次数据

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台 。 个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度) ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 功能) 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分 析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或 数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分组。 ?挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关 联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必 须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 ?背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导 知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的 形式。 ?模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且 被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴 趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易 性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

《基础会计学》第二章课后习题及参考答案

5.在借贷记账法下,有关账户之间形成的应借应贷的相互关系称为账户对应关系。()第二章会计记账方法 6.总分类账户与明细分类账户进行平行登记时的所谓同时登记,确切地说应该是同一会计期间作业一: 登记。()一,单项选择题: 7.平行登记的要求中,所谓登记方向一致,是指会计分录中总分类账户和明细分类账户的记账 1.下列科目中属于流动资产的是() 符号是一致的。()A预提费用B短期借款C资本公积D应收账款 8.采用借贷记账法,每发生一笔经济业务必定要在两个账户中同时登记。() 2.企业全部资产减去全部负债后的净额,就是企业的() 四,名词解释A所有者权益B实收资本C资本公积D盈余公积 平行登记发生额平衡法余额平衡法 3.预付供货单位货款属于企业的一项() 五,简答题A资产B负债C收入D费用 1.简述借贷复式记账法的内容和特点。 4.经济业务发生后,会计等式的平衡关系() 2.简述总账和明细账平行登记的要点及两者数量关系核对的公式。 A可能会受影响B不一定受影响C必然不受影响D必然受影响 3.简述借贷记账法的试算平衡。 5.资产与权益的平衡关系是指()

六,综合题A一项资产金额与一项权益金额的相等关系B几项资产金额与一项权益金额的相等关系 1.计算题C流动资产合计金额与流动负债金额的相等关系D资产总额与权益总额的相等关系 某企业有关会计要素的数据如下: 6.引起资产内部一个项目增加,另一个项目减少,而资产总额不变的经济业务是() 负债5000万元;所有者权益8000万元;A用银行存款偿还短期借款B收到投资者投入的机器一台C收到外单位前期欠的货款 费用200万元;利润6000万元;D收到国家拨入的特种储备物资 要求: 计算资产总额和收入总额 7.企业用借款直接偿还应付购货款,属于() 2.某公司设有以下账户: 实收资本、本年利润、现金、银行存款、待摊费用、预提费用、原材A资产项目和权益项目同增B权益项目之间此增彼减C资产项目和权益项目同减 料、固定资产、其他应收款、应收账款、应付账款、预收账款、预付账款、其他应付款、材料采D资产项目之间此增彼减 购、累计折旧、管理费用、财务费用、营业费用、主营业务收入、其他业务收入、营业外收入、 8.只有采用权责发生制原则核算的企业,才需要设置() 主营业务成本、其他业务支出、应交税金、短期借款、资本公积、制造费用、生产成本、库存商A待摊费用B本年利润C银行存款D库存商品

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

高数课后习题及答案 第二章 2.3

2.2)1 ()3,0 x f x x ==; 解: 11 lim 11 lim lim ()lim 3330 lim ()lim 333 x x x x x x x x x x f x f x - →--+ →++-∞ →→+∞ →→========+∞ 因为0 lim ()lim ()x x f x f x - + →→≠,所以3 lim ()x f x →-不存在。 3)2 11(),02x f x x - ?? == ? ?? ; 解: 2 10000 11lim ()lim ()lim ()lim 22x x x x x f x f x f x -+- -∞ →→→→?? ??=====+∞ ? ??? ?? 所以3 lim ()x f x →-不存在。 4)3,3 9)(2 -=+-= x x x x f ; 解:63 ) 3)(3(lim )(lim )(lim 3 3 3 -=+-+==+ + - -→-→-→x x x x f x f x x x 故极限6)(lim 3 -=-→x f x 2 2 2 2 2 5).lim ()224,lim ()3215, lim ()lim (),lim ()x x x x x f x f x f x f x f x -+-+→→→→→=?==?-=≠解:因为所以不存在。 ()0 6.lim ()lim 21,lim ()lim cos 12,lim ()lim (),lim ()x x x x x x x x f x f x x f x f x f x --++-+→→→→→→→===+=≠)解:因为所以不存在。 7)1()arctan ,0f x x x ==;

数据挖掘课后习题资料

第1 章数据仓库的概念与体系结构 1. 面向主题的,相对稳定的。 2. 技术元数据,业务元数据。 3. 联机分析处理OLAP。 4. 切片(Slice),钻取(Drill-down 和Roll-up 等)。 5. 基于关系数据库。 6. 数据抽取,数据存储与管理。 7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。 8. 可更新的,当前值的。 9. 接近实时。 10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。 11. 答: 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: (1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各 自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 答: (1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4 )逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data

(完整版)大数据技术原理与应用林子雨版课后习题答案

第一章 1.试述信息技术发展史上的3次信息化浪潮及具体内容。 2.试述数据产生方式经历的几个阶段 答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。 3.试述大数据的4个基本特征 答:数据量大、数据类型繁多、处理速度快和价值密度低。 4.试述大数据时代的“数据爆炸”的特性 答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。 5.数据研究经历了哪4个阶段?

答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。 6.试述大数据对思维方式的重要影响 答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。 7.大数据决策与传统的基于数据仓库的决策有什么区别 答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。 大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。 8.举例说明大数据的基本应用 答: 9.举例说明大数据的关键技术

答:批处理计算,流计算,图计算,查询分析计算 10.大数据产业包含哪些关键技术。 答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。 11.定义并解释以下术语:云计算、物联网 答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。 物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。 12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据仓库习题答案

第一章 1.为什么不能依靠传统的业务处理系统进行决策分析?(P1-3) 2.在将数据源中的数据加载到数据仓库之前需要完成那些工作?为什么要进行这些工作?(数据准备P13-14 另外加“抽取”) 3.(选做)如果创建一个数据仓库,主要是分析关于客户的人口统计(收入、家庭人口、家庭位置、爱好等)。数据仓库的目的在于将特定的产品推销给合适的潜在客户群。这个数据仓库应该从哪些地方获取数据源,数据仓库的体系结构应该包含哪些部分。(P12,8) 4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘? 5.在数据挖掘过程中需要涉及到哪些过程?(P31-35) (1). 确定挖掘对象 清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步. (2)数据准备 1) 数据的选择:选择出适用于数据挖掘应用的数据. 2) 数据的预处理:研究数据的质量, 并确定将要进行的挖掘操作的类型.、(3) 模型的构建:建立一个分析模型.这个分析模型是针对挖掘算法建立的。(4)数据挖掘:对所得到的经过转换的数据进行挖掘. (5)结果分析:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术. (6)知识的应用:将分析所得到的知识集成到业务信息系统的组织结构中去,使其在实际的管理决策分析中得到应用 6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作? (P35) 第二章 名词解释; 维:关于一个组织想要记录的透视或实体。 维表:对维各个属性的描述。 事实:数值的度量。 事实表: 包括事实的名称或度量,以及每个相关维表的关键字。 元数据: 数据的数据,可以对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下关系,使每个数据具有符合现实的真实含义,使用户可以了解这些数据之间的关系. 粒度:数据仓库中数据单元的详细程度和级别. 星型模型: 最常用的数据仓库设计结构的实现模式。使数据仓库形成了一个集成系统,为用户提供分析服务对象。核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。雪花模型:对星型模型的冗余的维度表进一步分解,对星型模型中的维度表进行了规范化处理。 问答: 1.简述olap 与oltp的区别; Olap:在线分析处理;oltp:联机事务处理。 PAGE 5

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1.数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。 2.从数据库发展到数据仓库的原因是什么?书P1 (1)数据库数据太多,信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。(2)异构环境数据的转换和共享。随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。(3)利用数据进行事物处理转变为利用数据支持决策。 3.举例说明数据库与数据仓库的不同。 比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据 当前数据历史数据 经常更新不更新,但周期性刷新 一次性处理的数据量小一次处理的数据量大 对响应时间要求高响应时间合理 面向应用,事务驱动面向分析,分析驱动 7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。 9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。 10 .数据仓库的定义是什么? 答:(1)W.H.Inmon对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。 (2)SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有限的决策支持。 从数据仓库定义可以看出,数据仓库是明确为决策支持服务的,而数据库是为事务处理服务的。

(完整版)微观经济学第二章课后习题答案

第二章需求、供给和均衡价格 1.解: (1)将需求函数Q d= 50-5P和供给函数Q s=-10+5P代入均衡条件Q d=Q s ,有:50- 5P= -10+5P 得: Pe=6 以均衡价格Pe =6代入需求函数Q d=50-5p ,得: Qe=50-5×6 或者,以均衡价格 Pe =6 代入供给函数Q s =-10+5P ,得:Qe=-10+5×6 所以,均衡价格和均衡数量分别为Pe =6 , Qe=20 图略. (2)将由于消费者收入提高而产生的需求函数Q d=60-5p和原供给函数Q s=-10+5P, 代入均 衡条件Q d=Q s有: 60-5P=-10+5P 解得Pe =7 以均衡价格Pe =7代入Q d=60-5p ,得 Qe=25 或者,以均衡价格Pe =7代入Qs =-10+5P, 得Qe=25 所以,均衡价格和均衡数量分别为Pe =7,Qe=25 (3)将原需求函数Q d=50-5p 和由于技术水平提高而产生的供给函数Q s=-5+5p ,代入均衡条件Q d=Q s,有: 50-5P=-5+5P得 P e=5.5 以均衡价格Pe=5.5代入Q d=50-5p, 得Qe=50-5×5.5=22.5 所以,均衡价格和均衡数量分别为Pe=5.5,Qe=22.5图略。 (4)(5)略 2.解: (1)根据中点公式计算,e d=1.5 (2)由于当P=2时,Q d=500-100*2=300,

所以,有: 22 .(100)3003 d dQ P dP Q e =- =--*= (3)作图,在a 点P=2时的需求的价格点弹性为:e d =GB/OG=2/3或者e d =FO/AF=2/3 显然,利用几何方法求出P=2时的需求的价格弹性系数和(2)中根据定义公式求出结果是相同的,都是e d =2/3 3解: (1) 根据中点公式 求得:4 3 s e = (2) 由于当P=3时,Qs=-2+2×3=4,所以 3 .2 1.54 s dQ P dP Q e = =?= (3) 作图,在a 点即P=3时的供给的价格点弹性为:e s =AB/OB=1.5 显然,在此利用几何方法求出的P=3时的供给的价格点弹性系数和(2)中根据定义公式求出的结果是相同的,都是e s =1.5 4.解: (1)根据需求的价格点弹性的几何方法,可以很方便地推知:分别处于不同的线性需求曲线上的a 、b 、e 三点的需求的价格点弹性是相等的,其理由在于,在这三点上都有: e d =FO/AF (2)根据求需求的价格点弹性的几何方法,同样可以很方便地推知:分别处于三条线性需求曲线上的a 、e 、f 三点的需求的价格点弹性是不相等的,且有e da

数据挖掘部分课后习题

1、数据清理、数据集成、数据变换、数据规约各自的目的是什么?有哪些常用方法? 数据清理的目的:去掉噪声和无关数据,用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。 常用的方法: ◆处理空缺值;可用以下方法:忽略该记录、去掉属性、手工填写空缺值、使 用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。 ◆噪声数据的处理: 噪声数据是一个测量变量中的随机错误或偏差。可用以下 方法:分箱:按箱平均值平滑,按箱中值平滑,按箱边界平滑等;聚类:聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据;回归,让数据适合一个函数(如回归函数)来平滑数据。 数据集成的目的:将多个数据源中的数据结合起来存放在一个一致的数据存储中.。 常用的方法: ◆模式集成:主要是实体识别问题,利用元数据(关于数据的数据),这可以 避免模式集成中的错误。 数据变换的目的:把原始数据转换成为适合数据挖掘的形式。 常用的方法: ◆用平滑消除噪声数据 ◆聚类来对数据进行汇总 ◆数据概化使用高层次概念替换低层次“原始”数据来进行概念分层 ◆规范化将属性数据按比例缩放,使之落入一个小的特定区间 ◆属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。 数据归约的目的:用产生数据的归约表示,使数据的范围减小,减少数据量。常用的方法:

◆数据立方聚集 ◆维归约 ◆数据压缩 ◆数值归约 ◆离散化和概念分层等 2、对数据挖掘的数据为什么要进行预处理? 数据挖掘过程模型是为应用数据挖掘技术提供一种系统化的技术实施方法。围绕数据挖掘过程需要涉及:问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型等。 数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度 ◆现实世界的数据是“肮脏的”,很容易受噪声数据,空缺数据和不一致数据 的侵扰,所以在用数据挖掘系统对数据进行挖掘时,必须对数据进行预处理,去掉含噪声,空缺的,和不一致的数据。 不完整的——数据内涵出现不一致情况 含噪声的——感兴趣的属性没有值 不一致的——数据中存在着错误、或异常(偏离期望值)的数据 重复、维度高 ◆没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成

数据挖掘概念与技术第三版部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

电子科大数据挖掘作业1-6

数据挖掘课后习题 数据挖掘作业1——6 第一章绪论 1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 1、关系数据库 2、数据仓库 3、事务数据库 4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

第二章数据仓库和OLAP技术 1)简述数据立方体的概念、多维数据模型上的OLAP操作。 ●数据立方体 数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和 分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据 的多维视图,并允许预计算和快速访问汇总数据。 ●多维数据模型上的OLAP操作 a)上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 b)下卷(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 c)切片和切块(slice and dice) 投影和选择操作 d)转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列 2)OLAP多维分析如何辅助决策?举例说明。 OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询 大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的 变化值,经理通过查询变化值来做决策。 例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决 3)举例说明OLAP的多维数据分析的切片操作。 切片就是在某两个维上取一定区间的维成员或全部维成员。 如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。

大物第二章课后习题答案

简答题 什么是伽利略相对性原理什么是狭义相对性原理 答:伽利略相对性原理又称力学相对性原理,是指一切彼此作匀速直线运动的惯性系,对于描述机械运动的力学规律来说完全等价。 狭义相对性原理包括狭义相对性原理和光速不变原理。狭义相对性原理是指物理学定律在所有的惯性系中都具有相同的数学表达形式。光速不变原理是指在所有惯性系中,真空中光沿各方向的传播速率都等于同一个恒量。 同时的相对性是什么意思如果光速是无限大,是否还会有同时的相对性 答:同时的相对性是:在某一惯性系中同时发生的两个事件,在相对于此惯性系运动的另一个惯性系中观察,并不一定同时。 如果光速是无限的,破坏了狭义相对论的基础,就不会再涉及同时的相对性。 什么是钟慢效应 什么是尺缩效应 答:在某一参考系中同一地点先后发生的两个事件之间的时间间隔叫固有时。固有时最短。固有时和在其它参考系中测得的时间的关系,如果用钟走的快慢来说明,就是运动的钟的一秒对应于这静止的同步的钟的好几秒。这个效应叫运动的钟时间延缓。 尺子静止时测得的长度叫它的固有长度,固有长度是最长的。在相对于其运动的参考系中测量其长度要收缩。这个效应叫尺缩效应。 狭义相对论的时间和空间概念与牛顿力学的有何不同 有何联系 答:牛顿力学的时间和空间概念即绝对时空观的基本出发点是:任何过程所经历的时间不因参考系而差异;任何物体的长度测量不因参考系而不同。狭义相对论认为时间测量和空间测量都是相对的,并且二者的测量互相不能分离而成为一个整体。 牛顿力学的绝对时空观是相对论时间和空间概念在低速世界的特例,是狭义相对论在低速情况下忽略相对论效应的很好近似。 能把一个粒子加速到光速c 吗为什么 答:真空中光速C 是一切物体运动的极限速度,不可能把一个粒子加速到光速C 。从质速关系可看到,当速度趋近光速C 时,质量趋近于无穷。粒子的能量为2 mc ,在实验室中不存在这无穷大的能量。 什么叫质量亏损 它和原子能的释放有何关系 答:粒子反应中,反应前后如存在粒子总的静质量的减少0m ?,则0m ?叫质量亏损。原子能的释放指核反应中所释 放的能量,是反应前后粒子总动能的增量k E ?,它可通过质量亏损算出20k E m c ?=?。 在相对论的时空观中,以下的判断哪一个是对的 ( C ) (A )在一个惯性系中,两个同时的事件,在另一个惯性系中一定不同时;

数据挖掘第三版第十章课后习题答案

简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。 (1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出: (a)在第一轮执行后的3个簇中心。 (b)最后的3个簇。 (a)第一轮后, 三个新的簇为(1){A1} (2){B1,A3,B2,B3,C2} (3){C1,A2} 簇中心分别为(1) (2, 10), (2) (6, 6), (3) , . (b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}. k-均值和k-中心点算法都可以进行有效的聚类。 (a)概述k-均值和k-中心点相比较的优缺点。 (b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。 (a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。 (b)k-均值和k-中心点都是划分方法。这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。 划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon. 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例:

相关文档
相关文档 最新文档