文档库 最新最全的文档下载
当前位置:文档库 › 数据挖掘第三版第八章课后习题答案

数据挖掘第三版第八章课后习题答案

数据挖掘第三版第八章课后习题答案
数据挖掘第三版第八章课后习题答案

6.2

(a)能确定项集A是否频繁,并且能确定项集A的支持度

6.3

(b)因为s包含s’,则项集s的频数小于或者等于s’的频数,所以项集s的任意非空子集s’的支持度至少与s的支持度一样大。

设任务相关的数据D是数据库事务的集合,|D|是 D 的事务量,由定义得:

| |

) (

_

sup

)

(

sup

D

s count

port

s

port=

.

设s’是s的非空子集,由定义得:

|

|

)'(

_

sup

)'(

sup

D

s

count

port

s

port=

.

由频繁项集的所有非空子集一定也是频繁的可知:support(s’) support(s)

(d)因为d中的频繁项集都是来自d的所有分区之内的,所以在d中频繁的项集至少在d的一个分区中是频繁的。

6.6

(a)Apriori算法

最小支持度计数=3

C1 C2 C3 C4 C5

项集支持度

计数

项集支持度

计数

项集支持度

计数

项集支持度

计数

项集支持

{M} 3 {M} 3 {M,O} 1 {M,K} 3 {O,K,E} 3 {O} 4 {O} 4 {M,E} 2 {O,K} 3

{N} 2 {K} 5 {M,K} 3 {O,E} 3

{K} 5 {E} 4 {M,Y} 2 {K,E} 4

{E} 4 {Y} 3 {O,E} 3 {K,Y} 3

{Y} 3 {O,K} 3

{D} 1 {O,Y} 2

{A} 1 {K,E} 4

{U} 1 {K,Y} 3

{C} 2 {E,Y} 2

{I} 1

FP-growth树算法

K 5

E 4

O 3

M 3

Y 3

Null{}

K:5

E:4 M:1

O:3 OM:1 OY:1

M:1 OY:1

Y:1

项条件模式基条件FD模式产生的频繁模式

Y {K,E,O,D:1}{K,E,O:1

{K,Y:3}

}{K,M:1}

{K,M:3}

M {K,E,,O:1}{K,E:1}{K

:1}

O {K,E:3} {K,O:3}{E,O:3}{K,E,

O:3}

E {K:4} {K,E:4}

6.14

6.14

(a)支持度=2000/5000*100%=40%>25%,置信度=2000/3000*100%=66.7%>50%

则该关联规则是强规则

(b)P(AUB)=40%

P(A)p(B)=2500/5000*3000/5000*100%=30%

P(AUB)> P(A)p(B)

所以不是独立的,两者之间是正相关的。

(c)全置信度=0.67

最大置信度=0.80

Kulczynski=0.57

余弦=0.73

提升度=1.33

根据数据显示,都表示两者之间存在正相关的关系。

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台 。 个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度) ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 功能) 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分 析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或 数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分组。 ?挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关 联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必 须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 ?背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导 知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的 形式。 ?模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且 被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴 趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易 性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

第八章课后题答案

《第八章运动和力》 《8.1牛顿第一定律》 1.同学们在一起讨论运动和力的关系。小明认为,一切物体只有受力才能保持匀速直线运动,不受力总是静止的;小华认为,一切物体只有受力才能保持静止,不受力总是做匀速直线运送。他们的说法对吗?为什么? 他们说的都不对。 因为力不是维持物体运动状态的原因,而是改变物体运动状态的原因。即物体在不受力时,将保持静止状态或匀速直线运动状态。 2.如图,用力击打一摞棋子中间的一个,这棋子飞出而上面的棋子又落 回原位置。你能解释这是为什么吗? 一切物体都具有惯性,当用力击打其中一个棋子时,其他棋子由于具有 惯性,保持原来的静止状态。因此它们又落回原位置。 3.分析下列现象是怎样利用惯性的。 (1)通过拍打窗帘清除它上面的浮灰。 当拍打窗帘时,窗帘上的浮灰由于惯性,保持原来的静止状态,在窗帘 运动时,离开了窗帘。 (2)标枪运动员为取得好成绩,掷标枪前需要助跑。 因为助跑后掷出标枪时,标枪由于具有惯性,还要保持原来运动员助跑时的速度,这样可使标枪运动的更远。 4.在一列匀速直线行驶的列车内,一位同学相对于车厢竖直向上挑起,他是否会落在车厢内原来的起跳点?说出你的理由。 能落在原来的起跳点。 因为一切物体都具有惯性,当他跳起时,由于具有惯性,仍然保持原来与列车同样的运动状态,跳起的同时继续以与列车同样的速度向前运动。因此能落在原来起跳点。 《8.2二力平衡》 1.在图中,F和F是物体所受的方向相反的两个力,哪些情况下,这两个力是平衡的? 乙和丁 2.在平直的地面上,一个人沿水平方向用20N的力推一辆小车匀速向西运动,试画出小车所受阻力的大小和方向。

数据挖掘课后习题资料

第1 章数据仓库的概念与体系结构 1. 面向主题的,相对稳定的。 2. 技术元数据,业务元数据。 3. 联机分析处理OLAP。 4. 切片(Slice),钻取(Drill-down 和Roll-up 等)。 5. 基于关系数据库。 6. 数据抽取,数据存储与管理。 7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。 8. 可更新的,当前值的。 9. 接近实时。 10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。 11. 答: 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: (1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各 自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 答: (1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4 )逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

统计学第七章、第八章课后题答案

统计学复习笔记 第七章参数估计 一、思考题 1.解释估计量和估计值 在参数估计中,用来估计总体参数的统计量称为估计量。估计量也是随机变量。如样本均值,样本比例、样本方差等。 根据一个具体的样本计算出来的估计量的数值称为估计值。 2.简述评价估计量好坏的标准 (1)无偏性:是指估计量抽样分布的期望值等于被估计的总体参数。 (2)有效性:是指估计量的方差尽可能小。对同一总体参数的两个无偏估计量,有更小方差的估计量更有效。 (3)一致性:是指随着样本量的增大,点估计量的值越来越接近被估总体的参数。 3.怎样理解置信区间 在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。置信区间的论述是由区间和置信度两部分组成。有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),并不说明置信度,也不给出被调查的人数,这是不负责的表现。因为降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。在公布调查结果时给出被调查人数是负责任的表现。这样则可以由此推算出置信度(由后面给出的公式),反之亦然。 4.解释95%的置信区间的含义是什么 置信区间95%仅仅描述用来构造该区间上下界的统计量(是随机的)覆盖总体参数的概率。也就是说,无穷次重复抽样所得到的所有区间中有95%(的区间)包含参数。 不要认为由某一样本数据得到总体参数的某一个95%置信区间,就以为该区间以的概率覆盖总体参数。 5.简述样本量与置信水平、总体方差、估计误差的关系。 1. 估计总体均值时样本量n 为 (z 2 )2 2其中: E z n n E22 其中: E z 2 n 2. 样本量n 与置信水平1- α、总体方差、估计误差E之间的关系为与置信水平 成正比,在其他条件不变的情况下,置信水平越大,所

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

第八章习题答案

3. 假设一个同步总线的时钟频率为50MHz,总线宽度为32位,每个时钟周期传送一个数据,则该总线的最 大数据传输率(即总线带宽)为多少?若要将该总线的带宽提高一倍,可以有哪几种方案? 参考答案: 最大数据传输率为:4B×50M/1=20MB/s 方案一:将时钟频率提高一倍;方案二:将总线宽度提高一倍。 4. V AX SBI总线采用分布式的自举裁决方案,总线上每个设备有惟一的优先级,而且被分配一根独立的总线 请求线REQ,SBI有16根这样的请求线(REQ0,…REQ15),其中REQ0优先级最高,请问:最多可有多少个设备连到这样的总线上?为什么? 参考答案: 最多可连接16个设备。因为在分布式自举裁决方式的总线中,除优先级最低的设备外,每个设备都使用一根信号线发出总线请求信号,以被优先级比它低的设备查看;而优先级最低的那个设备无需送出总线请求信号。此外,还需要一根总线请求信号线用于设置“总线忙”信号, 设有16个设备(DEV0,…DEV15),其优先级依次降低,将REQ15作为总线忙信号线。DEV0在总线空闲(REQ15没有请求信号)时可直接使用总线;DEV1在总线空闲时且REQ0没有请求信号时使用总线;依次类推,DEV15在总线空闲时且REQ0至REQ14都没有请求信号时使用总线。这样最多可以有16个设备无冲突的使用总线。 4.假定一个32位微处理器的外部处理器总线的宽度为16位,总线时钟频率为40MHz,假定一个总线事务 的最短周期是4个总线时钟周期,该总线的最大数据传输率是多少?如果将外部总线的数据线宽度扩展为32位,那么该总线的最大数据传输率提高到多少?这种措施与加倍外部总线时钟频率的措施相比,哪种更好? 参考答案: 一个总线事务过程除了数据传送阶段外,还包括其他阶段,如传送地址和总线命令、准备数据等,所以,完成一个总线事务所用的所有时钟周期并不都用来传输数据,也即最短的4个时钟周期中只可能有一个时钟周期用来传送数据。 总线最大数据传输率(总线带宽)是指在总线进行数据传送阶段单位时间内传送的数据量(也即是峰值数据传输率)。通常,在数据传送阶段每个总线时钟周期传送一个数据,若是这样的话,该处理器总线的最大数据传输率为2B×40M=80MB/s;有些总线可以利用时钟的上升沿和下降沿各自传送一个数据,使得每个时钟周期能传送两个数据,若是这样的话,该总线的最大数据传输率为2×2B×40M=160MB/s。 若采用32位总线宽度,则在上述两种情况下,该总线带宽可分别提高到160MB/s和320MB/s。这种措施的效果和倍频的效果完全相同。 6. 试设计一个采用固定优先级的具有4个输入的集中式独立请求裁决器。 参考答案: 设计一个并行判优电路即可。 若BR0~BR3为4条总线请求线,优先级由高到低。BG0~BG3为4条总线允许线,则: BG0=BR0; BG1=(BR1)&(~BR0); BG2=(BR2)&(~BR1)&(~BR0); BG3=(BR3)&(~BR2)&(~BR1)&(~BR0) 7. 假设某存储器总线采用同步通信方式,时钟频率为50MHz时钟,每个总线事务以突发方式传输8个字,以支持块长为8 个字的Cache行读和Cache行写,每字4字节。对于读操作,访问顺序是1个时钟周期接受地址,3个时钟周期等待存储器读数,8个时钟周期用于传输8个字。对于写操作,访问顺序是1个时钟周期接受地址,2个时钟周期延迟,8个时钟周期用于传输8个字,3个时钟周期恢复和写入纠错码。对于以

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1.数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。 2.从数据库发展到数据仓库的原因是什么?书P1 (1)数据库数据太多,信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。(2)异构环境数据的转换和共享。随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。(3)利用数据进行事物处理转变为利用数据支持决策。 3.举例说明数据库与数据仓库的不同。 比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据 当前数据历史数据 经常更新不更新,但周期性刷新 一次性处理的数据量小一次处理的数据量大 对响应时间要求高响应时间合理 面向应用,事务驱动面向分析,分析驱动 7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。 9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。 10 .数据仓库的定义是什么? 答:(1)W.H.Inmon对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。 (2)SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有限的决策支持。 从数据仓库定义可以看出,数据仓库是明确为决策支持服务的,而数据库是为事务处理服务的。

数据挖掘部分课后习题

1、数据清理、数据集成、数据变换、数据规约各自的目的是什么?有哪些常用方法? 数据清理的目的:去掉噪声和无关数据,用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。 常用的方法: ◆处理空缺值;可用以下方法:忽略该记录、去掉属性、手工填写空缺值、使 用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。 ◆噪声数据的处理: 噪声数据是一个测量变量中的随机错误或偏差。可用以下 方法:分箱:按箱平均值平滑,按箱中值平滑,按箱边界平滑等;聚类:聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据;回归,让数据适合一个函数(如回归函数)来平滑数据。 数据集成的目的:将多个数据源中的数据结合起来存放在一个一致的数据存储中.。 常用的方法: ◆模式集成:主要是实体识别问题,利用元数据(关于数据的数据),这可以 避免模式集成中的错误。 数据变换的目的:把原始数据转换成为适合数据挖掘的形式。 常用的方法: ◆用平滑消除噪声数据 ◆聚类来对数据进行汇总 ◆数据概化使用高层次概念替换低层次“原始”数据来进行概念分层 ◆规范化将属性数据按比例缩放,使之落入一个小的特定区间 ◆属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。 数据归约的目的:用产生数据的归约表示,使数据的范围减小,减少数据量。常用的方法:

◆数据立方聚集 ◆维归约 ◆数据压缩 ◆数值归约 ◆离散化和概念分层等 2、对数据挖掘的数据为什么要进行预处理? 数据挖掘过程模型是为应用数据挖掘技术提供一种系统化的技术实施方法。围绕数据挖掘过程需要涉及:问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型等。 数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度 ◆现实世界的数据是“肮脏的”,很容易受噪声数据,空缺数据和不一致数据 的侵扰,所以在用数据挖掘系统对数据进行挖掘时,必须对数据进行预处理,去掉含噪声,空缺的,和不一致的数据。 不完整的——数据内涵出现不一致情况 含噪声的——感兴趣的属性没有值 不一致的——数据中存在着错误、或异常(偏离期望值)的数据 重复、维度高 ◆没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成

数据挖掘习题及解答-完美版

Data Mining Take Home Exam 学号: xxxx 姓名: xxx (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码为什么 (3)

/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 = /4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35= (5) 比较上面各属性的Gini值大小可知,车型划分Gini值最小,即使用车型属性更好。 2. ( (1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=;{b,d}的支持度为2/10=;{b,d,e} 的支持度为2/10=。 (2)c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。 (3)同理可得:{e}的支持度为4/5=,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=。

(4)c[{b,d}→{e}]=5/4=,c[{e}→{b,d}]=4/5=。 3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 *** x2 1 ** Residuals 7 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 ** x1 1 *** Residuals 7 (1)用F检验来检验以下假设(α = H0: β1 = 0 H a: β1≠ 0 计算检验统计量;是否拒绝零假设,为什么 (2)用F检验来检验以下假设(α = H0: β2 = 0 H a: β2≠ 0 计算检验统计量;是否拒绝零假设,为什么 (3)用F检验来检验以下假设(α = H0: β1 = β2 = 0 H a: β1和β2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么 解:(1)根据第一个输出结果F=>F(2,7)=,p<,所以可以拒绝原假设,即得到不等于0。 (2)同理,在α=的条件下,F=>F(2,7)=,p<,即拒绝原假设,得到不等于0。(3)F={(+)/2}/(7)=>F=(2,7)=,即拒绝原假设,得到和并不都等于0。 4. (20分)考虑下面20个观测值: [1] [6] [11] [16]

第八章练习题及答案

1.某企业生产甲产品,分两个步骤连续加工,第一步骤制造甲半成品,转入第二步骤加工为甲产品。成本计算采用逐步综合结转分步法。半成品通过“自制半成品”账户。 某年8月份有关成本计算的资料如下: (1)第一车间产品成本计算单 表8-1 甲半成品 (2)自制半成品明细账(半成品发出的单价采用全月一次加权平均法) 表8-2 半成品:件 (3)第二车间成本计算单 表8-3 甲产成品 要求: (1)完成甲半成品计算单、自制半成品明细账的甲产成品成本计算单。 (2)对甲产成品进行成本还原。

2.目的:练习采用平行结转分步法计算产品成本 新华工厂的甲产品是连续经过一车间、二车间制造的,采用平行结转分步法计算产品成本,生产经费用在完工产品与在产品间的分配采用定额比例法。 表8-4 产品成本计算单 一车间:甲产品 表8-5 产品成本计算单 二车间:甲产品 表8-6 产品成本汇总表 甲产品 要求: (1)计算第一车间材料、工资、费用分配率。 (2)计算第一车间转入产品的成本和月末在产品成本。

(3)编制甲产品成本汇总表。 3.目的:练习综合结转法的成本还原 资料:某种产品某月部分成本资料如下: 表8-7 要求:(1)计算成本还原分配率(保留一位小数)。 (2)对产品成本中的半成品费用进行成本还原。 (3)计算按原始成本项目反映的产品成本(列出算式)。 4.目的:练习逐步结转分步法(按实际成本综合结转) 资料:某工业企业大量生产甲产品。生产分两个步骤,分别由第一、第二两个车间进行。 第一车间为第二车间提供半成品,第二车间将半成品加工为产成品。采用逐步结转分步法计算成本。 该企业本月(8月份)第一和第二车间的生产费用(不包括所耗半成品的费用)为:第一车间:原材料费用12000元,工资及福利费6000元,制造费用2100元。 第二车间:工资及福利费6100元,制造费用11000元。 本月初半成品库结转半成品600件,其实际总成本12500元。本月第一车间完工半成品800件,第二车间从半成品库领用1260件。(半成品结转采用加权平均法)本月完工入库产品600件。 在产品按定额成本计价。 月初在产品定额成本如下: 第一车间:原材料费用3600元,工资及福利费2000元,制造费用3500元。 第二车间:半成品费用12100元,工资及福利费2200元,制造费用3500元。 月末在产品定额总成本如下: 第一车间:原材料费用5500元,工资及福利费用2500元,制造费用3600元。 第二车间:半成品费用5000元,工资及福利900元,制造费用2000元。 要求: (1)根据上列资料,登记产品成本明细账和自制半成品明细账,按实际综合结转半成品成本,计算产品成本。

数据挖掘概念与技术第三版部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

电子科大数据挖掘作业1-6

数据挖掘课后习题 数据挖掘作业1——6 第一章绪论 1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 1、关系数据库 2、数据仓库 3、事务数据库 4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

第二章数据仓库和OLAP技术 1)简述数据立方体的概念、多维数据模型上的OLAP操作。 ●数据立方体 数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和 分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据 的多维视图,并允许预计算和快速访问汇总数据。 ●多维数据模型上的OLAP操作 a)上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 b)下卷(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 c)切片和切块(slice and dice) 投影和选择操作 d)转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列 2)OLAP多维分析如何辅助决策?举例说明。 OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询 大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的 变化值,经理通过查询变化值来做决策。 例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决 3)举例说明OLAP的多维数据分析的切片操作。 切片就是在某两个维上取一定区间的维成员或全部维成员。 如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。

第八章 习题解答

第八章 习题解答 题 8-1 试用相位平衡条件和幅度平衡条件,判断图中各电路是否可能产生正弦波振荡,简述理由。 解:(a)不能振荡,o o A F 18090~90o ??==+-因,而,故不能满足相位平衡条件。 (b) 不能振荡,虽然电路能够满足相位平衡条件,但当o F 0?=时,13 F =&,而电压跟随器的1A =&,故不能同时满足幅度平衡条件。 (c) 不能振荡,o o o A F F 180RC 0~180180o ???==因,两节电路的,但当接近时,其输 出电压接近于零,故不能同时满足幅度平衡条件。 (d) 不能振荡,放大电路为同相接法,A 0o ?=,选频网络为三节RC 低通电路, o o F 0~270?=-,但欲达到o F 0?=,只能使频率f=0。 (e)可能振荡,差分放大电路从VT2的集电极输出时A 0o ?=,而选频网络为RC 串并联电路,当f=f0时,o F 0?=,满足相位平衡条件。

① 判断电路是否满足正弦波振荡的相位平衡条件。如不满足,修改电路接线使之满足(画在图上)。 ② 在图示参数下能否保证起振荡条件?如不能,应调节哪个参数,调到什么值? ③ 起掁以后,振荡频率f o =? ④ 如果希望提高振荡频率f o ,可以改变哪些参数,增大还是减小? ⑤ 如果要求改善输出波形,减小非线性失真,应调节哪个参数,增大还是减小? 本题意图是掌握文氏电桥RC 振荡电路的工作原理及其振荡频率和起振条件的估算方法。 解:①o o 0A F 0f f 0??===因,当时,,故满足相位平衡条件。 ②因F e 1F F e 1R 2R ,R R >2R =5.4k <Ω故不能满足起振条件,应调整,使。 ③038 11 Hz 5300Hz=5.3kHz 2231010f RC ππ-= =≈??? ④可减小R 或C 。 ⑤可减小R F 。 题 8-7 试用相位平衡条件判断图P8-7所示电路中,哪些可能产生正弦波振荡?哪些不能?简单说明理由。 解:本题的意图是掌握产生正弦振荡的相位平衡条件,并根据上述条件判断具有LC 选频网络的电路能否产生振荡。 (a) 不能振荡,o o A F 0180??==,,不满足相位平衡条件。 (b) 可能振荡,o o A F 180180??==,,满足相位平衡条件。 (c) 不能振荡,o o A F 1800??==,,不满足相位平衡条件。 (d) 可能振荡,o o A F 00??==,,满足相位平衡条件。 (e) 可能振荡,本电路实际上就是一个电容三点式振荡电路。 (f) 可能振荡,o o A F 00??==,,满足相位平衡条件。

数据挖掘计算题参考答案

数据仓库与数据挖掘复习题 1. 假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为3个类:X1(2,10)、X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9),距离选择欧几里德距离。假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心,请用 K_means算法来计算: (1)在第一次循环执行后的3个聚类中心; 答:第一次迭代:中心点1:X1(2,10),2:X4(5,8),X7(1,2) 答案:在第一次循环执行后的3个聚类中心: 1:X1(2,10) 2:X3,X4,X5,X6,X8 (6,6) 3:X2,X7 (,) (2)经过两次循环后,最后的3个族分别是什么? 答案:1:X1,X8 , 2:X3,X4,X5,X6 (,) 3:X2,X7 (,) a.使用Apriori算法找出频繁项集,并写出具体过程。 答: (a)Apriori算法:

{K} 1 {A} 4 {A,B} 4 {A,B,D} 3 {A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2 {E} 2 频繁项集为3项集{A,B,D}:3 b.列出所有的强关联规则,使它们与下面的元规则匹配,其中,X 是代表顾客的变量,i item 是表示项的变量(例如,“A ”、“B ”等): 123,(,)(,)(,)x transaction buys X item buys X item buys X item ?∈∧? [s,c] 答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A conf=3/3=100% √ 因此,满足条件的强关联规则有: A^D=>B{supp=75%,conf=100%} B^D=>A{supp=75%,conf=100%} ID Sky AirTemp Humidity Wind Water Forecast Enjoysport 1 Sunny Warm Normal Strong Warm Same Yes 2 Sunny Warm High Strong Warm Same Yes 3 Rainy Cold High Strong Warm Change No 4 Sunny Warm High Strong Cool Change yes 请计算属性Sky 的信息增益。 答: C1 :Enjoysport=yes=3 C2 :Enjoysport=no=1 2 2 1/4= sky C1 C2 rainy 0 1 sunny 3 I(sky)=1/4I(0,1)+3/4I(3,0)=0 Gain(sky)= 习题: 1. 以汽车保险为例:假定训练数据库具有两个属性:年龄和汽车类型。 年龄————序数属性 汽车类型——分类属性 年龄 汽车类型 类

数据挖掘第三版第十章课后习题答案

简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。 (1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出: (a)在第一轮执行后的3个簇中心。 (b)最后的3个簇。 (a)第一轮后, 三个新的簇为(1){A1} (2){B1,A3,B2,B3,C2} (3){C1,A2} 簇中心分别为(1) (2, 10), (2) (6, 6), (3) , . (b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}. k-均值和k-中心点算法都可以进行有效的聚类。 (a)概述k-均值和k-中心点相比较的优缺点。 (b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。 (a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。 (b)k-均值和k-中心点都是划分方法。这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。 划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon. 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例:

相关文档
相关文档 最新文档