文档库 最新最全的文档下载
当前位置:文档库 › 数据挖掘第三版第十章课后 习题答案

数据挖掘第三版第十章课后 习题答案

数据挖掘第三版第十章课后    习题答案
数据挖掘第三版第十章课后    习题答案

10.1 简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。

(1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。

使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。

(2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。

10.2 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。

A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出:

(a)在第一轮执行后的3个簇中心。

(b)最后的3个簇。

(a)第一轮后, 三个新的簇为(1){A1}

(2){B1,A3,B2,B3,C2}

(3){C1,A2}

簇中心分别为(1) (2, 10), (2) (6, 6), (3) (1.5, 3.5).

(b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}.

10.6 k-均值和k-中心点算法都可以进行有效的聚类。

(a)概述k-均值和k-中心点相比较的优缺点。

(b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。

(a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。

(b)k-均值和k-中心点都是划分方法。这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。

划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon.

10.14 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例:

(a)把聚类作为主要的数据挖掘功能的应用。

(b)把聚类作为预处理工具,为其他数据挖掘任务作数据准备的应

用。

(a)如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信息,计算客户之间的相似度,然后采用合适的聚类算法对所有客户进行类划分;基于得到的客户群信息,相关的店主可以制定相应的营销策略,如交叉销售,根据某个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。

(b)如电子商务网站中的推荐系统。电子商务网站可以根据得到的客户群,采用关联规则或者隐马尔科夫模型对每个客户群生成消费习惯规则,检测客户的消费模式,这些规则或模式可以用于商品推荐。其中客户群可以通过聚类算法来预先处理获取得到。

大学物理课后习题答案(第十章) 北京邮电大学出版社

习题十 10-1 一半径r =10cm 的圆形回路放在B =0.8T 的均匀磁场中.回路平面与B 垂直.当回路半径以恒定速率t r d d =80cm ·s -1 收缩时,求回路中感应电动势的大小. 解: 回路磁通 2πr B BS m 感应电动势大小 40.0d d π2)π(d d d d 2 t r r B r B t t m V 10-2 一对互相垂直的相等的半圆形导线构成回路,半径R =5cm ,如题10-2图所示.均匀磁 场B =80×10-3T ,B 的方向与两半圆的公共直径(在Oz 轴上)垂直,且与两个半圆构成相等的角 当磁场在5ms 内均匀降为零时,求回路中的感应电动势的大小及方向. 解: 取半圆形cba 法向为i , 题10-2图 则 cos 2π21 B R m 同理,半圆形adc 法向为j ,则 cos 2π22B R m ∵ B 与i 夹角和B 与j 夹角相等, ∴ 45 则 cos π2R B m 221089.8d d cos πd d t B R t m V 方向与cbadc 相反,即顺时针方向. 题10-3图 *10-3 如题10-3图所示,一根导线弯成抛物线形状y =2ax ,放在均匀磁场中.B 与xOy 平面垂直,细杆CD 平行于x 轴并以加速度a 从抛物线的底部向开口处作平动.求CD 距O 点为y 处时回路中产生的感应电动势. 解: 计算抛物线与CD 组成的面积内的磁通量 a y m y B x x y B S B 023 2322d )(2d 2 ∴ v y B t y y B t m 21212d d d d

∵ ay v 22 ∴ 212y a v 则 a By y a y B i 82221 21 i 实际方向沿ODC . 题10-4图 10-4 如题10-4图所示,载有电流I 的长直导线附近,放一导体半圆环MeN 与长直导线共面,且端点MN 的连线与长直导线垂直.半圆环的半径为b ,环心O 与导线相距a .设半圆环以速度v 平行导线平移.求半圆环内感应电动势的大小和方向及MN 两端的电压 N M U U . 解: 作辅助线MN ,则在MeNM 回路中,沿v 方向运动时 0d m ∴ 0 MeNM 即 MN MeN 又∵ b a b a MN b a b a Iv l vB 0ln 2d cos 0 所以MeN 沿NeM 方向, 大小为 b a b a Iv ln 20 M 点电势高于N 点电势,即 b a b a Iv U U N M ln 20 题10-5图 10-5如题10-5所示,在两平行载流的无限长直导线的平面内有一矩形线圈.两导线中的电 流方向相反、大小相等,且电流以t I d d 的变化率增大,求: (1)任一时刻线圈内所通过的磁通量; (2)线圈中的感应电动势. 解: 以向外磁通为正则 (1) ]ln [ln π 2d π2d π2000d a d b a b Il r l r I r l r I a b b a d d m (2) t I b a b d a d l t d d ]ln [ln π2d d 0 10-6 如题10-6图所示,用一根硬导线弯成半径为r 的一个半圆.令这半圆形导线在磁场中

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台 。 个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度) ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 功能) 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分 析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或 数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分组。 ?挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关 联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必 须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 ?背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导 知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的 形式。 ?模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且 被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴 趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易 性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

数据挖掘课后习题资料

第1 章数据仓库的概念与体系结构 1. 面向主题的,相对稳定的。 2. 技术元数据,业务元数据。 3. 联机分析处理OLAP。 4. 切片(Slice),钻取(Drill-down 和Roll-up 等)。 5. 基于关系数据库。 6. 数据抽取,数据存储与管理。 7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。 8. 可更新的,当前值的。 9. 接近实时。 10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。 11. 答: 数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面: (1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各 自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。 (2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间 相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。 (3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。 (4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 答: (1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4 )逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data

1C#程序设计第十章课后习题答案

单选: (1).NET中的大多数控件都派生于(C)类 A.Class B.From C.Control D.Object (2)在以下控件中,可用于输入数据的是(B) https://www.wendangku.net/doc/6c459535.html,bel B.TextBox C.Button D.PictureBox (3)在以下控件中,可实现多项选择的是(A) A.CheckBox B.RadioButton https://www.wendangku.net/doc/6c459535.html,boBox D.NumericUpDown (4)不属于容器控件的是(C) A.GroupBox B.Panel C.MenuStrip D.TapControl (5)(B)控件组合了TextBox控件和ListBox控件的功能。 https://www.wendangku.net/doc/6c459535.html,bel https://www.wendangku.net/doc/6c459535.html,boBox C.ProgressBar D.PictureBox (6)让控件不可以使用的属性是以下哪一个?B A.AllowDrop B.Enabled C.Bounds D.Visible (7)让控件不可显示的属性是以下哪一个?D A.AllowDrop B.Enabled C.Bounds D.Visible (8)不能用于设置控件布局位置的属性是(C) A.Left B.Top C.Size D.Location (9)可用来设置文字颜色的属性是(B) A.BackColor B.ForeColor C.Text D.Parent (10)TextBox控件的(B)属性将输入的字符代替显示为指定的密码字符。 A.Text B.PasswordChar C.TextAlign D.Multiline (11)所有控件都一定具有的属性是(D) A.Text B.BackColor C.Items https://www.wendangku.net/doc/6c459535.html, (12)当用户鼠标左键单击窗体或控件系统将触发(D)事件 A.Activated B.Load C.DoubleClick D.Click (13)用户修改了文本框中的内容时,系统将触发(A)事件。 A.xtChanged B.CheckedChanfed C.SelectedIndexChanged D.SizeChanged (14)在列表框或组合框中,当用户重新选择另一个选项时,系统将触发(C)事件。A.TextChanged B.CheckedChanged C.SelectedIndexChanged D.SizeChanged (15)有关模态对话框说法错误的是(A) A.模态对话框允许用户单击该对话框之外的区域 B.模态对话框通常没有最大化、最小化按钮 C.模态对话框使用ShowDialog方法显示 D.模态对话框不能使用鼠标改变窗体大小 (16)当复选框能够显示2种状态时,可通过它的(C)属性来设置或返回复选框的状态。 A.Enabled B.Visible C.Checked D.Text (17)要使用ListBox控件多选的情况下,可使用它的(A)属性设置为true。 A.SelectionMode B.SelectedItem C.SelectedValue D.ImeMode (18)在允许ListBox控件多选的情况下,可以使用它的(B)属性值来访问已选中的选项。 A.SelectionMode B.SelectedItem C.SelectedValue D.SelectedIndex (19)要使PictureBox中显示的图片刚好填满整个图片框,应把它的(D)属性值设为PictureBoxSizeMode.StretchImage。 A.Enabled B.Visible C.ImageLocation D.SizeMode (20)Timer控件的(A)属性用来是指定时器Tick事件发生的时间间隔

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

java第十章课后习题解答

第10章Java数据库连接 【1】试述JDBC提供了哪几种连接数据库的方法。 [解答]:JDBC连接数据库的方法取决于JDBC驱动程序类型,Java定义了4种JDBC驱动程序类型: (1)JDBC-ODBC桥驱动程序# JDBC-ODBC桥接器负责将JDBC转换为ODBC,用JdbcOdbc.Class和一个用于访问ODBC驱动程序的本地库实现的。这类驱动程序必须在服务器端安装好ODBC驱动程序,然后通过JDBC-ODBC的调用方法,进而通过ODBC来存取数据库。 (2)Java到本地API 这种类型的驱动程序是部分使用Java语言编写和部分使用本机代码编写的驱动程序,这类驱动程序也必须在服务器端安装好特定的驱动程序,如ODBC驱动程序,然后通过桥接器的转换,把Java API调用转换成特定驱动程序的调用方法,进而操作数据库。(3)网络协议搭配的Java驱动程序 这种驱动程序将JDBC转换为与DBMS无关的网络协议,这种协议又被某个服务器转换为一种DBMS协议。这种网络服务器中间件能够将它的纯Java客户机连接到多种不同的数据库上。所用的具体协议取决于提供者。 (4)本地协议纯Java驱动程序 这种类型的驱动程序将JDBC访问请求直接转换为特定数据库系统协议。不但无须在使用者计算机上安装任何额外的驱动程序,也不需要在服务器端安装任何中间程序,所有对数据库的操作,都直接由驱动程序来完成。 【2】SQL语言包括哪几种基本语句来完成数据库的基本操作。 [解答]:SQL语言包括以下6种基本语句来完成数据库的基本操作: (1)select语句:用来对数据库进行查询并返回符合用户查询标准的结果数据。 (2)create table语句:用来建立新的数据表。 (3)insert 语句:向数据表中插入或添加新的数据行。 (4)update语句:更新或修改符合规定条件的记录。 (5)delete语句:删除数据表中的行或记录。 (6)drop table语句:删除某个数据表以及该表中的所有记录。 【3】Statement接口的作用是什么? [解答]:Statement接口用于执行静态SQL 语句并返回它所生成结果的对象。在默认情况下,同一时间每个Statement对象在只能打开一个ResultSet对象。因此,如果读取一个ResultSet对象与读取另一个交叉,则这两个对象必须是由不同的Statement对象生成的。如果存在某个语句的打开的当前ResultSet对象,则Statement接口中的所有执行方法都会隐式关闭它。 【4】ExecuteQuery()的作用是什么? [解答]:ExecuteQuery()方法执行给定的SQL 语句,返回单个ResultSet对象。发送给数据库的SQL 语句,通常为静态SQL SELECT语句,返回包含给定查询所生成数据的ResultSet对象。

数据挖掘_概念与技术(第三版)部分习题答案汇总

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge)的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科学专业的学生,而具有低GPA 的学生的65%不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 对应中位数区间。

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1.数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。 2.从数据库发展到数据仓库的原因是什么?书P1 (1)数据库数据太多,信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。(2)异构环境数据的转换和共享。随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。(3)利用数据进行事物处理转变为利用数据支持决策。 3.举例说明数据库与数据仓库的不同。 比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据 当前数据历史数据 经常更新不更新,但周期性刷新 一次性处理的数据量小一次处理的数据量大 对响应时间要求高响应时间合理 面向应用,事务驱动面向分析,分析驱动 7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。 9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。 10 .数据仓库的定义是什么? 答:(1)W.H.Inmon对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。 (2)SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有限的决策支持。 从数据仓库定义可以看出,数据仓库是明确为决策支持服务的,而数据库是为事务处理服务的。

数据挖掘部分课后习题

1、数据清理、数据集成、数据变换、数据规约各自的目的是什么?有哪些常用方法? 数据清理的目的:去掉噪声和无关数据,用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。 常用的方法: ◆处理空缺值;可用以下方法:忽略该记录、去掉属性、手工填写空缺值、使 用默认值、使用属性平均值、使用同类样本平均值、预测最可能的值。 ◆噪声数据的处理: 噪声数据是一个测量变量中的随机错误或偏差。可用以下 方法:分箱:按箱平均值平滑,按箱中值平滑,按箱边界平滑等;聚类:聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据;回归,让数据适合一个函数(如回归函数)来平滑数据。 数据集成的目的:将多个数据源中的数据结合起来存放在一个一致的数据存储中.。 常用的方法: ◆模式集成:主要是实体识别问题,利用元数据(关于数据的数据),这可以 避免模式集成中的错误。 数据变换的目的:把原始数据转换成为适合数据挖掘的形式。 常用的方法: ◆用平滑消除噪声数据 ◆聚类来对数据进行汇总 ◆数据概化使用高层次概念替换低层次“原始”数据来进行概念分层 ◆规范化将属性数据按比例缩放,使之落入一个小的特定区间 ◆属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。 数据归约的目的:用产生数据的归约表示,使数据的范围减小,减少数据量。常用的方法:

◆数据立方聚集 ◆维归约 ◆数据压缩 ◆数值归约 ◆离散化和概念分层等 2、对数据挖掘的数据为什么要进行预处理? 数据挖掘过程模型是为应用数据挖掘技术提供一种系统化的技术实施方法。围绕数据挖掘过程需要涉及:问题的理解、数据的理解、收集和准备、建立数据挖掘模型、评价所建的模型、应用所建的模型等。 数据预处理是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度 ◆现实世界的数据是“肮脏的”,很容易受噪声数据,空缺数据和不一致数据 的侵扰,所以在用数据挖掘系统对数据进行挖掘时,必须对数据进行预处理,去掉含噪声,空缺的,和不一致的数据。 不完整的——数据内涵出现不一致情况 含噪声的——感兴趣的属性没有值 不一致的——数据中存在着错误、或异常(偏离期望值)的数据 重复、维度高 ◆没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须依赖高质量的数据 数据仓库需要对高质量的数据进行一致地集成

国开大学高层建筑施工第十章课后题答案

题目1简述钢结构的特点。 反馈 优点:①材料的强度高,塑性和韧性好;②质量轻;③材质均匀和力学计算的假定比较符合; ④钢结构制造简便,施工周期短;⑤钢结构密闭性较好;⑥钢结构抗震性能好。缺点:①钢结构耐腐蚀性差;②钢结构在低温等条件下可能发生脆性断裂;③钢结构耐热但不耐火。 题目2 厚度方向性能钢板等几种类型。 题目11钢结构选用钢材的一般考虑哪些原则? 反馈 一般应考虑:结构的重要性、荷载情况、连接方法、结构所处的温度和工作环境等几方面的情况。 10.3 课后思考

等。 等。 和电源种类及极性。 题目23简述手工电弧焊的优缺点。 反馈 优点:灵活方便,适用范围广,特别在高空和野外作业,小型焊接,工地焊接的主要施工方法。缺点:质量波动大,要求焊工等级高,劳动强度大,效率低。 题目24简述自动埋弧焊的优缺点。 反馈 优点:生产效率高、焊缝质量好、节约钢材和电能、改善了劳动条件。缺点:适应能力差,只能在水平位置焊接长直焊缝或大直径的环焊缝。 题目25简述气体保护焊的特点。 反馈 气体保护焊的焊工能够清楚地看到焊缝成型的过程,熔滴过渡平缓,焊缝强度比手工电弧焊高,塑性和抗腐蚀性能好,适用于全位置的焊接,缺点:不适用于野外或有风的地方施焊。

题目26钢结构选用钢材的一般考虑哪些原则? 反馈 优点具有受力性能好、耐疲劳、抗震性能好、连接刚度高,施工简便等优点。缺点是用钢量大,摩擦面需处理,安装工艺略为复杂,造价略高。 10.4 课后思考 题目27零件加工的主要工作内容有哪些? 反馈 ①放样;②号料;③下料;④制孔;⑤边缘加工;⑥弯曲;⑦变形矫正。 题目28构件加工制作包括的主要工作有哪些? 反馈 ①加工制作前的准备工作;②零件加工;③构件的组装和预拼装;④成品涂装、编号;⑤钢构件验收。 题目29钢构件出厂时,制造单位应提交哪些资料? 反馈 应提交下列资料:(1)产品合格证。(2)钢结构施工图和设计更改文件,设计变更的内容在施工图中相应部位注明。(3)钢构件制作过程中的技术协商文件。(4)钢材、连接材料和涂装材料的质量证明书和试验报告。(5)焊接工艺评定报告。(6)高强度螺栓接头处的摩擦系数试验报告及涂层的检测质料。(7)焊缝质量无损检验报告。(8)主要构件验收记录和预拼装记录。(9)构件的发运和包装清单。 题目30结构安装前技术准备工作内容有哪些? 反馈 ①加强与设计单位的密切结合;②了解现场情况,掌握气候条件;③编制施工组织设计。 题目31结构安装前物质准备工作内容有哪些? 反馈 ①各种机具、仪器的准备;②按施工平面布置的要求组织钢构件及大型机械进场,并对机械进行安装及试运行;③构件的配套、预检。 题目32简述高层钢结构采用综合法安装时的一般顺序。 反馈 高层钢结构采用综合法安装时的一般顺序;①平面内从中间的一个节间(标准节框架)开始,以一个节间的柱网为一个安装单元,先安装柱,后安装梁,然后往四周扩展;②垂直方向自下而上组成稳定结构后分层次安装次要构件,一节间一节间钢框架,一层楼一层楼安装完成,以便消除安装误差累积和焊接变形,使误差减低到小限度。 题目33试述钢结构安装的构件连接方式。 反馈

数据挖掘习题及解答-完美版

Data Mining Take Home Exam 学号: xxxx 姓名: xxx (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码为什么 (3)

/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160 = /4)^2-(2/4)^2}*4/20]*2=8/2 5+6/35= (5) 比较上面各属性的Gini值大小可知,车型划分Gini值最小,即使用车型属性更好。 2. ( (1) 将每个事务ID视为一个购物篮,计算项集{e},{b,d} 和{b,d,e}的支持度。(2)使用(1)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。(3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0)。(4)使用(3)的计算结果,计算关联规则{b,d}→{e}和{e}→{b,d}的置信度。答:(1)由上表计数可得{e}的支持度为8/10=;{b,d}的支持度为2/10=;{b,d,e} 的支持度为2/10=。 (2)c[{b,d}→{e}]=2/8=; c[{e}→{b,d}]=8/2=4。 (3)同理可得:{e}的支持度为4/5=,{b,d}的支持度为5/5=1,{b,d,e}的支持度为4/5=。

(4)c[{b,d}→{e}]=5/4=,c[{e}→{b,d}]=4/5=。 3. (20分)以下是多元回归分析的部分R输出结果。 > ls1=lm(y~x1+x2) > anova(ls1) Df Sum Sq Mean Sq F value Pr(>F) x1 1 *** x2 1 ** Residuals 7 > ls2<-lm(y~x2+x1) > anova(ls2) Df Sum Sq Mean Sq F value Pr(>F) x2 1 ** x1 1 *** Residuals 7 (1)用F检验来检验以下假设(α = H0: β1 = 0 H a: β1≠ 0 计算检验统计量;是否拒绝零假设,为什么 (2)用F检验来检验以下假设(α = H0: β2 = 0 H a: β2≠ 0 计算检验统计量;是否拒绝零假设,为什么 (3)用F检验来检验以下假设(α = H0: β1 = β2 = 0 H a: β1和β2 并不都等于零 计算检验统计量;是否拒绝零假设,为什么 解:(1)根据第一个输出结果F=>F(2,7)=,p<,所以可以拒绝原假设,即得到不等于0。 (2)同理,在α=的条件下,F=>F(2,7)=,p<,即拒绝原假设,得到不等于0。(3)F={(+)/2}/(7)=>F=(2,7)=,即拒绝原假设,得到和并不都等于0。 4. (20分)考虑下面20个观测值: [1] [6] [11] [16]

电子科大数据挖掘作业1-6

数据挖掘课后习题 数据挖掘作业1——6 第一章绪论 1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 1、关系数据库 2、数据仓库 3、事务数据库 4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。 ③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么 样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。

第二章数据仓库和OLAP技术 1)简述数据立方体的概念、多维数据模型上的OLAP操作。 ●数据立方体 数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和 分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据 的多维视图,并允许预计算和快速访问汇总数据。 ●多维数据模型上的OLAP操作 a)上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 b)下卷(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 c)切片和切块(slice and dice) 投影和选择操作 d)转轴(pivot) 立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列 2)OLAP多维分析如何辅助决策?举例说明。 OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询 大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的 变化值,经理通过查询变化值来做决策。 例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追 踪查询可以发现问题并解决 3)举例说明OLAP的多维数据分析的切片操作。 切片就是在某两个维上取一定区间的维成员或全部维成员。 如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产 品的切片)。

数据挖掘概念与技术-课后题答案汇总汇总

数据挖掘——概念概念与技术 Data Mining Concepts and T echniques 习题答案 第1章引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: 1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测 聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据 挖掘功能的例子。 解答: ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓, 这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来 与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一 般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科 学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则 为: major(X, “c omputing science”) owns(X, “personal computer”) [support=12%, c onfid e nce=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学 生拥有一台个人电脑的概率是98%(置信度,或确定度)。 ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的 或无效的、并且通常是数字的数据值。它们的相似性是他们都是预 测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用 是预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测, 这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析 1.3 1.9 列举并描述说明数据挖掘任务的五种原语。 解答: 用于指定数据挖掘任务的五种原语是:

管理信息系统第十章课后题答案

管理信息系统第十章课后题答案 第十章信息系统的管理 10.1信息系统管理的目的是什么?按大致的系统生命阶段划分,相应的管理内容有哪些? 答:项目管理是把系统开发作为一项工程来进行科学管理,用系统工程的方法来进行统筹和协调,目的是使管理人员事先对可能发生的情况作出预测,在问题发生之前及时进行控制和调整,从而使项目管理工作由被动的事后解决变为主动的事前控制,使项目开发工作少出差错、少走弯路,保证经济有效地、保质按时地开发好信息系统。项目管理工作的主要内容包括:1、合理管理和培训人员。2、拟定和实现项目工作计划。3、在开发的每个阶段都应制订相应文件,明确工作目标和职责范围。 10.2专门开发和商品软件购置两类信息系统建设方式的异同点有哪些? 答:不同的人在不同时间、不同情况下,在管理工作的细节做法上可能会有差异,而且也很难用文字表达清楚,因此说管理具有不确定性或结构化程度不高。相应地,管理信息系统的设计上必然带有不确定的内容,系统开发也就具有不确定性。不同的开发方式各有优缺点和适用性,开发方式的选择对信息系统的成败有重要的影响。购置质量好的商品软件可以加快信息系统的开发进度。但由于规范模式的商品软件对组织的变革,尤其是对流程改革有较大的推动力度,这使企业获得成功带来难度,且具有一定的风险。 10.3为什么说系统文档是信息系统的生命线? 答:文档是记录人们思维活动及其结果的图文资料,信息系统的文档是描述系统从无到有整个发展与演变过程及各个状态的图文资料。系统的开发要以文档描述为依据,系统实体的运行与维护更需要文档来支持,因此可以说,系统文档是信息系统必不可少的组成部分,是信息系统的生命线。 10.4请分别就信息系统的安全与保密的意义谈谈你的认识。 管理信息系统课后题答案(1-12章) 1

相关文档
相关文档 最新文档