文档库 最新最全的文档下载
当前位置:文档库 › 数据模型及决策考试复习资料

数据模型及决策考试复习资料

数据模型及决策考试复习资料
数据模型及决策考试复习资料

数据模型及决策考试各类题型复习资料

(仅限参考)

一、建立线性数据模型

1、设某厂有甲、乙、丙、丁四台机床,生产A、B、C、D、E、F六种产品,每种产品都要经过两种机床加工。根据机床性能和以前的生产情况,知道制造每一单位产品机床所需工作时数,每台机床最大工作能力及每种产品的单价如表所示。

问在机床能力许可的条件下,每种产品各应生产多少,才能使这个工厂的生产总值达到最大

?

解:设用x1,x2,…,x6分别表示A,B,…,F六种产品的生产件数,则得到如下的线性规划模型:

max z=0.4x1+0.28x2+0.32x3+0.72x4+0.64x5+0.6x6

S.t. 0.01x1+0.01x2+0.01x3+0.03x4+0.03x5+0.03x6≤850

0.02x1+0.05x4≤700

0.02x2+0.05x5≤100

0.03x3+0.08x6≤900

x j≥0 , j=1,2, …,6

2、某饲料公司用甲、乙两种原料配制饲料,甲乙两种原料的营养成份及配合饲料中所含各营养成份最低量由表1给出。已知单位甲、乙原料的价格分别为10元和20元,求满足营养需要的饲料最小成本配方。

解:设配合饲料中,用甲x1单位,用乙x2单位,则配合饲料的原料成本函数,即决策的目标函数为Z=10x1+20x2。考虑三种营养含量限制条件后,可得这一问题的线性规划模型如下:Min Z=10x1+20x2

x1+x2≥10

3x1+x2≥15

x1+6x2≥15

x1≥0 , x2≥0

3、某农户计划用12公顷耕地生产玉米,大豆和地瓜,可投入48个劳动日,资金360元。生产玉米1公顷,需6个劳动日,资金36元,可获净收入200元;生产1公顷大豆,需6个劳动日,资金24元,可获净收入150元;生产1公顷地瓜需2个劳动日,资金18元,可获净收入1200元,问怎样安排才能使总的净收入最高。

解:设种玉米,大豆和地瓜的数量分别为x1、x2和x3公顷,根据问题建立线性规划问题模型如下:

Max Z=200 x1+150 x2+100 x3

x1+x2+x3≤12 (1)

6x1+6x2+2x3≤48 (2)

36x1+24x2+18x3≤360 (3)

x1≥0,x2≥0,x3≥0

4、某农户有耕地20公顷,可采用甲乙两种种植方式。甲种植方式每公顷需投资280元,每公顷投工6个,可获收入1000元,乙方式每公顷需投资150元,劳动15个工日,可获收入1200元,该户共有可用资金4200元、240个劳动工日。问如何安排甲乙两种方式的生产,可使总收入最大?

解:设甲方式种x1公顷,乙方式种x2公顷,总收入为Z,则有:

Max Z=1000x1+1200x2

280x1+150x2≤4200

6x1+15x2≤240

x1+x2≤20

x1≥0,x2≥0

5、生产计划问题:某厂计划内将安排生产I,II两种产品,已知生产单位重量的产品所需的设备为A及B、C两种原料的消耗如表1所示:

表5.1 生产设备和原料消耗表

生产单位重量的产品I 可获利2万,生产单位重量的产品II 可获利5万。 问:如何安排生产可使工厂获得的利润最多? 模型建立:

第一步,确定决策变量:要求的未知变量是I,II 两种产品的产量,用1x ,2x 分别表示它们;

第二步,确定目标函数:本问题的目标是使工厂获得的利润1225Z x x =+最大; 第三步,确定约束条件:在这个问题中,约束条件是设备及材料的限制,

设备A :1228x x +≤ 材料A :1624x ≤ 材料B :2515x ≤

则这一问题的线性规划模型为:

12max 25Z x x =+

s.t. ???????≥≤≤≤+0

,15524682212121x x x x x x

6、合理下料问题:某厂生产过程中需要用长度分别为3.1米、2.5米和1.7米的同种棒料毛坯分别为200、100和300根,而现在只有一种长度为9米的原料,问应如何下料才能使废料最少?

解 解决下料问题的关键在于找出所有可能的下料方法(如果不能穷尽所有的方法,也应尽量多收集各种可能的下料方法),然后对这些方案进行最佳结合。

对给定的9米长的棒料进行分割,可以有9种切割方法,见表5.2所示。

表5.2 毛坯切割方案表

设用第i 种方法下料的总根数为i x ,则用掉的总根数为129x x x +++ 废料总长度为:

123567890.3 1.10.90.8 1.50.6 1.40.5x x x x x x x x +++++++

约束条件为所需的零件毛坯数量:

1234522200x x x x x ++++= 134678232100x x x x x x +++++= 24578923235300x x x x x x +++++=

由此可得该问题的线性规划模型如下:

12356789min 0.3 1.10.90.8 1.50.6 1.40.5Z x x x x x x x x =+++++++

12345

134678

2457891292220023210023235300,,,0

x x x x x x x x x x x x x x x x x x x x ++++=??+++++=??

+++++=??≥? 由于用掉的总料长度为200 3.1100 2.5300 1.71380?+?+?=,则有废料长度=9?用料根数-1380。

7、合理配料问题:根据对77种食物所含的九种营养物:热量(糖与脂肪)、蛋白质、钙、铁、维生素A 、维生素BI 、维生素B2、草酸与维生素C 的成份及食物的市场价格调查,按照医生所提出的对每个人每天所需的营养要求,可得表

5.3

表5.3 食物营养成分表

问怎样采购食物才能在保证营养要求的前提下花费最省?这就是营养问题或饮食问题,配料问题就是由此而推广来的。

设每天购买甲,乙,丙,丁四种食物的数量分别为1234,,,x x x x ,即可列出如下的线性规划模型:

1234min 0.80.50.9 1.5Z x x x x =+++(总花费最省)

123412341241234100015001750325040000.60.270.680.31..17.57.53030,,,0

x x x x x x x x s t x x x x x x x +++≥??+++≥??++≥??≥?

二、运输问题

例题 某公司经销甲产品。它下设三个加工厂。每日的产量分别是:A 1为7吨,A 2为4吨,A 3为9吨。该公司把这些产品分别运往四个销售点。各销售点每日销量为:B 1为3吨,B 2为6吨,B 3为5吨,B 4为6吨。已知从各工厂到各销售点的单位产品的运价为表5-3所示。问该公司应如何调运产品,在满足各销售点的需要量的前提下,使总运费为最少。

表 5-3 单位运价表

1. 启动程序,点击开始→程序→WinQSB → Network Modeling ,屏幕显示如图5-11所示的网络模型工作界面。

图5-11 网络模型的工作界面

2. 建立新问题或打开磁盘中已有的文件,按点击File →New Problem 或直接点击工具栏的按钮

建立新问题,屏幕上出现如图5-12所示的问题选项输入界面。

图5-12建立新运输问题

此处问题类型(Problem Type)共有7种:

⑴Network Flow 网络流问题

⑵Transportation Problem 运输问题

⑶Assignment Problem 指派问题

⑷Shortest Path Problem 最短路问题

⑸Maximal Flow Problem 最大流问题

⑹Minimal Spanning Tree 最小支撑树问题

⑺Travel Salesman Problem 旅行销售员问题(中国邮递员问题)

输入运输问题在此处应当选⑵Transportation Problem。本例中有三个生产点(Number of Sources)和四个销售点(Number of Destinations),也在此处输入。本例为求最小运费,所以在Objective Criterion(目标函数标准)中选择Minimization。此外,数据输入格式Data Entry Format可以选择电子表格模式(Spreadsheet Matrix Form)与图形模式(Graphic Model Form)。

3. 输入数据。在选择数据输入格式时,选择Spreadsheet Matrix Form则以电子表格矩阵形式输入单位运价系数矩阵和各地产量与销量,是固定格式,如表5-4所示。

表5-4电子表格矩阵形式输入数据

数据输入方法与其它规划问题输入数据时相同,请参看实验二的相应内容。另外,数据输入后,如果需要修改、增减等处理,也可以实现,同样请参看实验二中的相关内容。

4. 求解模型。

点击菜单栏Solve and Analyze,下拉菜单有四个选项:

①直接求解(Solve the Problem)、

②用网络图形式求解并显示求解步骤(Solve and Display Steps-Network)、

③用表上作业法求解并显示求解步骤(Solve and Display Steps-Tableau)

④选择求初始解的方法(Select Initial Solution Method)。

本例可以先选择求初始解的方法,具体过程参看 5.4.2相关内容。可以选择伏格尔法

(Vogel’s Approximation Method)来求解初始解。点击OK后,即可进入下面的计算过程。

以下可以选择①、②、③三种方法来求解这个运输问题的最优解。

(1)直接求最优解。选择Solve the Problem或直接点击工具栏上的,系统直接显示求解的综合报告如表5-5所示,表中的各项含义见常见术语表5-9。

表5-5 最优解综合报告表

本例得到最小运费支出为85,运输方案见表5-5。

(2)用网络图形式求解并显示求解步骤。用网络图形式分步求解可以明确每一步的优化结果。选择Solve and Analyze→Solve and Display Steps-Network,系统显示网络图形解题第一步的求解结果,如图5-13所示。

图5-13Graphic Solution—Iteration 1

继续选择Iteration→Next Iteration或点击工具栏,得到第二步的求解结果,如图5-14所示。

图5-14Graphic Solution—Iteration 2

虽然只进行了两步运算,但由于选择了伏格尔法寻找初始解,第二步显示的结果已是最终结果(Final)了,再次选择Iteration→Next Iteration或点击工具栏,即可得到表格式的求解结果,如表5-3所示。

(3)用表上作业法求解并显示求解步骤。点击Solve and Analyze→Solve and Display Steps-Tableau,软件将用表上作业法求解问题。第一步得到如图5-15的结果。

图5-15Transportation Tableau —Iteration 1

这里得到了一个目标函数值86,即运费,但它还不是最小运费,图5-15中显示了对

运量的调整,即将Source 2运到Destination 3的运量1转运到Destination 1,其周边运量也相应调整,运费还能下降。继续选择Iteration→Next Iteration或点击工具栏,得到第二步的求解结果,如图5-16所示。

图5-16Transportation Tableau —Iteration 2

第二步显示的结果已是最终结果(Final)了,再次选择Iteration→Next Iteration或点击工具栏,即可得到表格式的求解结果,如表5-5所示。

至此,本运输问题求解完毕,最小运费为85。

1.用WinQSB软件求解下列运输问题的最优解:

※运输问题的解法表上作业法

一、解题步骤

第1步:用西北角法或最小元素法确定初始基本可行解。

第2步:位势法求非基变量的检验数(解的最优性检验),若最优准则σij≥0,则当前解最优,计算停止,否则转第3步。

第3步:取一个检验数最小的非基变量做进基变量。

第4步:用闭回路法调整当前基本可行解,转第2步

1. 确定初始基本可行解(初始调运方案)

例某公司生产糖果,它有三个加工厂A1,A2,A3,每月产量分别为7t,6t,5t,6t。已知从第i个加工厂到第j个销售店的每吨糖果的运价Cij见表,试设计在满足各销售店需求量的前提下,各加工厂到各销售店的每月调运方案,使总的运费最小。

运价表

A 西北角法

B 最小元素法

2.解的最优性判别(位势法,也称对偶变量法)

3.用闭回路法调整当前基可行解

二、表上作业法计算中的几个问题

1、某个基本可行解有几个非基变量的检验数为负

若运输问题的某个基可行解有几个非基变量的检验数均为负,在继续进行迭代时,取它们中的任一变量均可使目标函数值得到改善,但通常取σij<0中最小者对应的变量为换入变量。

2、无穷多个最优解

当迭代到运输问题的最优解时,如果有某非基变量的检验数=0,则说明该运输问题有无穷多最优解。(如上例,为得到另一个最优解,只需让σij=0的非基变量进基)

3、退化问题

当运输问题某部分产地的产量和与另一部分销地的销量和相等时,在迭代过程中有可能在某个格填入一个运量时需同时划去运输表的一行和一列,这时就出现了退化。

在运输问题中,退化解是时常发生的,为了使表上作业法的迭代工作进行下去,退化解应在同时划去的一行或一列中的某个空格中填入数字0,表示这个格中的变量是取值为0的基变量,使迭代过程中基可行解的分量恰好为m+n-1个。

b.在用闭回路法调整当前基本可行解时,调整量θ的取值应为θ=min{x ij/( i,j )为闭回路上所有偶数号格点}。这时可能出现有两个(或以上)偶数号格点的xij都相等且都为极小值,只能取其中一个为离基格,其余的仍作为基格,而在作运输量调整时,运输量与θ相等的那些偶数号格点的x ij都将调整为0,因此得到的也是一个退化了的基可行解。

三、总销量大于总产量

例1 某市有三个造纸厂A1,A2,A3,其纸产量分别为8,5,9个单位,有4个集中用户B1,B2,B3,B4,其需用量为4,3,5,6个单位,由各厂到各用户的单位运价如表所示,试确

定总运费最小的调运方案。

例2 较为复杂的产销不平衡问题

设有三个化肥厂供应四个地区的农用化肥,假设每个地区使用各厂的化肥效果相同,各化肥厂的年产量,各地区的需求量以及它们之间的单位运价如表,求总运费最少的化肥调运方案。

分析:

(1)这是一个产销不平衡的运输问题,总产量为160万吨,四个地区的最低需求为110万吨,最高需求为无限.

根据现有产量及Ⅰ,Ⅱ,Ⅲ地区的最低需求,第Iv个地区每年最多能分配到(50+60+50)-(30+70+0)=60万吨,这样四个地区的最高需求为50+70+30+60=210万吨,大于总产量.

(2)为了求得平衡,在产销平衡表中增加一个假想的化肥厂D,其年产量为210-160=50万吨.

(3)由于各地区的需要量包含两部分,最低需求和额外需求。如地区Ⅰ,其中30万吨是最低需求,故不能由假想化肥厂D供给,令相应运价为M(任意大正数).而另一部分20万吨满足或不满足均可以,因此可以由假想化肥厂D供给,按前面讲的,令相应运价为0。这样,凡是需求分两种情况的地区,实际上可按照两个地区看待.这样可以写出这个问题的产销平衡表(表3—26)和单位运价表(表3—27).

产销平衡表

单位运价表

两个表也可以合在一起写。

根据表上作业法计算,可以求得这个问题的最优方案如下:

应用举例

例1 某厂按合同规定须于当年每个季度末分别提供10,15,25,20台同一规格的柴油机.已知该厂各季度的生产能力及生产每台柴油机的成本如表所示.又如果生产出来的柴油机当季不交货的,每台每积压一个季度需储存、维护等费用0.15万元.要求在完成合同的情况下,做出使该厂全年生产(包括储存、维护)费用最小的决策.

解: 由于每个季度生产出来的柴油机不一定当季交货,所以设xij为第i季度生产的用于第j 季度交货的柴油机数.

根据合同要求,必须满足:

又每季度生产的用于当季和以后各季交货的柴油机数不可能超过该季度的生产能力,故又有:

第i季度生产的用于j季度交货的每台柴油机的实际成本Cij应该是该季度单位成本加上储存、维护等费用.Cij的具体数值见表

设用a i表示该厂第i季度的生产能力,bj表示第j季度的合同供应量,则问题可写成:

因为当j

所以当j

此外,由于是产量大于销量的不平衡问题,∴加上一个假想的需求D,就可以把问题变成产销平衡的运输模型,并写出产销平衡表和单位运价表(合在一起,如下)

经用表上作业法求解,可得多个最优方案,表3—32中列出最优方案之一.即第1季度生产25台,10台当季交货,15台Ⅱ季度交货;Ⅱ季度生产5台.用于Ⅲ季度交货;Ⅲ季度生产30台,其中20台于当季交货,10台于Ⅳ季度交货Ⅳ季度生产10台,于当季交货.按此方案生产,该厂总的生产(包括储存、维护)的费用为773万元.

例2 某航运公司承担六个港口城市A、B、C、D、E、F的四条固定航线的物资运输任务.已知(1)各条航线的起点、终点城市及每天航班数.(2)假定各条航线使用相同型号的船只,又已知各城市间的航程天数.(3)又知每条船只每次装卸货的时间各需1天。问该航运公司至少应配备多少条船,才能满足所有航线的运输需求?

每天航班数表

各城市之间的航程天数

解:该公司所需配备船只分两部分:(1)载货航程需要的周转船只数。例如航线l,在港口E装货1天,E—D航程l 7天,在D卸货1天,总计19天.每天3航班,故该航线周转船只需57条.各条航线周转所需船只数见表.以上累计共需周转船只数91条.

(2)各港口间调度所需船只数.有些港口每天到达船数多于需要船数.例如港口D,每天到达3条,需求1条;而有些港口到达数少于需求数,例如港口B.各港口每天余缺船只数的计算见表.

为使配备船只数最少,应做到周转的空船数为最少.因此建立以下运输问题,其产销平衡表见表.

单位运价表应为相应各港口之间的船只航程天数,见表

用表上作业法求出空船的最优调度方案见表

另一最优解为x CA=1,x CE=1,x DB=1,x DE=1,x FE=1

按这两个方案掉运船只,解得Z=40,说明各港口之间调度所需船只至少为40艘。

综合以上两方面的要求,在不考虑维修、储备等情况下,该公司至少配备131条船,才能满足4条航线正常运输的需要。

练习题:

1、求解下表所示的运输问题,分别用最小元素法、西北角法和伏格尔法给出初始基可

2、由产地发向销地的单位费用如下表,产地允许存贮,销地允许缺货,存

3

(1)若要总运费最少,该方案是否为最优方案?

(2)若产地Z的供应量改为100,求最优方案。

(1)求最优运输方案,该最优方案有何特征?

(2)当A1的供应量和B3的需求量各增加2时,结果又怎样?

5、某玩具公司分别生产三种新型玩具,每月可供量分别为1000、2000、2000件,它们分别被送到甲、乙、丙三个百货商店销售。已知每月百货商店各类玩具预期销售量均为1500件,由于经营方面原因,各商店销售不同玩具的盈利额不同,见下表。又知丙百货商店要求至少供应C玩具1000件,而拒绝进A玩具。求满足上述条件下使总盈利额最大的供销分配方案。

甲乙丙可供量

A 5 4 -1000

B 16 8 9 2000

C 12 10 11 2000

6、目前,城市大学能存贮200个文件在硬盘上,100个文件在计算机存贮器上,300个文件在磁带上。用户想存贮300个字处理文件,100个源程序文件,100个数据文件。每月,一个典型的字处理文件被访问8次,一个典型的源程序文件被访问4次,一个典型的数据文件被访问2次。当某文件被访问时,重新找到该文件所需的时间取决于文件类型和存贮介质,如下表。

时间(分钟)处理文件源程序文件数据文件

硬盘 5 4 4

存贮器 2 1 1

磁带10 8 6

如果目标是极小化每月用户访问所需文件所花的时间,请构造一个运输问题的模型来决定文件应该怎么存放并求解。

7、已知下列五名运动员各种姿势的游泳成绩(各为50米)如表5-2:试用运输问题的方法来决定如何从中选拔一个参加200混合泳的接力队,使预期比赛成绩为最好。

(1)写出a,b,c,d,e的值,并求出最优运输方案;

(2)A3到B1的单位运费满足什么条件时,表中运输方案为最优方案。

9、甲、乙两个煤矿分别生产煤500万吨,供应A、B、C三个电厂发电需要,各电厂用量分别为300、300、400万吨。已知煤矿之间、煤矿与电厂之间以及各电厂之间相互距离(单位:公里)如下列三个表所示。又煤可以直接运达,也可经转运抵达,试确定从煤矿到各电厂间煤的最优调运方案(最小总吨公里数)。

从到甲乙从到 A B C 从到 A B C

甲0 120 甲150 120 80 A 0 70 100

乙100 0 乙60 160 40 B 50 0 120

C 100 150 0

三、指派问题

例题有一份中文说明书,需译成英、日、德、俄四种文字。分别记作E、J、G、R。现有甲、乙、丙、丁四人。他们将中文说明书翻译成不同语种的说明书所需时间如表5-6所示。问应指派何人去完成何工作,使所需总时间为最少?

表5-6

1. 启动程序,点击开始→程序→WinQSB→Network Modeling,屏幕显示如图5-11所示的网络模型工作界面。

2. 建立新问题或打开磁盘中已有的文件,按点击File→New Problem或直接点击工具栏的按钮建立新问题,屏幕上出现如图5-17所示的问题选项输入界面。

图5-17建立新指派问题

输入指派问题在此处应当选Assignment Problem。本例中有四项任务(Number of Objects)和四个翻译(Number of Assignments),也在此处输入。本例为求最少翻译时间,所以在Objective Criterion(目标函数标准)中选择Minimization。此外,数据输入格式Data Entry Format可以选择电子表格模式(Spreadsheet Matrix Form)与图形模式(Graphic Model Form)。

3. 输入数据。在选择数据输入格式时,选择Spreadsheet Matrix Form则以电子表格矩阵形式输入各人翻译成不同语种的说明书所需的时间,如表5-7所示。

表5-7电子表格形式输入指派问题数据

4. 求解模型。

点击菜单栏Solve and Analyze,下拉菜单有四个选项:

①直接求解(Solve the Problem)、

②用网络图形式求解并显示求解步骤(Solve and Display Steps-Network)、

③用表上作业法求解并显示求解步骤(Solve and Display Steps-Tableau)

④选择求初始解的方法(Select Initial Solution Method)。

以下可以选择①、②、③三种方法来求解这个运输问题的最优解。

(1)直接求最优解。选择Solve the Problem或直接点击工具栏上的,系统直接显示求解的综合报告如表5-8所示,表中的各项含义见常见术语表5-9。

表5-8 指派问题最优解综合报告表

本例得到最少花费时间为28,具体指派方案见表5-8。

(2)用网络图形式求解并显示求解步骤。用网络图形式分步求解可以明确每一步的优化结果。选择Solve and Analyze Solve and Display Steps-Network,系统显示网络图形解题第一步的求解结果,如图5-18所示。

图5-18Graphic Solution—Iteration 1

继续选择Iteration→Next Iteration或点击工具栏,得到第二步的求解结果,如图5-19所示。

图5-19Graphic Solution—Iteration 2

此时,第二步显示的结果已是最终结果(Final)了,再次选择Iteration→Next Iteration 或点击工具栏,即可得到表格式的求解结果,如表5-8所示。

(3)用表上作业法求解并显示求解步骤。具体方法与运输例题基本一致,此处略。

2.用WinQSB软件求解下列指派问题:

①四个工人指派四项工作,下表为每人做各项工作所消耗的时间,问应如何分配,

才能使总的消耗时间为最少。

② 有5人去做5项工作,每人做各项工作的能力评分见下表。应如何分派,才能使总的得分为最大?

※ 指派问题的匈牙利解法

1、把各行元素分别减去本行元素的最小值;然后在此基础上再把每列元素减去本列中的最小值。

???????

? ??????????? ??0 4 3 2 04 0 5 0 01 2 3 2 03 7 7 1 08 11 0 3 06 10 12 9 610

6 14

7 67

8 12

9 610 14 17 9 712 15

7 8 4

此时每行及每列中肯定都有0元素了。 2、 确定独立零元素,并作标记。

(1)、首先逐行判断是否有含有独立0元素的行,如果有,则按行继续处理;如没有,则要逐列判断是否有含有独立0元素的列,若有,则按列继续处理。若既没有含有独立0元素的行,也没有含有独立0元素的列,则仍然按行继续处理。

(2)在按行处理时,若某行有独立0元素,把该0元素标记为a ,把该0所在的列中的其余0元素标记为b ;否则,暂时越过本行,处理后面的行。把所有含有独立0元素的行处理完毕后,再回来处理含有2个以及2个以上的0元素的行:任选一个0做a 标记,再把该0所在行中的其余0元素及所在列中的其余0元素都标记为b 。

(3)在按列处理时,若某列有独立0元素,把该0元素标记为a ,把该0所在的行中的其余0元素标记为b ;否则,暂时越过本列,处理后面的列。把所有含有独立0元素的列处理完毕后,再回来处理含有2个以及2个以上的0元素的列:任选一个0做a 标记,再把该0所在列中的其余0元素及所在行中的其余0元素都标记为b 。 (4)、重复上述过程,即得到独立零元素(标记a 的“0”)

??????

?

? ??a b b a b b a 0 4 3 2 04 0 5 0 01 2 3 2 03

7 7 1 08 11 0 3 0a b 3、 若独立零元素等于矩阵阶数,则已经得到最优解,若小于矩阵阶数,则继续以下步骤:

(1)、对没有标记a 的行作标记c

数据模型与决策试题

山东大学管理学院秋季MBA2011级(石家庄班) 数据、模型与决策试题2012年6月 1.(10分)线性回归模型是否满足假设要通过哪几个方面来检验?每个方面的含义是什么?根据什么指标或图形来检验好坏? 2.(15分)以下结果是应用什么软件的什么方法计算输出的,简述软件操作过程。并从结果中分析计算过程、各部分数据的意义及最后的方程(T值除外)。 --------------------------------------------------------------- XXXX: EARN 与 SIZE, EMPL, ... 入选用 Alpha: 0.05 删除用 Alpha: 0.1,响应为 14 个自变量上的 EARN,N = 50 步骤 1 2 3 4 5 常量 11.85 -348.99 -413.26 -403.41 -368.55 P45 0.0351 0.0321 0.0304 0.0321 0.0319 T 值 5.94 6.65 7.43 9.46 10.00 P 值 0.000 0.000 0.000 0.000 0.000 INC 11.9 12.9 10.3 10.3 T 值 5.11 6.55 5.98 6.34 P 值 0.000 0.000 0.000 0.000 NREST 1.29 1.43 1.40 T 值 4.49 5.96 6.22 P 值 0.000 0.000 0.000 SIZE 0.54 0.56 T 值 4.76 5.27 P 值 0.000 0.000 PRICE -2.13 T 值 -2.61 P 值 0.012 S 67.4 54.6 46.0 37.9 35.7 R-Sq 42.33 62.90 74.21 82.85 85.15 R-Sq(调整) 41.13 61.32 72.53 81.32 83.47 Mallows Cp 120.5 63.1 32.5 9.5 4.9 ------------------------------------------------------------------------------- 3.(20分)桑杰伊·托马斯(Sanjay Thomas)是斯隆管理学院的二年级MBA学生。作为上学期有关企业家课程设计的一部分,桑杰伊实际上已经对东海岸城市具有印度烹调风格的饭店的样本进行了概率分析,并首先对他婶婶的饭店进行了分析。在调整了有关波士顿地区的标准生活费用的数据以后,桑杰伊利用这些资料制定了温馨小扁豆饭店的成本和收入的标准。这些数据是基于饭店位于哈佛广场,拥有50个座位,并贷款进行了饭店的内部结构装修,以及租赁了饭店的所有资本性设备。桑杰伊估计经营温馨小扁豆饭店每月的非劳动固定成本是3995美元。他还估计了食品的可变成本是每餐为11美元。在饭店事务的许多不确定因素中,有三种不确定变量在概率等式中趋向于起主导作用:每月销售膳食的数量,每餐饭的收入,以及饭店的(固定)劳动力成本。根据他与许多饭店业主的交流,桑杰伊能够估计这三个关键性的不确定变量的实际分布,这些变量如下: ----销售膳食的数量。像温馨小扁豆饭店这样坐落于哈佛广场,并拥有50个座位容量的饭店,每月销售的膳食数量将服从一个均值为μ=3 000和标准离差为σ=1 000 的正态分布。

《数据挖掘》试题与标准答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2.时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

武汉大学MBA《数据模型与决策》往年试题

经济与管理学院 Economics and Management School of Wuhan University ×××级×××班《数据、模型与决策》试题 出题人:刘 伟 考试形式:闭卷 考试时间:2007年7月×日 120分钟 姓名_______ 学号_______ 记分_______ 一、名词解释及简答题(各题5分) 1、众数 2、直方图 3、变异系数 4、相关系数 5、虚拟变量 6、置信区间 7、最小二乘(平方)法 8、线性回归模型 9、多重共线性 10、完全多重共线性 11、不完全多重共线性 12、虚拟变量模型 13、总体回归函数 14、何为虚变量回归模型?为什么将虚变量值设为取 0、1 ? 15、回归方程的显著性检验与回归系数的显著性检验什么区别与联系? 16、在回归方程的最小二乘法估计中,对回归模型有哪些基本假设? 17、回归方程的显著性检验与回归系数的显著性检验什么区别与联系? 18、为什么从计量经济学模型得到的预测值不是一个确定的值?预测值的置信区间和置 信度的含义是什么?在相同的置信度下如何才能缩小置信区间? 19、影子价格 20、对偶规划 21、模型 22、约束条件 23、目标函数 24、决策变量 25、协方差 26、拟合优度检验 二、计算题(各题10分) 1、500家美国公司1993年底的平均资产为11270(单位:百万美元),标准差为2780(百万美元)。这些公司的平均价格收益比为31,标准差为8。请问哪一个指标的差异大? 2、有一种电子元件,要求其使用寿命不得低于1000小时,现抽25件,测 得其均值950小时,方差为900小时。已知该种元件寿命服从正态分布, (1)写出该种电子元件使用寿命的置信区间,取α=005.; (2)若已知使用寿命的标准差σ=100,写出该种电子元件使用寿命的 置信区间,取α=005.;在 α=005.下,且已知σ=100这批元件合格否? 3、某商店的日销售额服从正态分布,据统计去年的日均销售额是2.74万元, MBA

数据挖掘考试题目——简答题

数据挖掘考试题目——简答题 (1)什么是数据挖掘?什么是知识发现? 答:数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。 知识发现是将未加工的数据转换为有用信息的整个过程。 (2)数据挖掘要解决的问题包括哪五项? 答:可伸缩、高维性、异种数据和复杂数据、数据的所有权与分布、非传统的分析。 (3)数据的属性分别包括哪几种类型?分别可执行什么操作? 答: 标称(nomial)相异性序数(ordinal) 区间(interval) 比率(ratio) =和≠ 序<、≤、>、≥加法+、- 乘法×、÷ (4)数据中遗漏值的处理策略包括哪几种? 答:1、删除数据对象或属性,如遗漏数据对象很少 2、估计遗漏值,如插值或最近邻法 3、在分析时忽略遗漏值,如忽略属性计算相似度 (5)数据预处理的工作可以包括哪两类? 答:1、选择分析所需要的数据对象和属性 2、创建或改变属性 (6)聚集的目的是什么? 答:1、数据约减 2、改变尺度 3、提高数据的稳定性 (7)有效抽样的定义是什么? 答:1、如果样本是有代表性的,则使用样本与使用整个数据集的效果几乎一样 2、样本具有足够的代表性的前提是它近似地具有与原数据集相同的感兴趣的性质 (8)维归约的目的是什么? 答:1、避免维灾难 2、减少数据挖掘算法的时间与空间开销 3、便于模型的理解与数据的可视化 4、删除无关特征并降低噪声 (9)特征子集的选择方法中,除了基于领域知识和穷举法,还包括三种方法?请列举并简要说明

答:1、嵌入法:特征子集选择算法作为数据挖掘算法的一部分自然存在 2、过滤法:使用某种独立于数据挖掘任务的方法,在数据挖掘算法运行前进行特征选择 3、包装法:将目标数据挖掘算法作为黑盒,使用类似理想算法的方法,但并不枚举所有可能 (10)当满足什么性质时,距离可以称为度量? 答:1、非负性,d(p, q) >=0 ,当且仅当p = q时d(p, q) = 0 2、对称性,d(p, q) = d(q, p) 3、三角不等式:d(p, r) <=d(p, q) + d(q, r) 同时满足以上三个性质的距离称为度量。 (11)简述Apriori算法的优点和缺点。 答:Apriori算法的优点:结构简单、易于理解。 Apriori算法的缺点:产生大量的候选项集,I/O开销较大。 (12)简述构造FP树时第一步通常必须要做什么,为什么? 答:第一步就是扫描一次数据集,确定每个项的支持度计数。丢弃非频繁项,而将频繁项按照支持度递减排序。这样做的目的是最大限度的压缩数据,要不树就会比较茂盛,则达不到计算优化的目的。 (13)簇评估的主要任务是什么。 答:①确定数据集的聚类趋势。 ②确定正确的簇个数。 ③不引用附加的信息,评估聚类分析结果对数据的拟合情况。 ④将聚类分析结果与已知的客观结果比较。 ⑤比较两个簇集,确定哪个更好。 (14)写出K均值算法的优缺点。 答:优点:(1)可以用于各种数据类型 (2)有效 缺点:(1)不能处理非球形簇、不同尺寸和不同密度的簇 (2)离群点的数据进行聚类时,K均值也存在一定问题

数据挖掘考试题库【最新】

一、填空题 1.Web挖掘可分为、和3大类。 2.数据仓库需要统一数据源,包括统一、统一、统一和统一数据特征 4个方面。 3.数据分割通常按时间、、、以及组合方法进行。 4.噪声数据处理的方法主要有、和。 5.数值归约的常用方法有、、、和对数模型等。 6.评价关联规则的2个主要指标是和。 7.多维数据集通常采用或雪花型架构,以表为中心,连接多个表。 8.决策树是用作为结点,用作为分支的树结构。 9.关联可分为简单关联、和。 10.B P神经网络的作用函数通常为区间的。 11.数据挖掘的过程主要包括确定业务对象、、、及知识同化等几个步 骤。 12.数据挖掘技术主要涉及、和3个技术领域。 13.数据挖掘的主要功能包括、、、、趋势分析、孤立点分析和偏 差分析7个方面。 14.人工神经网络具有和等特点,其结构模型包括、和自组织网络 3种。 15.数据仓库数据的4个基本特征是、、非易失、随时间变化。 16.数据仓库的数据通常划分为、、和等几个级别。 17.数据预处理的主要内容(方法)包括、、和数据归约等。 18.平滑分箱数据的方法主要有、和。 19.数据挖掘发现知识的类型主要有广义知识、、、和偏差型知识五种。 20.O LAP的数据组织方式主要有和两种。 21.常见的OLAP多维数据分析包括、、和旋转等操作。 22.传统的决策支持系统是以和驱动,而新决策支持系统则是以、建 立在和技术之上。 23.O LAP的数据组织方式主要有和2种。 24.S QL Server2000的OLAP组件叫,OLAP操作窗口叫。 25.B P神经网络由、以及一或多个结点组成。 26.遗传算法包括、、3个基本算子。 27.聚类分析的数据通常可分为区间标度变量、、、、序数型以及混合 类型等。 28.聚类分析中最常用的距离计算公式有、、等。 29.基于划分的聚类算法有和。

运筹学 数据模型与决策教材习题答案

教材习题答案 1.2 工厂每月生产A 、B 、C 三种产品 ,单件产品的原材料消耗量、设备台时的消耗量、资源限量及单件产品利润如表1-22所示. 和130.试建立该问题的数学模型,使每月利润最大. 【解】设x 1、x 2、x 3分别为产品A 、B 、C 的产量,则数学模型为 1231231 23123123max 1014121.5 1.2425003 1.6 1.21400 150250260310120130,,0 Z x x x x x x x x x x x x x x x =++++≤??++≤??≤≤?? ≤≤??≤≤?≥?? 1.3 建筑公司需要用6m 长的塑钢材料制作A 、B 两种型号的窗架.两种窗架所需材料规格及数量 如表1-23所示: 【解】 设x j (j =1,2,…,14)为第j 种方案使用原材料的根数,则 (1)用料最少数学模型为

14 1 12342567891036891112132347910121314 min 2300322450 232400 23234600 0,1,2,,14 j j j Z x x x x x x x x x x x x x x x x x x x x x x x x x x x x x j ==?+++≥? ++++++≥?? ++++++≥??++++++++≥??≥=?∑ 用单纯形法求解得到两个基本最优解 X (1)=( 50 ,200 ,0 ,0,84 ,0,0 ,0 ,0 ,0 ,0 ,200 ,0 ,0 );Z=534 X (2)=( 0 ,200 ,100 ,0,84 ,0,0 ,0 ,0 ,0 ,0 ,150 ,0 ,0 );Z=534 (2)余料最少数学模型为 13413141234256789103689111213 2347910121314 min 0.60.30.70.40.8230032245023240023234600 0,1,2,,14 j Z x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x j =+++++?+++≥? ++++++≥??++++++≥??++++++++≥??≥=? 用单纯形法求解得到两个基本最优解 X (1)=( 0 ,300 ,0 ,0,50 ,0,0 ,0 ,0 ,0 ,0 ,200 ,0 ,0 );Z=0,用料550根 X (2)=( 0 ,450 ,0 ,0,0 ,0,0 ,0 ,0 ,0 ,0 ,200 ,0 ,0 );Z=0,用料650根 显然用料最少的方案最优。 1.7 图解下列线性规划并指出解的形式: (1) 12 121212 max 2131,0Z x x x x x x x x =-++≥?? -≥-??≥? 【解】最优解X =(1/2,1/2);最优值Z=-1/2

数据-模型与决策练习题含答案

1、某企业目前的损益状况如在下: 销售收入(1000件×10元/件) 10 000 销售成本: 变动成本(1000件×6元/件) 6 000 固定成本 2 000 销售和管理费(全部固定) 1 000 利润 1 000 (1)假设企业按国家规定普调工资,使单位变动成本增加4%,固定成本增加1%,结果将会导致利润下降。为了抵销这种影响企业有两个应对措施:一是提高价格5%,而提价会使销量减少10%;二是增加产量20%,为使这些产品能销售出去,要追加500元广告费。请做出选择,哪一个方案更有利? (2)假设企业欲使利润增加50%,即达到1 500元,可以从哪几个方面着手,采取相应的措施。 2、某企业每月固定制造成本1 000元,固定销售费100元,固定管理费150元;单位变动制造成本6元,单位变动销售费0.70元,单位变动管理费0.30元;该企业生产一种产品,单价10元,所得税税率50%;本月计划产销600件产品,问预期利润是多少?如拟实现净利500元,应产销多少件产品? 3、某企业生产甲、乙、丙三种产品,固定成本500000元,有关资料见下表(单位:元): 要求: (1)计算各产品的边际贡献; (2)计算加权平均边际贡献率; (3)根据加权平均边际贡献率计算预期税前利润。 4、某企业每年耗用某种材料3 600千克,单位存储成本为2元,一次订货成本25元。则经济订货批量、每年最佳订货次数、最佳订货周期、与批量有关的存货总成本是多少? 5.有10个同类企业的生产性固定资产年平均价值和工业总产值资料如下:

(1)说明两变量之间的相关方向; (2)建立直线回归方程; (3)估计生产性固定资产(自变量)为1100万元时总产值(因变量)的可能值。 6、某商店的成本费用本期发生额如表所示,采用账户分析法进行成本估计。 首先,对每个项目进行研究,根据固定成本和变动成本的定义及特点结合企业具体情况来判断,确定它们属于哪一类成本。例如,商品成本和利息与商店业务量关系密切,基本上属于变动成本;福利费、租金、保险、修理费、水电费、折旧等基本上与业务量无关,视为固定成本。 其次,剩下的工资、广告和易耗品等与典型的两种成本性态差别较大,不便归入固定成本或变动成本。对于这些混合成本,要使用工业工程法、契约检查法或历史成本分析法,寻找一个比例,将其分为固定和变动成本两部分。 7、某企业每年耗用某种材料3 600千克,单位存储成本为2元,一次订货成本25元。 则经济订货批量、每年最佳订货次数、最佳订货周期、与批量有关的存货总成本是多少? 8、某生产企业使用A零件,可以外购,也可以自制。如果外购,单价4元,一次订

数据挖掘考试复习资料

数据挖掘考试复习资料 一、名词解释 1、数据仓库:面向主题的、集成的、非易失的、是随时间变化的数据集合, 用来支持管理决策。 2、聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被 称为聚类 3、数据挖掘:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先 前未知的和可能有用的模式或知识 4、人工神经网络:人工神经网络是一种应用类似于大脑神经突触联接的结构 进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。 5、文本挖掘:文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的 信息和知识的计算机处理技术 6、OLAP:又称联机分析处理,是使分析人员、管理人员或执行人员能够从 多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业为特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 定义1:OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入地观察。 定义2:OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业“维”特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。) 7、概念描述:就是对目标类对象的内涵进行描述,并概括这类对象的有关特 征。特征化:提供给定数据汇集的简洁汇总 比较:提供两个或多个数据汇集的比较描述 8、信息熵:在信息论中,熵被用来衡量一个随机变量出现的期望值。它代表 了在被接收之前,信号传输过程中损失的信息量,又被称为信息熵。信息熵也称信源熵、平均自信息量。

数据挖掘考试题

数据挖掘考试题 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 (单链) (全链) C.组平均方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) 均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇 C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇

C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 9.下列( )是属于分裂层次聚类的方法。 Average 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并 D. {2,3}和{4,5}形成簇和{3}合并 二.填空题: 1.属性包括的四种类型:、、、。 2.是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。 3. 基本凝聚层次聚类算法空间复杂度,时间复杂度,如果某个簇到其他所有簇的距离存放在一个有序表或堆中,层次聚类所需要的时间复杂度将为。 4. 聚类中,定义簇间的相似度的方法有(写出四 个):、、、。 5. 层次聚类技术是第二类重要的聚类方法。两种层次聚类的基本方 法:、。 6. 组平均是一种界于和之间的折中方法。

2014年7月江苏省高等教育自学考试30447数据、模型与决策试题

2014年7月江苏省高等教育自学考试30447数据、模型与决策一、单项选择题(每小题1分,共10分) 在下列每小题的四个备选答案中选出一个正确答案,并将其字母标号填入题干的括号内。1.运用数据模型开展定量分析,其根本目标是( ) A.管理决策B.数量分析C.理论指导D.科学管理 2.主要为搜集某一时点或一定时期内现象总量资料而专门组织的、一次性全面调查称为( ) A.抽样调查B.实验设计C.普查D.参与观察 3.从总体N个单位中抽取n个单位组成样本时,保证每一个单位被抽出来的概率相等,这种抽样方法叫做( ) A.等距抽样B.简单随机抽样C.分层抽样D.整群抽样 4.把非定量的文献史料、语言习惯等带有特征的因素设法转化成可以量化处理的数据,然后对这些数据进行定量分析并做出判断的方法叫做( ) A.内容分析法B.间接调查法C.判断调查法D.阶段抽样调查 5.语义上表现出明显的等级或顺序关系的定类资料,称为( ) A.定量资料B.定类数据C.调查资料D.定序资料 6.各个组中的频数与所有组频数之和的比率叫做( ) A.累积频数B.频率C.频数D.累积频率 7.观察值之间的差异程度或频数分布的分散程度,称为( ) A.集中趋势B.离散趋势C.方差D.极差 8.从总体N个单位中抽取n个单位作为样本,每次从总体中抽取一个单位,凡是被抽中的单位不再放回到原来的总体中,接下来抽选的样本单位,只是从剩下的总体单位中进行抽取,这种抽样方式叫做( ) A.不重复抽样B.简单抽样C.随机抽样D.双相抽样 9.EXCEL中,拟合优度系数计算的函数是( ) A.INTERCEPT B.SLOPE C.RSQD.LINEST 10.在单因素等重复实验中,因素影响的均方为0.2986、误差影响均方0.0472,则F统计量的值是( ) A.0.1581 B.0.2514 C.0 3458 D.6.3263 二、填空题(每小题1分,共10分) 11.从定量角度研究管理问题,是主要工具。 12.先从总体中随机抽取一个较大的样本,获得第一重样本,然后再从第一重样本中随机抽取一个较小的样本即第二重样本,利用这第一二重样木,对研究目标进行统计推断,这种抽样组织方式叫做。 13.在单因素不等重复实验中,因素影响的均方6889.13、实验误差影响均方1408.97,则统计量的值是。 14.相比于定距资料,定比资料拥有。 15.均匀分布的离散程度最大,因此若的计算结果越大,意味着频数分布的离散程度也越大。16.X1,X2,…,X n为f(x;θ)的一个简单随机样本,θ是总体参数,由样本确定的估计量为1=1(X1,X2,…,X n)和2=2(X1,X2,…,X n),对于给定的α(0<α<1),能使P(1≤θ≤2)=1-α成立,则称1-α为。 17.在若干个能够互相比较的资料组中,把产生变异的原因加以明确区分的方法和技术叫做。18.多元回归分析中,拟合优度系数R2是的递增函数。

《数据模型与决策》试题答案

2008—2009第二学期《数据模型与决策》课 考试题 姓名:学号:成绩: 【说明:共5题,答题时间共计120分钟】 一、试述你对以下概念的理解:(32分) (1)企业内部数据,即通常从企业会计、营销、生产运行中收集的数据。 (2)样本,即总体的一个子集。 (3)回归模型,即刻画因变量与一个或多个自变量之间相互关系的模型。 (4)德尔斐法,是判断预测的普遍方法,通过让许多专家匿名回答一系列调查问卷来实现。在每一轮回答后,答案将匿名共享,让专家知道其他专家的意见。通过了解其他专家的意见,将增加看法的统一性并促使意见不一致的人去考虑其他因素。 (5)正态分布,其形态就是钟形曲线。正态分布是对称的且中位数等于平均数,即有一半的面积在平均数以上,另一半的面积在平均数以下。正态分布可以用两个参数来描述;均值(位置参数)、方差(刻度参数)。当均值变化时,分布在x轴上的位置也会变化;而当方差增加或减少时,分布相应地会变宽或窄。 (6)变异系数,是一种间接测度数据离散程度的方法,它一般由平均数求得:变异系数(CV)=标准方差/平均数 (7)标准差,是测度离散程度的一种方法。它是方差的开平方求得的。总体和样本标准差分别为:

(8)显著性水平,即发生第一类错误(即原假设事实上是正确的,但是假设检验错误的拒绝了它)的概率a。 二、对于下表这样一组给定的数据,我们可以用表格、图形、回归模型3种方式来表达10个公司销售收入与营销费用之间的关系。试问:这3种方式的表达思路有什么异同?(15分) 公司编号12345678910销售收入(Y)5000 3000 1200 2000 10000 4000 800 7000 9000 12000 营销费用(X)675 550 275 325 1375 525 193 950 975 1650 答: 表格:我们仅从数据中可以看到营销费用与销售收入大约成正向关系,即营销费用增加,销售收入增加。 图形:我们可以从图形中更加直观的揭示数据中包含的特征与规律,即能够大体的看清营销费用变动导致销售收入变动的程度。 回归:通过回归分析可以确定自变量变化时对因变量产生影响的大小,即能够确认营销费用的变化时销售费用能够变化的大小。 三、在“数据模型与决策”课程中,有许多定量分析的模型与方法。请回答下面的问题:(18分) (1)归纳总结各种模型方法的共同点; (2)根据你的喜好选择一种方法,举例说明其解决问题的思路。 答:在课程中,我们主要应用图表、假设检验、回归分析的定量分析模型与方法,这些模型与方法共同组成一整套决策模型体系,都是对量化的数据进行分析,得出可以量化的模型来揭示数据内在联系。 个人而言,回归分析的是比较好的方法,因为它包含图表、假设检验的方法,

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

数据模型与决策习题解答

第二章习题(P46) 14.某天40只普通股票的收盘价(单位:元/股)如下: 29.625 18.000 8.625 18.500 9.250 79.375 1.250 14.000 10.000 8.750 24.250 35.250 32.250 53.375 11.500 9.375 34.000 8.000 7.625 33.625 16.500 11.375 48.375 9.000 37.000 37.875 21.625 19.375 29.625 16.625 52.000 9.250 43.250 28.500 30.375 31.125 38.000 38.875 18.000 33.500 (1)构建频数分布*。 (2)分组,并绘制直方图,说明股价的规律。 (3)绘制茎叶图*、箱线图,说明其分布特征。 (4)计算描述统计量,利用你的计算结果,对普通股价进行解释。 解:(1)将数据按照从小到大的顺序排列 1.25, 7.625, 8, 8.625, 8.75, 9, 9.25, 9.25, 9.375, 10, 11.375, 11.5, 14, 16.5, 16.625, 18, 18, 18.5, 19.375, 21.625, 24.25, 28.5, 29.625, 29.625, 30.375, 31.125, 3 2.25, 3 3.5, 33.625, 34, 35.25, 37, 37.875, 38, 38.875, 43.25, 48.375, 52, 53.375, 79.375,结合(2)建立频数分布。 (2)将数据分为6组,组距为10。分组结果以及频数分布表。为了方便分组数据样本均值与样本方差的计算,将基础计算结果也列入下表。 根据频数分布与累积频数分布,画出频率分布直方图与累积频率分布的直方图。

最新数据模型与决策课程大作业打印版.doc

数据模型与决策课程大作业 以我国汽油消费量为因变量,乘用车销量、城镇化率和90#汽油吨价与城镇居民人均可支配收入的比值为自变量时行回归(数据为年度时间序列数据)。试根据得到部分输出结果,回答下列问题:1)“模型汇总表”中的R方和标准估计的误差是多少? 2)写出此回归分析所对应的方程; 3)将三个自变量对汽油消费量的影响程度进行说明; 4)对回归分析结果进行分析和评价,指出其中存在的问题。 1)“模型汇总表”中的R方和标准估计的误差是多少? 答案:R方为0.993^2=0.986 ;标准估计的误差为120910.147^(0.5)=347.72 2)写出此回归分析所对应的方程; 答案:假设汽油消费量为Y,乘用车销量为a,城镇化率为b,90#汽油吨价/城镇居民人均可支配收入为c,则回归方程为: Y=240.534+0.00s027a+8649.895b-198.692c 3)将三个自变量对汽油消费量的影响程度进行说明; 乘用车销量对汽油消费量相关系数只有0.00027,数值太小,几乎没有影响,但是城镇化率对汽油消费量相关系数是8649.895,具有明显正相关,当城镇化率每提高1,汽油消费量增加8649.895。乘用90#汽油吨价/城镇居民人均可支配收入相关系数为-198.692,呈

明显负相关,即乘用90#汽油吨价/城镇居民人均可支配收入每增加1个单位,汽油消费量降低198.692个单位。a, b, c三个自变量的sig 值为0.000、0.000、0.009,在显著性水平0.01情形下,乘用车消费量对汽油消费量的影响显著为正。 (4)对回归分析结果进行分析和评价,指出其中存在的问题。 在学习完本课程之后,我们可以统计方法为特征的不确定性决策、以运筹方法为特征的策略的基本原理和一般方法为基础,结合抽样、参数估计、假设分析、回归分析等知识对我国汽油消费量影响因素进行了模拟回归,并运用软件计算出回归结果,故根据回归结果,对具体回归方程,回归准确性,自变量影响展开分析。 Anova表中,sig值是t统计量对应的概率值,所以t和sig两者是等效的,sig要小于给定的显著性水平,越接近于0越好。F是检验方程显著性的统计量,是平均的回归平方和平均剩余平方和之比,越大越好。在图表中,回归模型统计值F=804.627,p值为0.000,因此证明回归模型有统计学意义,表现回归极显著。即因变量与三个自变量之间存在线性关系。 系数表中,除了常数项系数显著性水平大于0.05,不影响,其它项系数都是0.000,小于0.005,即每个回归系数均具有意义。

数据仓库与数据挖掘考试试题

一、| 二、填空题(15分) 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。 实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。 三、多项选择题(10分) 6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD) ) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括(ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括(BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D ) . A 网络结构 B 先验概率 C 后验概率 D 条件概率表 四、计算题(30分) 11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)

《数据挖掘》试题与答案

一、解答题(满分30分,每小题5分) 1. 怎样理解数据挖掘和知识发现的关系?请详细阐述之 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;然后,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 知识发现是一个指出数据中有效、崭新、潜在的、有价值的、一个不可忽视的流程,其最终目标是掌握数据的模式。流程步骤:先理解要应用的领域、熟悉相关知识,接着建立目标数据集,并专注所选择的数据子集;再作数据预处理,剔除错误或不一致的数据;然后进行数据简化与转换工作;再通过数据挖掘的技术程序成为模式、做回归分析或找出分类模型;最后经过解释和评价成为有用的信息。 2. 时间序列数据挖掘的方法有哪些,请详细阐述之 时间序列数据挖掘的方法有: 1)、确定性时间序列预测方法:对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。 2)、随机时间序列预测方法:通过建立随机模型,对随机时间序列进行分析,可以预测未来值。若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。 3)、其他方法:可用于时间序列预测的方法很多,其中比较成功的是神经网络。由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

数据模型与决策复习题及参考答案

《数据模型与决策》复习题及参考答案 第一章绪言 一、填空题 1.运筹学的主要研究对象是各种有组织系统的管理问题,经营活动。 2.运筹学的核心是运用数学方法研究各种系统的优化途径及方案,为决策者提供科学决策的依据。 3.模型是一件实际事物或现实情况的代表或抽象。 4、通常对问题中变量值的限制称为约束条件,它可以表示成一个等式或不等式 的集合。 5.运筹学研究和解决问题的基础是最优化技术,并强调系统整体优化功能。运筹学研究和解决问题的效果具有连续性。 6.运筹学用系统的观点研究功能之间的关系。 7.运筹学研究和解决问题的优势是应用各学科交叉的方法,具有典型综合应用特性。 8.运筹学的发展趋势是进一步依赖于_计算机的应用和发展。 9.运筹学解决问题时首先要观察待决策问题所处的环境。 10.用运筹学分析与解决问题,是一个科学决策的过程。 11.运筹学的主要目的在于求得一个合理运用人力、物力和财力的最佳方案。12.运筹学中所使用的模型是数学模型。用运筹学解决问题的核心是建立数学模型,并对模型求解。 13用运筹学解决问题时,要分析,定议待决策的问题。 14.运筹学的系统特征之一是用系统的观点研究功能关系。 15.数学模型中,“s·t”表示约束。 16.建立数学模型时,需要回答的问题有性能的客观量度,可控制因素,不可控因素。 17.运筹学的主要研究对象是各种有组织系统的管理问题及经营活动。 二、单选题 1.建立数学模型时,考虑可以由决策者控制的因素是(A )

A.销售数量B.销售价格C.顾客的需求D.竞争价格2.我们可以通过(C )来验证模型最优解。 A.观察B.应用C.实验D.调查 3.建立运筹学模型的过程不包括(A )阶段。 A.观察环境B.数据分析C.模型设计D.模型实施4.建立模型的一个基本理由是去揭晓那些重要的或有关的( B ) A数量B变量 C 约束条件 D 目标函数 5.模型中要求变量取值( D ) A可正B可负C非正D非负 6.运筹学研究和解决问题的效果具有( A ) A 连续性 B 整体性 C 阶段性 D 再生性 7.运筹学运用数学方法分析与解决问题,以达到系统的最优目标。可以说这个过 程是一个(C) A解决问题过程B分析问题过程C科学决策过程D前期预策过程 8.从趋势上看,运筹学的进一步发展依赖于一些外部条件及手段,其中最主要的 是( C ) A数理统计B概率论C计算机D管理科学 9.用运筹学解决问题时,要对问题进行( B ) A 分析与考察 B 分析和定义 C 分析和判断 D 分 析和实验 三、多选 1模型中目标可能为(ABCDE ) A输入最少B输出最大 C 成本最小D收益最大E时间最短 2运筹学的主要分支包括(ABDE ) A图论B线性规划 C 非线性规划 D 整数规划 E目标规划 四、简答 1.运筹学的计划法包括的步骤。 答:观察、建立可选择的解、用实验选择最优解、确定实际问题。

数据挖掘考试题库

1.何谓数据挖掘?它有哪些方面的功能? 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。 数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些? 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有: ①简单堆积结构 ②轮转综合结构 ③简单直接结构 ④连续结构 3.简述数据仓库设计的三级模型及其基本内容。 概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。 逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。 物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: I/O存取时间、空间利用率和维护代价等。 提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。 4.在数据挖掘之前为什么要对原始数据进行预处理? 原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。 为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。 5.简述数据预处理方法和内容。 ①数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。 ②数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲 突问题和冗余问题等。 ③数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的 重构。 ④数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 6.简述数据清理的基本内容。 ①尽可能赋予属性名和属性值明确的含义; ②统一多数据源的属性值编码; ③去除无用的惟一属性或键值(如自动增长的id); ④去除重复属性(在某些分析中,年龄和出生日期可能就是重复的属性,但在某些时候它们可能又是同时需要的) ⑤去除可忽略字段(大部分为空值的属性一般是没有什么价值的,如果不去除可能造成错误的数据挖掘结果) ⑥合理选择关联字段(对于多个关联性较强的属性,重复无益,只需选择其中的部分用于数据挖掘即可,如价格、数据、金额) ⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据。 7.简述处理空缺值的方法。 ①忽略该记录; ②去掉属性; ③手工填写空缺值; ④使用默认值; ⑤使用属性平均值; ⑥使用同类样本平均值; ⑦预测最可能的值。 8.常见的分箱方法有哪些?数据平滑处理的方法有哪些? 分箱的方法主要有: ①统一权重法(又称等深分箱法) ②统一区间法(又称等宽分箱法) ③最小熵法 ④自定义区间法 数据平滑的方法主要有:平均值法、边界值法和中值法。

相关文档
相关文档 最新文档