文档库 最新最全的文档下载
当前位置:文档库 › 数学建模数据分析题

数学建模数据分析题

数学建模数据分析题
数学建模数据分析题

中国矿业大学数学建模常规赛竞赛

承诺书

我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。

我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。

我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们的参赛队号:25

参赛队员(打印并签名):1. 易阳俊

2. 令月霞

3. 刘景瑞

日期: 2016 年 10 月日

(请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛

编号专用页

评阅统一编号(数学建模协会填写):

题目:数据的分析问题

摘要

本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。

对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%;

针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1:

行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上;

对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。

对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。

关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

一、问题重述.

随着大数据时代的到来,人们在处理问题时往往要借助一些实验或检测数据的分析;病人到医院就诊时,医生通常要通过化验和检测得到的数据分析来协助诊断。在医疗诊断中,要诊断一个人是否患上疾病G时,通常要检测人体内7种元素的含量。表1是50个确诊病例的检测结果,其中1-25号病例是已经确诊为疾病G的病人的检测结果;26-50号病例是已经确定为健康人的检测结果。表2是25个就诊人员的检测结果。试解决下列问题:

问题1:根据表1中的数据,提出一种或多种简便的判别方法,判别属于疾病G的病人或健康人的方法,并检验你提出方法的正确性。

问题2:按照问题1提出的方法,对表2中的25名就诊人员的检测结果进行判别,判定他(她)们是疾病G的病人还是健康人。

问题3:能否根据表1的数据特征,确定哪些指标是影响人们患疾病G的关键或主要因素,以便减少化验的指标。

问题4:根据问题3的结果,重复问题2的工作。

问题5:对问题2和问题4的结果作进一步的分析。

二、模型假设

(1)假设题目中所给的数据绝大多数真实可靠,不排除出现少数异常数据的可能;

(2)假设就诊人员在化验前不会采取增加体内这7种元素的措施;

(3)题目中所给的样本只有因这7种元素含量而患G病的患者或者为健康人员,不会受到其他疾病和其他元素的干扰;

(4)不考虑各种元素之间的相互作用对机体产生的影响;

三、问题的分析

对于此题,我们需要通过对已知病例数据进行分析,从而找到疾病确诊方法。我们首先运用Excel对健康人的7种元素含量绘制散点图进行分析和W检验,得知这7种元素的分布均符合正态分布,再通过拉依达准则法排除了高度异常数据10号样本。

针对问题一,我们建立了元素分布判别、马氏距离判别和Fisher判别三种模型。首先,已知7种元素含量分布均符合正态分布,于是我们以健康人员的7种元素含量的均值为大致中心值,确立了一个元素正常含量范围,对于只要存在一个不在正常范围内的元素含量的待诊人员,我们就判定为患者,从而建立了元素分布判别模型;其次,我们利用马氏距离判别法,对原始数据直接进行分析归类,并排除了元素之间的相关性的干扰,运用MATLAB编程中得到的判别函数来对患者和健康人员这两组样本进行马氏判别分析,从而建立了马氏距离判别模型;然后,我们运用SPSS软件对患者和健康人员这两组样本进行Fisher判别,得到区分人员是否患病的线性判别函数和判断准确率,从而建立了Fisher判别模型。最后,我们用已知的49个病例数据对这三个模型分别进行了检验,得到的判别准确率均在90%以上。

针对问题二,我们利用问题一中建立的三个判别模型分别对25位就诊人员是否患病进行判别,结果见表1:

Excel 图表功能对7种元素分别绘制折线图进行对比。通过分析,可知绝大多数健康人员的元素4和元素5含量均大于患者在这两种元素含量的最大值,健康人员与患者含量呈现明显数值差异;而健康人与患者在其他5种元素上的分布差距没有元素4与元素5如此明显,所以我们初步判定元素4与元素5是影响人们患疾病G 的主要因素。然后我们用问题一中的三种判别模型对已知病例进行检验,得到的判别准确率均在85%以上。

针对问题四,虽然利用问题三中得到的主要元素来进行分析判别的准确率在85%以上,但在与问题二的判别结果进行对比后,可知两种判别结果的差异性(见下表2)。

24%,表明此时利用这两个主要因素进行判别结果无法较好达到问题二的判别效果。

针对问题五,已知问题四中得到的两个主要因素的判断结果与问题二的判断结果差异性大,而且这三种判别方法均有各自的缺点,于是我们建立了一个综合

判别模型,通过三种判别方法来得到最后的判别结果,最终使得两个判别结果的差异性降到了12%,一致性达到了88%。

四、符号及变量说明

符号 意义

j

(1,2,...,75)j j =元素序号 ij

x

j i 序号为的病例的元素的含量

k α

W 正态性检验统计量的系数 W α

W α正态性检验统计量的分位数

α 显著性水平

()

x ω

马氏距离判别函数 D Fisher 判别线性函数 S

Fisher 判别临界值

五、数据预处理

5.1 数据分析

处理实验数据的时候,我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况,如果我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性。

我们首先通过Excel 做出了26-50号健康人的7种元素的散点图(如下图):

图1 图2

图3 图4

图5 图6

图7

由图可知:

1、序号为10的健康人员的元素数据十分异常,我们暂且忽略这个样本。。

2、我们可以发现忽略掉少数几个异常数据外,每种元素数值大都集中在中间某个数值附近,则我们可以初步判断这7种元素的含量可能服从正态分布,于是我们认为可以通过统计学知识中的W 检验来对这些数据分别进行正态性检验。

5.2 W 检验

5.3 正态性检验

通过编写MATLAB 程序(见附录),我们可以得到健康人员的7种元素的W 值(见下表3): 0.014,2W W n ααα==通过对比正态性检验统计量的的分位数表可知:若取在0.884. 1 4 5 6 7 0.01 W αα==时,给出的所以有表可得,元素、、、、均在显著水平上不

拒绝原假设,即可认为该批数据服从正态分布。

23W W α显然元素的数据此时符合正态分布,而元素的值十分接近,则我们

认为它也应该满足正态分布。

5.4 数据检测

拉依达准则法是最常用的异常值判定与剔除准则,优点是简单,无需查表,测量次数较多或要求不高时用。

在这种情况下,异常值是指一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。

由于我们已知7种元素含量分布均符合正态分布,所以我们可以用以下计算公式来判断异常值是否存在,公式如下:

1

,1,2,...,n

()23n

i ij j i ij x x i s x x c c ====--=∑、

当s>0时,为异常值;当s<0时,为正常值;

通过Excel 的简单编程计算,我们得到以下异常数据表(见表4):

表5

当c=3时,序号为10的健康人员在4个元素检测上均为高度异常值,故我们可以排除该样本。

当c=2时,有6个健康人员也存在一些相对异常的数据,我们可以在对这些健康人员进行数据分析处理时,选择忽略掉这些异常数据,以免对最终分析结果产生较大的影响。

六、问题模型建立与求解

6.1问题一的模型建立

6.1.1元素分布判别模型的建立

我们已知这7个元素分布符合正态分布,由正态分布关于平均值对称的性质,于是我们以平均值为大致中心值,同时尽量保证两端点值与均值的距离相差不大,以此来确定元素正常含量范围,建立元素分布判别模型,从而判断待诊人员是否患病;只要待诊人员的某一种元素含量在该范围之外时,我们就判定他为病人。

根据元素的散点图分布和拉依达准则法得到的异常数据表(见上表5),我们得到元素正常含量范围:

模型,检验结果如下(见表7):

6.2马氏距离判别模型

6.2.1基本思想

首先根据已知分类的数据,分别计算各类中心即分组(类)的均值。判别准则是对任意给的一次观测,若它与第i 类的中心距离最近,就认为它来自第i 类。

6.2.2 建立过程

()()()()1

1

,,,A B μμ∑∑分别为、的均值向量和协方差。距离定义采用马氏设距离,即:

()()()

()()()1

2

,T

i i i

i D

X G X X i μ

μ-=-∑-

=0,1

01 G B G A

根据问题要求,将对应于正常人数据组将对应于患者数据组

()()22,,D X X A B A D X B 首先计算到、两个总体的距离,和分别记为,

按照距离最近准则判别归类,则可以写成: ()()

()()()()

222222 ,, ,, ,=,X A D X A D X B X B D X A D X B D X A D X B ∈<∈>当当待判当

()

()()

(

)

()1 , 1,2 p=1,2, (7)

i i i p

X

x x i ==记,则有

()()

(

)

()

()

()()

()

2

730

11112

11,T

ij

i

i j D X A X X

X X x

x ===-∑

-=-∑∑

()(

)

(

)

(

)

()()(

)

()

2

7

30000

0211

,T

ij

i i j D X B X X X X x

x ===-∑-=-∑∑

()()22,,D X A D X B 的大小,按距离最近准则判然后比较和别归类。

()()22,,D x A D x B -若正常人与患者数据的协方差相同,由得到判别函数为:

()()

()

(

)

(

)()

(

)

()

(

)001

1

1100T

T

x x x x x x x x x ω--=-∑---∑-

()()

()()()

(

)

()1

11

, 0,1;3011i n T

i i i i i j

j i i j i i x x x x S i n n n =∑=--=

==--∑

6.2.3 马氏距离判别分析和检验

我们通过MATLAB 编程(程序见附录)来对已知的49名数据样本进行检测,得到马氏距离检测法的综合检测准确率为90%,检测结果如下:

表8

6.3 Fisher 判别模型 6.3.1基本思想

从k 个总体中抽取p 个指标的样品观测数据,借助方差分析的构造一个线性断函数,其中系数确定的原则是使得总体之间区别最大,而是每个总体内部的离差最小。有了线性判断函数U 后,对于一个新的样品,将它的p 个指标值带入以上线性判断函数式子中求出U 值,然后根据一定的判别规则,就可以判断新的样品属于哪个总体了

6.3.2 算法步骤

1*

12()w w S Fisher M M -=-u u r 由线性判别式求解向量的步骤:

1

12122

w X w w X X w ①把来自两类

的训练样本集分成和两个子集和。

11,2,M k i

i k

i

x X i

M x i n ∈=

=∑由,计算②。

()()1,2k i

T

i k i k i i x X S x M x M S i ==

--=∑u u r u u r

③由计算各类的类阵,内离散度矩。

12w S S S =+u u r u u r u u r

④计算类内总离散度矩阵。

-1

w w S S u u v u u v ⑤计算的逆矩阵。

1*

*12()w w S M M w -=-u u r ⑥求解。

6.3.3、进行Fisher 判别分析和检验

我们运用SPSS 软件对已知病例数据进行Fisher 判别分析,得到判别结果如下(详细表格见附录):

a.

95.9% 個原始分組觀察值已正確地分類。

表10

標準化典型區別函數

係數

函數

1 元素1 -.183 元素

2 -.02

3 元素3 .521 元素

4 .546 元素

5 .724 元素

6 .348 元素7

-.841

(1)由分类结果可知:通过对已知的49名病例样本进行检测,对健康人与患病者的检测准确率都达到了96%,故综合检测准确率为96%。

(2)由标准化典型区别函数系数表可知,线性判别函数D 应为 :

1234567

1.83*0.23*0.521*0.546*0.724*0.348*0.841*D X X X X X X X =--++++-

虽然我们得到了Fisher 判断法的线性判断函数,但我们还需找到一个判定标准来对健康人员与患者进行区分,通过表9可知,分别有一名已知的健康人员与患者在运用Fisher 进行判别时出现错误,所以我们可以根据这两名病例的判断得分来得到判定标准。

我们运用Excel 进行简单编程,求出已知49名病例的Fisher 判断函数的得分,结果如下:

图8

由图可知:病例号为1-25的患者整体得分明显少于病例号为26-50的健康人员整体得分,显然病例号为23和38的得分情况是Fisher 判别所出现的两个判断错误;所以病例号为23的病例在Fisher 判别法认为是健康人,而得分略低的病例号为18的病例被 Fisher 判别法认为是患者,对于我们所设置的判别临界值S ,他应该属于165.6958~241.8355之间,不妨令

165.6958241.8355201

2S +==()

6.4 问题二的求解

综述以上三种判别方法,我们得到了它们的判别准确率,如下表:

表11

我们采用问题一中的元素分布判别法、马氏距离判别法和Fisher 判别法三种方法,运用Excel 和MATLAB 软件(代码详见附录)分别这25名就诊人员进行判别,再将结果整理如下:

表12

6.5问题三的模型建立与问题四的模型求解 6.5.1 主要元素的确定

我们运用Excel 分别对健康人与患者的7种元素含量进行了升序排列,然后

对健康人和患者的7种元素分别绘制折线图进行对比,通过对元素4与元素5的折线图(见下图,其他5种元素图见附录)观察分析可知,绝大多数健康人的这两种元素含量均大于患者在这两种元素含量的最大值,呈现出明显的数值大小差异,而健康人与患者在其他5种元素上的分布,他们之间的差距没有元素4与元素5明显,所以我们初步判定元素4与元素5是影响人们患疾病G的主要因素。

图9

图10

我们进一步通过对图9的观察可知,患者的元素4含量大多数在100-160之间,而健康人仅有两名在160以下,于是我们对问题一中元素分布判别法进行修改,对于元素4,我们以162为新的边界值来进行判别,即元素4的新范围为162-432。

6.5.2 利用主要元素进行判别和检验

我们利用问题三的主要元素,通过问题一中三种判别法来重新对就诊人员进行判别,经过整理后,判别结果如下:

我们进一步将该判别结果与问题2的判别结果进行对比,如下表:

由上表可知,虽然只利用主要因素的三种判别法的有效率仍然在85%以上,但是三种判别法的结果与问题二中的判别结果仍然有不小的差异,虽然Fisher判别法差异性最小只有12%,但马氏距离判别法的差异性却有24%,我们需要进一步降低差异率来确保只利用主要因素进行判别的判断率。

6.6 问题五的分析

虽然问题二与问题三的三种判别法的有效率都在85%以上,但是两个问题中的三种判别法的结果仍然有不小的差异,由于三种判别法均存在各自的问题,于是我们建立了一个综合判别模型,通过三种判别方法来得到最后的判别结果。

我们先将问题二与问题四的判别结果进行整理,为了简化表格,给出如下定义:

当某个判别方法判定就诊人员为健康人员时,得分加1;

当某个判别方法判定就诊人员为患者时,不得分。

表15

由上表可知:有一些就诊人员在三种判别法中均被判定为患者,也有一些人在三种判别方法法中,均被判定为健康人员。所以我们根据得分的高低情况可以将上述就诊人员分为以下四类水平:完全健康(3分)、大概率健康(2分)、大概率患病(1分)、完全患病(0分),见下表16。

由于我们必须判断出就诊人员是否患病,所以我们根据大概率原则,可以判断完全健康、大概率健康这两种水平的就诊人员为健康,而完全患病、大概率患病这两种水平的就诊人员为患病,所以我们得到以下表格:

所以通过综合判别法,我们使问题二与问题四的差异性降到了12%,一致率达到了88%,所以此时元素4、元素5可以较好的作为主要元素来对就诊人员进行检测。

七、模型评价及推广

7.1 模型评价

7.1.1优点:

针对问题一,为提出一种简便的判别方法,我们提出元素分布判别法马氏距离判别法和Fisher判别法,并进行了准确度的检验,得出元素分布判别法和

Fisher判别法均有96%的准确度,马氏距离判别法也有90%的准确度,三种判别方法的准确度很高,其大致符合医院的实际情况,而且施行相对简便准确。

针对问题二,在问题一的条件下可将就诊人员的化验结果用元素分布判别法马氏距离判别法和Fisher判别法分别进行判别,从而得出结果,具有良好的通用性和实用性。

针对问题三,我们运用Excel图表功能对7种元素分别绘制折线图进行对比,初步判定元素4与元素5是影响人们患疾病G的主要因素,然后三种判别模型进行检验,得到的判别准确率均在85%以上,方法简便且效率高。

针对问题四和问题五,已知问题四中得到的两个主要因素的判断结果与问题二的判断结果差异性大,而且这三种判别方法均有各自的缺点,于是我们建立了一个综合判别模型,通过三种判别方法来得到最后的较好判别结果,判别方法进行组合,优势互补,判断准确性高

7.1.2缺点:

由于题中所给数据相对较少,且化验元素种类也较少,对有一定影响,以至元素分布判别法马氏距离判别法和Fisher判别法所得结果与实际有差别。

7.1.3模型推广

多种判别方法相结合的综合判别法不仅可以用于对某种疾病的诊断,而且可以用于在经济学中根据人均国民收入、人均工农业产值、人均消费水平等指标判断一个国家的经济发展程度。多种判别方法相结合的综合判别法的结合可以处理有较大量的数据资料,且机理不甚清楚的问题,并能够进行有效的分析和提炼出关键因素,从而找到内在规律,对问题做出科学判断。

八、参考文献

[1] 卓金武,MATLAB在数学建模中的应用,北京:北京航空航天大学出版社,2010

[2] 茆诗松程依明濮晓龙,概率论与数理统计,北京:高等教育出版社,2004

[3] 姜启源谢金星数学模型,北京:高等教育出版社,2003

[4] 邰淑彩,应用数理统计,武汉:武汉大学出版社,2005

[5]韩中庚,数学建模方法及其应用,北京:高等教育出版社,2005

九、附录

9.1 MATLAB代码1:W检验程序

%%健康人员的元素1数据

A=[8.65 14.11717.718.619.823.42728.229.83135

35.5 3636.2 3761.762.864.28686.990.8];

b=0;

n=length(A);

for p=1:n

b=b+A(p);

end

b=b/n;

%%另一组正态性检验统计量W的系数数值表,a=[0.4493 0.3098 0.2554 0.2145 0.1807 0.1512 0.1245 0.0997 0.0764 0.0539 0.0321 0.0107];

a=[0.459 0.3156 0.2571 0.2131 0.1764 0.1443 0.115 0.0878 0.0618 0.0368 0.0122];

s=0;

for k=1:n/2

d(k)=A(n-k)-A(k);

s=s+a(k)*(A(k)-A(n-k+1));

end

m=0;

for i=1:n

m=m+(A(i)-b)*(A(i)-b);

end

%%W检验的计算结果

w=s*s/m

9.2 MATLAB代码2:马氏距离判别法程序

clc

clear

%%矩阵A、B是已知病例的数据,X是就诊人员的数据

A=[ 16615.824.5700112179513;

18515.731.5701125184427;

1939.8025.9541163128642;

15914.239.789699.2239726;

22616.223.860615270.3218;

1719.299.2930718745.5257;

20113.326.655110149.4141;

14714.530.0659102154680;

1728.857.8655175.798.4318;

15611.532.5639107103552;

13215.917.757892.413141372;

18211.311.3767111264672;

1869.2637.195823373.0347;

1628.2327.162510862.4465;

1506.6321.0627140179639;

15910.711.761219098.5390;

建立数学建模案例分析

§15.4锁具装箱问题 [学习目标] 1.能表述锁具装箱问题的分析过程; 2.能表述模型的建立方法; 3.会利用排列组合来计算古典概型; 4.会利用Mathematica求解锁具装箱问题。 一、问题 某厂生产一种弹子锁具,每个锁具的钥匙有5个槽,每个槽的高度从{1,2,3,4,5,6}6个数(单位从略)中任取一数。由于工艺及其它原因,制造锁具时对5个槽的高度有两个要求:一是至少有3个不同的数;二是相邻两槽的高度之差不能为5。满足上述两个条件制造出来的所有互不相同的锁具称为一批。销售部门在一批锁具中随意地抽取,每60个装一箱出售。 从顾客的利益出发,自然希望在每批锁具中不能互开(“一把钥匙开一把锁”)。但是,在当前工艺条件下,对于同一批中两个锁具是否能够互开,有以下实验结果:若二者相对应的5个槽的高度中有4个相同,另一个槽的高度差为1,则可能互开;在其它情况下,不可能互开。 团体顾客往往购买几箱到几十箱,他们会抱怨购得的锁具中出现互开的情形。现请回答以下问题: 1.每批锁具有多少个,能装多少箱? 2.按照原来的装箱方案,如何定量地衡量团体顾客抱怨互开的程度(试对购买一、二箱者给出具体结果)。 二、问题分析与建立模型 因为弹子锁具的钥匙有5个槽,每个槽的高度从{1,2,3,4,5,6}这6个数中任取一数,且5个槽的高度必须满足两个条件:至少有3个不同的数;相邻两槽的高度之差不能为5。所以我们在求一批锁具的总数时,应把问题化为三种情况,即5个槽的高度由5个不同数字组成、由4个不同数字组成、由3个不同数字组成,分别算出各种情况的锁具个数,然后相加便得到一批锁具的总个数。在分别求这三种情况锁具个数的时候,先求出满足第1个条件的锁具个数再减去不满足第2个条件的锁具个数。在求这三种情况锁具个数的时候,主要依靠排列组合的不尽相异元素的全排列公式。 下面用一个5元数组来表示一个锁具: Key=(h1,h2,h3,h4,h5) 其中h i表示第i个槽的高度,i=1,2,3,4,5。此5元数组表示一把锁,应满足下述条件: 条件1:h i∈{1,2,3,4,5,6},i = 1,2,3,4,5。

回归分析在数学建模中的应用

摘要 回归分析和方差分析是探究和处理相关关系的两个重要的分支,其中回归分析方法是预测方面最常用的数学方法,它是利用统计数据来确定变量之间的关系,并且依据这种关系来预测未来的发展趋势。本文主要介绍了一元线性回归分析方法和多元线性回归分析方法的一般思想方法和一般步骤,并且用它们来研究和分析我们在生活中常遇到的一些难以用函数形式确定的变量之间的关系。在解决的过程中,建立回归方程,再通过该回归方程进行预测。 关键词:多元线性回归分析;参数估计;F检验

回归分析在数学建模中的应用 Abstract Regression analysis and analysis of variance is the inquiry and processing of the correlation between two important branches, wherein the regression analysis method is the most commonly used mathematical prediction method, it is the use of statistical data to determine the relationship between the variables, and based on this relationship predict future trends. introduces a linear regression analysis and multiple linear regression analysis method general way of thinking and the general steps, and use them to research and analysis that we encounter in our life, are difficult to determine as a function relationship between the variables in the solving process, the regression equation is established by the regression equation to predict. Keywords:Multiple linear regression analysis; parameter estimation;inspection II

对中国大学生数学建模竞赛历年成绩的分析与预测

2012年北京师范大学珠海分校数学建模竞赛 题目:对中国大学生数学建模竞赛历年成绩的分析与预测 摘要 本文研究的是对自数学建模竞赛开展以来各高校建模水平的评价比较和预测问题。我们将针对题目要求,建立适当的评价模型和预测模型,主要解决对中国大学生数学建模竞赛历年成绩的评价、排序和预测问题。 首先我们用层次分析法来评价广东赛区各校2008年至2011年及全国各大高校1994至2011年数学建模成绩,从而给出广东赛区各校及全国各大高校建模成绩的科学、合理的评价及排序;其次运用灰色预测模型解决广东赛区各院校2012年建模成绩的预测。 针对问题一,首先我们对比了2008到2011年参加建模比赛的学校,通过分析我们选择了四年都参加了比赛的学校进行合理的排序(具体分析过程见表13),同时对本科甲组和专科乙组我们分别进行排序比较。在具体解决问题的过程中,我们先分析得出影响评价结果的主要因素:获奖情况和获奖比例,其中获奖情况主要考虑国家一等奖、国家二等奖、省一等奖、省二等奖、省三等奖,我们采用层次分析法,并依据判断尺度构造出各个层次的判断矩阵,对它们逐个做出一致性检验,在一致性符合要求的情况下,通过公式与matlab求得各大学的权重,总结得分并进行排序(结果见表11);在对广东赛区各高校2012建模成绩预测问题中,我们采用灰色预测模型,我们以华南农业大学为例,得到该校2012年建模比赛获奖情况为:省一等奖、省二等奖、省三等奖及成功参赛奖分别为5、9、8、8(其它各高校预测结果见表10)。 针对问题二,我们对全国各院校的自建模竞赛活动开展以来建模成绩排序采用与问题一相同的数学模型,在获奖情况考虑的是全国一等奖、全国二等奖。运用matlab求解,结果见表12。 针对问题三,我们通过对一、二问排序的解答及数据的分析,得出在对院校进评价和预测时还应考虑到各院的师资力量、学校受重视程度、学生情况、参赛经验等因素,考虑到这些因素,为以后评价高校建模水平提供更可靠的依据。 关键词:层次分析法权向量灰色预测模型模型检验 matlab

数学建模案例分析--对策与决策方法建模6决策树法

§6 决策树法 对较为复杂的决策问题,特别是需要做多个阶段决策的问题,最常用的方法是决策树法。决策树法是把某个决策问题未来发展情况的可能性和可能结果所做的预测用树状图画出来。其步骤如下: 1、用方框表示决策点。从决策点画出若干条直线或折线,每条线代表一个行动方案,这样的直线或折线称为方案枝。 2、在各方案枝的末端画一个园圈,称为状态点,从状态点引出若干直线或折线,每条线表示一个状态,在线的旁边标出每个状态的概率,称为概率枝。 3、把各方案在各个状态下的损益期望值算出标记在概率枝的末端。 4、把计算得到的每个方案的损益期望值标在状态点上,然后通过比较,选出损益期望值最小的方案为最优方案。 例1某厂准备生产一种新产品,产量可以在三种水平n1、n2、n3中作决策。该产品在市场上的销售情况可分为畅销、一般和滞销三种情况,分别为S1、S2、S3。通过调查,预测市场处于这三种情况的概率分别为0.5、0.3、0.2。三种决策在各种不同市场情况下的利润见下表: 表1 基于各种决策的各种市场情况的利润表(万元) 我们可以计算每种决策下利润的期望值: 实行在水平n1下生产的利润的期望值为:90×0.5+30×0.3-60×0.2=42 实行在水平n2下生产的利润的期望值为:60×0.5+50×0.3-10×0.2=43 实行在水平n3下生产的利润的期望值为:10×0.5+9×0.3-6×0.2=6.5 由于在水平n2下生产利润的期望值最大,因而应选择产量水平n2生产。 可以应用决策树帮助解决这样的决策问题,把各种决策和情况画在图1上: 图1

图中的方框(□)称为决策点,圆圈(○)称为状态点,从方框出发的线段称为对策分支,表示可供选择的不同对策。在圆圈下面的线段称为概率分支,表示在此种对策下可能出现的各种情况。在概率分支上注明了该情况出现的概率。在每一个概率分支的末端注明了对应对策和对应情况下的收益(利润)。在计算时,我们把相应的期望值写在相应的状态点旁边,再由比较大小后选择最优决策,在图上用∥表示舍弃非最优的对策,并在决策点上注明最优决策所对应的期望利润。 图2 利用决策树还可以解决多阶段的决策问题。 例2 某公司在开发一种新产品前通过调查推知,该产品未来的销售情况分前三年和后三年两种情况。因此生产该产品有两种可供选择的方案:建造大厂和建造小厂。如果建造大厂,投资费用5000万元,当产品畅销时,每年可获利2000万元,当产品滞销时,每年要亏损120万元。如果建造小厂,投资费用1000万元,当产品畅销时,每年可获利300万元,当产品滞销时,每年仍可获利150万元。若产品畅销可考虑在后三年再扩建,扩建投资需2000万元,随后三年每年可获利1000万元;也可不再扩建。预测这六年该产品畅销的概率为0.6,滞销的概率为0.4。试分析该公司开发新产品应如何决策? 根据问题的各种情况可以画出决策树如下:这是一个两阶段的决策问题。注意到图中有两个决策点,反映建小厂的方案中可以分成前三年和后三年两个阶段,并在后三年还要做出一次决策。 图3 把各种数据填到图适当的位置后,由后向前计算获利的期望值。由图可见应采用决策:建造大厂。 500 900 1000*3=3000 300*3=900 6.5

最新数学建模数据分析题

中国矿业大学数学建模常规赛竞赛 承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1. 易阳俊 2. 令月霞 3. 刘景瑞 日期: 2016 年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

中国矿业大学数学建模常规赛竞赛 编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模案例分析

案例分析1: 自行车外胎的使用寿命 问题: 目前,自行车在我国是一种可缺少的交通工具。它小巧、灵活、方便、易学,而且价格适中,给广大居民带来了不小的益处。但是,自行车也有令人头痛的地方,最常见的问题莫过于扎胎了。扎胎的原因有很多,但相当一部分是由于外胎磨损,致使一些玻璃碴、小石子很容易侵入、扎破内胎。为了减少不必要的麻烦,如何估计自行车外胎的寿命,及时更换? 分析: 分析角度:由于题目里未明确指出我们是应从厂家角度,还是应从用户角度来考虑这个问题,因此需要我们自己做出合理判断。若从厂家角度,我们面对的应当是一大批自行车外胎的平均寿命的估计。这样的估计要求一定精确度和相对明确的使用环境;而从用户角度来说,面对的仅是个人的一辆车,不需要很高的精确度,这样的寿命估计更简单,易于随时了解,下面仅从用户角度进行分析。 产品的使用者需要了解产品的寿命,是基于安全性及更换的费用来考虑的。我们将这两个标准作为主要标准来分析,首先值得注意的两个关键性问题是如何定义寿命、何时为寿命的终止。寿命的定义要做到科学,直观,有可比性,在航空工业中航天飞机的使用寿命是用重复使用的次数来衡量,而工厂机器设备的寿命则以连续工作的时间来定义。本题外胎的寿命亦可用时间来表征,但由于外胎的寿命直接与其磨损速度相关;而磨损速度又与使用频率及行驶速度相互联系,致使外胎的寿命不一定与使用时间成正比(这种非正比关系使我们不能拿一辆—天跑200公里的自行车与一天只跑1公里的自行车进行寿命比较),降低了可比性。如换成自行车的路程寿命来比较,就好得多。产品寿命是在安全性和更换费用相互制约下达到的一个点,在这个点上,外胎的安全系数降到用户不可接受的最低值,更换费用(寿命越长,在一定意义上更换费用越低)也达到了最大限度的节省。 弄清了上面两个问题后,我们继续明确建立模型需要解决哪些问题及建立模型的重点难点。 自行车使用过程中,一来影响因素多,二来这些因素之间彼此相关,十分复杂,要做到比较准确地估计使用寿命,不但要对外胎的性能有相当的了解,而且对使用环境更不能忽视。当然我们由于是站在用户角度上来考虑的,相对地就可忽略一些次要的影响因素。 这样的数学模型面对着两个主要问题。一、自行车使用寿命与外胎厚度的关系,二、外胎能够抵御小石子破坏作用的最小厚度。后者可处理得相对简略些(如只考虑一块具有一般特征的小石子对外胎的破坏作用),而重点(也是难点)是第一个问题。车重、人重、轮胎性质(力学的、热学的、甚至化学的)和自行车使用频率等都左右着它们的关系。这么多相关因素,不必一一都加以考虑(用户是不会在意这么多的),有些因素,可以先不考虑,在模型的改进部分再作修改,采取逐步深入的方法,如:摩擦损耗有滑动摩擦和滚动摩擦损耗两种,由于滚动摩擦占用的时间(或路程)显然占绝对优势,因此可重点考虑。但滑动摩擦造成的一次损坏又比滚动摩擦大,在刹车使用过频的情况下,就不能不考虑了。 最后,需对得出的结果用简单清晰的文字进行说明,以供用户参考。 案例分析2:城市商业中心最优位置分析 问题: 城市商业中心是城市的基本构成要素之一。它的形成是一个复杂的定位过程。商业中心的选址涉及到各种因素制约,但其中交通条件是很重要的因素之一。即商业中心应位于城市“中心”,如果太偏离这一位置,极有可能在城市“中心”地带又形成一个商业区,造成重复建设。 某市对老商业中心进行改建规划,使居民到商业中心最方便。如果你是规划的策划者,如何建立一个数学模型来解决这个问题。

数学建模各种分析报告方法

现代统计学 1.因子分析(Factor Analysis) 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量),以较少的几个因子反映原资料的大部分信息。 运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力(权重)运用这种研究技术,我们还可以为市场细分做前期分析。 2.主成分分析 主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,和cluster analysis一起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。 主成分分析和因子分析的区别 1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。 4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,的主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。 5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这中区分不是绝对的。 总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用:a,了解数据。(screening the data),b,

数学建模-数据的统计分析

数学建模与数学实验 课程设计 学院数理学院专业数学与应用数学班级学号 学生姓名指导教师 2015年6月

数据的统计分析 摘要 问题:某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 计算均值、标准差、极差、偏度、峰度,画出直方图;检验分布的正态性; 若检验符合正态分布,估计正态分布的参数并检验参数; 模型:正态分布。 方法:运用数据统计知识结合MATLAB软件 结果:符合正态分布

问题重述 某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 (1)计算均值、标准差、偏差、峰度,画出直方图; (2)检验分布的正态性; (3)若检验符合正态分布,估计正态分布的参数并检验参数。 模型假设 假设一:此组成绩没受外来因素影响。 假设二:每个学生都是独自完成考试的。 假设三:每个学生的先天条件相同。 三.分析与建立模型 像类似数据的信息量比较大,可以用MATLAB 软件决绝相关问题,将n 名学生分为x 组,每组各n\x 个学生,分别将其命为1x ,2X ……j x 由MATLAB 对随机统计量x 进行命令。此时对于直方图的命令应为 Hist(x,j) 源程序为: x1=[93 75 83 93 91 85 84 82 77 76 ] x2=[77 95 94 89 91 88 86 83 96 81 ] x3=[79 97 78 75 67 69 68 84 83 81 ]

数学建模案例分析-- 插值与拟合方法建模1数据插值方法及应用

第十章 插值与拟合方法建模 在生产实际中,常常要处理由实验或测量所得到的一批离散数据,插值与拟合方法就是要通过这些数据去确定某一类已经函数的参数,或寻求某个近似函数使之与已知数据有较高的拟合精度。插值与拟合的方法很多,这里主要介绍线性插值方法、多项式插值方法和样条插值方法,以及最小二乘拟合方法在实际问题中的应用。相应的理论和算法是数值分析的内容,这里不作详细介绍,请参阅有关的书籍。 §1 数据插值方法及应用 在生产实践和科学研究中,常常有这样的问题:由实验或测量得到变量间的一批离散样点,要求由此建立变量之间的函数关系或得到样点之外的数据。与此有关的一类问题是当原始数据 ),(,),,(),,(1100n n y x y x y x 精度较高,要求确定一个初等函数)(x P y =(一般用多项式或分段 多项式函数)通过已知各数据点(节点),即n i x P y i i ,,1,0,)( ==,或要求得函数在另外一些点(插值点)处的数值,这便是插值问题。 1、分段线性插值 这是最通俗的一种方法,直观上就是将各数据点用折线连接起来。如果 b x x x a n =<<<= 10 那么分段线性插值公式为 n i x x x y x x x x y x x x x x P i i i i i i i i i i ,,2,1,,)(11 1 11 =≤<--+--= ----- 可以证明,当分点足够细时,分段线性插值是收敛的。其缺点是不能形成一条光滑曲线。 例1、已知欧洲一个国家的地图,为了算出它的国土面积,对地图作了如下测量:以由西向东方向为x 轴,由南向北方向为y 轴,选择方便的原点,并将从最西边界点到最东边界点在x 轴上的区间适当的分为若干段,在每个分点的y 方向测出南边界点和北边界点的y 坐标y1和y2,这样就得到下表的数据(单位:mm )。 根据地图的比例,18 mm 相当于40 km 。

数学建模数据分析题

承诺书 我们仔细阅读了中国矿业大学数学建模常规赛论文格式规范和2016年中国矿业大学数学建模常规赛通知。我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛章程和参赛规则的,如果引用别人的成果或资料(包括网上资料),必须按照规定的参考文献的表述方式列出,并在正文引用处予以标注。在网上交流和下载他人的论文是严重违规违纪行为。 我们以中国矿业大学大学生名誉和诚信郑重承诺,严格遵守竞赛章程和参赛规则,以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为,我们将受到严肃处理。 我们授权中国矿业大学数学建模协会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。 我们的参赛队号:25 参赛队员(打印并签名):1.易阳俊 2.令月霞 3.刘景瑞 日期: 2016年 10 月日 (请勿改动此页内容和格式。此承诺书打印签名后作为纸质论文的封面。以上内容请仔细核对,如填写错误,论文可能被取消评奖资格。)

编号专用页 评阅统一编号(数学建模协会填写):

题目:数据的分析问题 摘要 本文需要解决的问题是如何根据就诊人员体内7种元素含量来判别某人是否患有疾病G和确定哪些指标是影响人们患疾病G的主要因素。通过解读题目可知,此类问题为典型的分析判别问题。我们先对数据进行了预处理,剔除了有异常数据的样本,然后采用元素分布判别法、马氏距离判别法和Fisher判别法,应用Excel、SPSS和MATLAB等软件来对某人是否患病进行判别,并通过绘制7种元素含量的折线图等来确定患该疾病的主要因素,最后应用综合判别法对之前的结论进行了检验。 对于问题一,在对数据预处理之后,我们删除了序号为10这个高度异常数据样本,然后我们分别采用元素分布判别法、马氏距离判别法和Fisher判别法对49个已知病例进行判别。对于元素分布判别法,我们通过数据预处理知道7种元素含量分布均符合正态分布,然后我们确定了以均值为大致中心的元素正常含量范围,得出其判别准确度为96%;对于马氏距离判别法,通过编写MATLAB 程序(见附录)来进行判别,得出其判别准确度为90%;对于Fisher判别法,通过SPSS软件来进行判别,得到线性判别函数,其判别准确度为96%; 针对问题二:我们运用问题一中建立的三个判别模型对25名就诊人员(见附录)的化验结果进行检验,判别结果如下表1: 行对分析,我们初步判定元素4与元素5是影响人们患疾病G的主要因素,然后用方法一的三种判别方法进行检验,其准确度在85%以上; 对于问题四,我们根据问题三得出的主要因素,分别用三种判别方法对25名就诊人员进行判别,再与问题二的判别结果进行对比,可知它们判断结果之间的差异性最高为24%。 对于问题五,由于三种判别法都有不足,所以我们采用了综合判别法,将三种判别方法的结果进行综合判断,最终我们通过主要因素进行判别的差异性下降到了12%,与问题一的判断结果的一致性达到了88%。 关键词:马氏距离判别,Fisher判别,综合判别,MATLAB,SPSS

数学建模方法和步骤

数学建模的主要步骤: 第一、模型准备 首先要了解问题的实际背景,明确建模目的,搜集必需的各种信息,尽量弄清对象的特征. 第二、模型假设 根据对象的特征和建模目的,对问题进行必要的、合理的简化,用精确的语言作出假设,是建模至关重要的一步.如果对问题的所有因素一概考虑,无疑是一种有勇气但方法欠佳的行为,所以高超的建模者能充分发挥想象力、洞察力和判断力,善于辨别主次,而且为了使处理方法简单,应尽量使问题线性化、均匀化. 第三、模型构成 根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构造各个量间的等式关系或其它数学结构.这时,我们便会进入一个广阔的应用数学天地,这里在高数、概率老人的膝下,有许多可爱的孩子们,他们是图论、排队论、线性规划、对策论等许多许多,真是泱泱大国,别有洞天.不过我们应当牢记,建立数学模型是为了让更多的人明了并能加以应用,因此工具愈简单愈有价值. 第四、模型求解 可以采用解方程、画图形、证明定理、逻辑运算、数值运算等各种传统的和近代的数学方法,特别是计算机技术.一道实际问题的解决往往需要纷繁的计算,许多时候还得将系统运行情况用计算机模拟出来,因此编程和熟悉数学软件包能力便举足轻重. 第五、模型分析 对模型解答进行数学上的分析."横看成岭侧成峰,远近高低各不?quot;,能否对模型结果作出细致精当的分析,决定了你的模型能否达到更高的档次.还要记住,不论那种情况都需进行误差分析,数据稳定性分析. 数学建模采用的主要方法有: (一)、机理分析法:根据对客观事物特性的认识从基本物理定律以及系统的结构数据来推导出模 型. 1、比例分析法:建立变量之间函数关系的最基本最常用的方法. 2、代数方法:求解离散问题(离散的数据、符号、图形)的主要方法. 3、逻辑方法:是数学理论研究的重要方法,对社会学和经济学等领域的实际问题,在决策,对策等学科中得到广泛应用. 4、常微分方程:解决两个变量之间的变化规律,关键是建立“瞬时变化率”的表达式. 5、偏微分方程:解决因变量与两个以上自变量之间的变化规律. (二)、数据分析法:通过对量测数据的统计分析,找出与数据拟合最好的模型 1、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法. 2、时序分析法:处理的是动态的相关数据,又称为过程统计方法. 3、回归分析法:用于对函数f(x)的一组观测值(xi,fi)i=1,2,…,n,确定函数的表达式,由于处理的是静态的独立数据,故称为数理统计方法.

数学建模的万能模板

K:学科评价模型 学科的水平、地位是高等学校的一个重要指标,而学科间水平的评价对于学科的发展有着重要的作用,它可以使得各学科能更加深入的了解本学科(与其他学科相比较)的地位及不足之处,可以更好的促进该学科的发展。因此,如何给出合理的学科评价体系或模型一直是学科发展研究的热点问题。现有某大学(科研与教学并重型高校)的13个学科在一段时期的调查数据,包括各种建设成效数据和前期投入的数据。 1、根据已给数据建立学科评价模型,要求必要的数据分析及建模过程。 2、模型分析,给出建立模型的适用性、合理性分析。 3、假设数据来自于某科研型或教学型高校,请给出相应的学科评价模型。

承诺书

页编号

学科评价 摘要 (一)对问题的基本认识或处理整个问题的基本框架,思路(简明扼要,重点,亮点突出)研究目的,意义要求)本文研究。。。。问题。。即数学类型的归纳 (一)(建模思路) (1.每题数据性质等粗略分析)首先,本文分别分析每个小题的特点:。。。。。 (2.建立模型的思路:) 针对第一问。。。问题,本文建立。。。模型;在第一个。。。模型中,本文对。。。。。 问题进行简化,利用。。。。什么知识建立什么模型;在对。。。。。模型改进的基础上建立了。。。。模型Ⅱ。 针对第二。。。。。。 针对第三。。。。。。。 (三)算法思想,求解思路,使用方法,程序) 1)针对模型求解,(设计。。。求解思路)。本文使用。。。什么算法,。。软件工具,对附件中所给的数据进行筛选,去除异常数据,对残缺数据进行适当的补充,求解出什么问题,进一步求解出。。。什么结果。(方法,软件,结果清晰写出来) 2)建模特点,模型检验)对模型进行合理的理论证明和推导,所给出的理论证明结果大约为。。。。。 模型优点。。。,建模思想方法。。。。,算法特点。。。。。,结果检验。。。。,。。。。,模型检验。。。。从中随机抽取了3组(每组8个采样)对理论结果进行了数据模拟,

(完整版)数学建模五步法与灵敏度分析

灵敏度分析 简介: 研究与分析一个系统(或模型)的状态或输出变化对系统参数或周围条件变化的敏感程度的方法。在最优化方法中经常利用灵敏度分析来研究原始数据不准确或发生变化时最优解的稳定性。通过灵敏度分析还可以决定哪些参数对系统或模型有较大的影响。因此,灵敏度分析几乎在所有的运筹学方法中以及在对各种方案进行评价时都是很重要的。 用途: 主要用于模型检验和推广。简单来说就是改变模型原有的假设条件之后,所得到的结果会发生多大的变化。 举例(建模五步法): 一头猪重200磅,每天增重5磅,饲养每天需花费45美分。猪的市场价格为每磅65美分,但每天下降1美分,求出售猪的最佳时间。 建立数学模型的五个步骤: 1.提出问题 2.选择建模方法 3.推到模型的数学表达式 4.求解模型 5.回答问题 第一步:提出问题 将问题用数学语言表达。例子中包含以下变量:猪的重量w(磅),从现在到出售猪期间经历的时间t(天),t天内饲养猪的花费C(美元),猪的市场价格p(美元/磅),出售生猪所获得的收益R(美元),我们最终要获得的净收益P(美元)。还有一些其他量,如猪的初始重量200磅。 (建议先写显而易见的部分) 猪从200磅按每天5磅增加 (w磅)=(200磅)+(5磅/天)*(t天) 饲养每天花费45美分 (C美元)=(0.45美元/天)*(t天) 价格65美分按每天1美分下降 (p美元/磅)=(0.65美元/磅)-(0.01美元/磅)*(t天) 生猪收益 (R美元)=(p美元/磅)*(w磅) 净利润 (P美元)=(R美元)-(C美元) 用数学语言总结和表达如下: 参数设定: t=时间(天)

w=猪的重量(磅) p=猪的价格(美元/磅) C=饲养t天的花费(美元) R=出售猪的收益(美元) P=净收益(美元) 假设: w=200+5t C=0.45t p=0.65-0.01t R=p*w P=R-C t>=0 目标:求P的最大值 第二步:选择建模方法 本例采用单变量最优化问题或极大—极小化问题 第三步:推导模型的数学表达式子 P=R-C (1) R=p*w (2) C=0.45t (3) 得到R=p*w-0.45t p=0.65-0.01t (4) w=200+5t (5) 得到P=(0.65-0.01t)(200+5t)-0.45t 令y=P是需最大化的目标变量,x=t是自变量,现在我们将问题转化为集合S={x:x>=0}上求函数的最大值: y=f(x)=(0.65-0.01x)(200+5x)-0.45x (1-1) 第四步:求解模型 用第二步中确定的数学方法解出步骤三。例子中,要求(1-1)式中定义的y=f (x)在区间x>=0上求最大值。下图给出了(1-1)的图像和导数(应用几何画板绘制)。在x=8为全局极大值点,此时f(8)=133.20。因此(8,133.20)为f在整个实轴上的全局极大值点,同时也是区间x>=0上的最大值点。 第五步:回答问题 根据第四步,8天后出售生猪的净收益最大,可以获得净收益133.20美元。只要第一步中的假设成立,这一结果正确。

数学建模之数据处理 03 版

在某海域测得一些点(x,y)处的水深z由下表给出,船的吃水深度为5英尺, (2)在矩形区域(75,200)*(-50,150)作二维三次插值法; (3)做海底曲面图; (4)作出水深小于5的海域范围,即z=5的等高线。 解: 解答: Matlab程序: x=[129,140,103.5,88,185.5,195,105,157.5,107.5,77,81,162,162,117.5]; y=[7.5,141.5,23,147,22.5,137.5,85.5,-6.5,-81,3,56.5,-66.5,84,-33.5]; z=[-4,-8,-6,-8,-6,-8,-8,-9,-9,-8,-8,-9,-4,-9]; xi=75:10:200; yi=-50:10:150; figure(1) z1i=griddata(x,y,z,xi,yi','nearest'); % 最邻近插值 surfc(xi,yi,z1i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(2) z2i=griddata(x,y,z,xi,yi'); % 双线性插值 surfc(xi,yi,z2i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(3) z3i=griddata(x,y,z,xi,yi','cubic'); % 双三次插值 surfc(xi,yi,z3i) xlabel('X'),ylabel('Y'),zlabel('Z') figure(4) subplot(1,3,1),contour(xi,yi,z1i,4,'b'); subplot(1,3,2),contour(xi,yi,z2i,4,'r'); subplot(1,3,3),contour(xi,yi,z3i,4,'g'); figure(5) % z=5的等高线 contour(xi,yi,z3i,7,'r');

数学建模案例分析--灰色系统方法建模2灰色预测模型GM(1-1)及其应用

§2 灰色预测模型GM(1,1)及其应用 蠕变是材料在高温下的一个重要性能。处于高温状态下的材料长期受到载荷作用时,即使其载荷较低,并且在短时间的高温拉伸试验中材料不发生变形,但在此情况下仍会有微小的蠕变,极端的情况下,甚至会使材料发生破坏。高温材料多应用于各种车辆的发动机及冶金厂中各种设备上,如果因蠕变引起破坏,可能造成很大的事故。 为了保证设备的安全可靠,在某一使用温度下,预先知道该材料对不同载荷应力下断裂的时间是很重要的。过去,人们都是通过蠕变试验测量断裂时间。而做蠕变试验时,需要很长时间才能得到结果,即使通过试验得出的数据,也只是对某几个具体试样而言,存在很大的偶然性,不能代表普遍的规律。如果将实测的数据用灰色系统理论来处理,可以预测在某一温度下的任何载荷应力的断裂时间。 一、灰色预测模型GM (1,1) 建模步骤如下: (1)GM (1,1)代表一个白化形式的微分方程: u aX dt dX =+)1() 1( (1) 式中,u a ,是需要通过建模来求得的参数;) 1(X 是原始数据) 0(X 的累加生成(AGO )值。 (2)将同一数据列的前k 项元素累加后生成新数据列的第k 项元素,这就是数据处理。表示为: ∑==k n n X k X 1 )0() 1()()( (2) 不直接采用原始数据) 0(X 建模,而是将原始的、无规律的数据进行加工处理,使之变得较有规 律,然后利用生成后的数据列来分析建模,这正是灰色系统理论的特点之一。 (3)对GM (1,1),其数据矩阵为 ???? ?? ? ? ?+--+-+-=1)]()1([5.01)]3()2([5.01)]2()1([5.0)1()1()1()1()1()1(N X N X X X X X B (3) 向量T N N X X X Y )](,),3(),2([)0()0()0( = (4)作最小二乘估计,求参数u a , N T T Y B B B u a 1)(?-=??? ? ??=α (4) (5)建立时间响应函数,求微分方程(1)的解为 a u e a u X t X at +-=+-))1(()1(?)0()1( (5)

数学建模 通信数据分析

通信数据分析 摘要 随着社会的发展与进步,通信技术不断发展,电话作为主要的通信工具已逐渐走进了千家万户。巨大的通信网络对当前的通信设备和业务提出了更高的要求,如何运用已知的通话记录数据改善通信设施和促进通信业务是通信公司面临的重大难题。 本文通过对300个用户连续10天的通话数据进行分析和处理,运用模糊聚类分析的基本知识,结合通话过程中实际状况,并使用MATLAB编程,建立了有效的数学模型,得到了合理的分类结果,并给出了对通信设施的具体改进建议。 针对问题1,模型一:只考虑每个用户10天总的通话时长,把用户分为高端,中端,低端3类。模型二:按照通话时长把用户分为较长,中等,较短用户,然后根据主叫多还是被叫多即主叫被叫的比值再分类,最终把用户分为6类。 针对问题2,假设公司推出的新业务是在一次通话中通话时长超过w分钟以后,降低收费为原来的b%。根据对三百个用户平均每次通话时间的分析,发现在某个时段的人数最为集中。占了总人数的71%,根据通信用户通信习惯及消费者行为分析,培养目标客户,提高客户的忠诚度,依赖度,进而实现通信公司的利润最大化 针对问题3,首先进行数据分类汇总,得到30个基站的使用率,同时综合考虑每个基站的地理位置和对基站使用的条件要求,对基站的合理性进行判断,对基站设施进行调整,去掉一些使用率低的基站,同时在使用率过高的基站附近增加新的基站,这样可以确保每一个基站都能被充分的利用,减少资源的闲置,又保证了通话质量。 关键词:聚类分析,通话时长,基站使用率

问题重述 通信技术的不断发展拉近了人与人之间的距离。电话作为主要的通信工具之一悄无声息地将我们联系在一起,形成一个巨大的社交网络。这个巨大的社交网络对当前的通信设备和业务提出了更高的要求。 如何利用现有的通话记录数据进行概括分析,以便做出合理的决策,进而改善通信设施。拓展新的通信业务,依然是许多通信公司面临的难题。 附件给出了一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,试回答下列问题。 1. 请根据这些通话记录信息建立数学模型以对用户分类,并说明运用此模 型对300个用户的分类结果。 2. 如果需要推出一款新的通信业务,如何合理选择部分用户作为首选推广 人群。说明你的理由,并撰写一份不超过两页的给公司经理的建议。 3 该地现有的通信设施(如基站等)建设情况是否合理。如需改进,请给出合理的建议。 问题的分析 对于问题1,目的是对通信用户进行合理的分类,首先就要确定分类指标和分类的明确界线,通话时长是判断用户消费量的有效指标,通话时间越长则话费越高,通信公司获利越多。建立两种模型,模型一,对数据进行处理后得到每个用户10天的总通话时长,并用Excel对数据进行排序和整合,做出图表和频数直方图,然后按照10天的总通话时长分为高端用户,中端用户,低端用户。模型二,主叫被叫的多少反映了用户的通话消费习惯,按照主叫被叫比与通话总时长综合考虑,用户可分为6类。 对于问题二,假设推出的新业务是通话时间超过W分钟后,每分钟话费为原来的b%,我们通过对数据处理分析得到每个用户平均每次通话时长,观察总体通话情况,发现总体平均通话时长附近恰是用户最集中的时段,故我们确定面向中端用户的推广方案。在方案实施中,我们以利润最大化为目标,采用所有用户都可参与且愿意享受优惠的标准,先得到通话时间在x分钟内占总人数的概率函数,再对函数积分分别计算原来和推广方案实施后的话费总收入。 对于问题3,对基站的合理性进行分析,并得出具体的改进措施。 对基站进行资源优化,首先分析每个基站的使用次数和通话总时长,使用率过高的基站处要增加新的基站,分担该基站的工作量,不是该基站过于繁忙,保证通话质量。同时对于那些基站比较多并且每个基站的使用次数少通话总时长短的区域,减少适当的基站仍能满足通话需求,过多的基站反而是资源的一种浪费。所以可以根据基站工作量和基站的地理位置综合考虑,具体分析,对基站进行合理的规划。 基站的工作量反映在通话时长,根据数据可知1个用户的总通话时长与总次数成正相关关系,并且总次数代表使用频繁度,所以用总通话次数代表基站的使用效率。

相关文档
相关文档 最新文档