文档库 最新最全的文档下载
当前位置:文档库 › 2017全国数学建模B题

2017全国数学建模B题

2017全国数学建模B题
2017全国数学建模B题

题目

摘要

1问题的重述

基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。对于整个过程当中,任务的定价问题成为了核心关键。当定价过高时,商家所付出的代价太大;当定价过低时,会员拒接此类任务,最终导致商品检查(任务)失败。请讨论以下问题:

问题一根据对所给的附件一已结束项目任务数据的研究,研究(找出)项目任务的定价规律,同时分析部分任务未完成的原因。

问题二根据问题一的情况为附件一中的项目设计一个新的任务定价方案,并且与原方案进行比较。

问题三考虑到实际情况中,绝大多数用户会争相竞争选择位置比较集中的多个任务,因此,商家(平台)考虑将这些任务联合在一起打包发布。基于这种条件,对问题二的定价模型进行相应的修改并且分析此类情形对最终任务的完成情况有什么影响。

问题四根据前三问分析所建立出来的定价模型给出附件三中新项目的任务定价方案,并且评价该方案的实施效果。

2问题分析

“拍照赚钱”的任务实际上就是通过劳务众包的方式进行工作,所谓众包就是将原本由企业内部员工完成的任务,以开放的形式外包给未知的且数量庞大的群体来完成。在本题所涉及到的自助式劳务众包平台,企业将所需搜集的信息通过APP这个平台,展现在大众面前,大众根据自身情况来对一系列任务进行选择性的完成,最终得到相应的奖金。

问题一中对于任务悬赏金额量的确定是由一系列因素决定的,包括任务发布者所期望得到的作品数量、同期不同发布商所给的悬赏金、任务的难易程度、任务的期限等,对于问题一我们可以将这些因素都考虑进去,挖掘出各因素对于定价的影响规律,最终确定项目任务的定价规律,在综合分析实际情况和用户的信誉程度影响,来归纳出任务未完成的原因。

问题二中对于任务未完成情况的再分析,在问题一建立的模型的基础上,再考虑任务量,交通便利性等因素,将这些因素考虑进去之后,充分考虑任务点周围会员的信誉值情况,讨论任务未完成跟低信誉会员之间有什么关系,建立新的任务定价模型再给出新的任务定价方案,最后结合计算机对任务进行模拟仿真,得到在新任务定价条件下的各区域任务完成率和总完成率,将这个指标与之前的指标进行比较,可判断新任务定价方案是否优于模型一。

问题三中对于任务分布聚集规律提出打包的思想,将几个分布较近的任务进行捆绑,所以问题二中对于会员信誉值的考虑方法不再适用于本问题,所以要提出另一种思路对信誉值进行考虑,同时会员选取任务包时会被预定任务限额所限制,所以在该模型当中应该将这个因素考虑进去,充分结合任务包内各个任务的分类情况以及任务包与任务包之间的距离提出两个修正因子,将模型一进行修正,

最后还是通过任务完成率分析该模型的可行性。

问题四就是直接将附件三中的数据代入模型二当中得出相应的任务赏金,最后通过建立一个评价模型来对整个模型的实用性进行分析,得出该方案的评价结果。

3符号约定

赏金

关于会员数量因素的赏金

会员的预定任务限额

单个任务点周围分布的会员数量

任务包之间的距离

4模型的假设

1.在计算任务点周围的会员数量时,假设在2000米内为任务点的周围。

2.本城市的会员只会选择并完成本城市的任务不会去完成其他城市的任务。

3.任务的定价只与内部因素有关,不受外部行业的影响。

5问题一模型的建立与求解

5.1模型的准备

对于任务悬赏金额量的确定是由一系列因素决定的,包括任务发布者所期望得到的作品数量、同期不同发布商所给的悬赏金、任务的难易程度、任务的期限等,对于问题一我们可以将这些因素都考虑进去,挖掘出各因素对于定价的影响规律,将总的任务区域划分成4个不同的区域分别为广州区域、佛山区域、东莞区域、深圳区域,计算完成透视率和判断是否存在资源过剩情况。

5.2区域划分

通过对附件一的数据进行提取可以得出所有任务的分布区域如图1所示:

图1 任务分布图

从图一可以看出附件一所给出任务分布在四个市,分别为广州、佛山、东莞、深圳,任务的分布特点是离四个市市中心越近的区域任务越多,而对于距市中心较远的地方任务分布较少,因此本文通过对任务进行分类聚合,把任务分布规律相同的点放在一起进行讨论,将任务分布区域划分为四个板块。

对附件一的数据进行再分析通过MATLAB可得不同任务的悬赏金额如图2所示:

图2 任务悬赏金额分布图

根据图1我们可以看出任务分布主要集聚在广州市、佛山市、东莞市和深圳市,在此对问题进行分析,可以将不同地区的同一任务简化成四个分布在同一地区的同一任务,分别为广州区域、佛山区域、东莞区域、深圳区域。

根据附件一中各种任务的完成情况,可以得到任务是否完成的分布图如图3所示:

图3 任务完成分布图

因为这四个区域都是属于同一任务,所以四个区域任务的情况大致相同,表现为任务完成规律大致相同,任务分布规律大致相同,所以四个区域的任务定价规律也应该是大致相同,在此对广州市进行分析,得到的结果同样也应适用于其他三个区域。

因此本文首先考虑广州区域,同理可得其余三个地区的情况,最后可以得到四个区域的任务情况。

5.3单个区域APP定价模型的建立

对数据进行筛选之后只考虑广州区域的任务分布如图4所示:

图4 广州区域的任务分布图

从图4可以看出在广州区域内,大部分的任务都聚集在市中心而且聚集在市中心的任务都是赏金最少的,而距离市中心较远的任务赏金会增加。因此可以得出结论一:赏金数额与任务地距离市中心远近有关,并且距离市中心越近,赏金数额越少。结论二:赏金数额与任务地周围会员分别数量相关,任务地周围会员分布越多则赏金越低。

5.3.1路程因素的影响

从图中可以得到任务到市中心的距离与任务赏金成正相关,即距离市中心越远,任务赏金越高。通过对数据的提取运用MATLAB在图中标出相应的任务点,最后通过MATLAB进行拟合可以得到相对应的函数关系。

P表示任务的赏金数额,k表示任务地距离市中心的距离。通过在此用

1

MATLAB对这两项数据的拟合可以得到结果如图5所示:

图5 赏金数额与距离关系的拟合结果

通过图5我们可以得出赏金数额与距离市中心距离之间的关系:

5.3.2会员数量因素的影响

结合附件二可以得出分布在广州区域的会员位置信息如图6所示:

图6广州区域的会员位置信息

根据图6可以看出,在广州区域的会员当中,在市中心的会员数量占很大的比例,而在市中心的任务数量也很多,但是通过查询附件一的标价可知,市中心任务的悬赏金额较低,所以可以得出任务点周围的会员数量与任务赏金成负相关,即会员数量越多,赏金越低。通过对数据的提取运用MATLAB在图中标出相应的任务点,最后通过MATLAB进行拟合可以得到相对应的函数关系。

P表示任务的赏金数额,k表示任务地周围分布的会员数。通过在此用

2

MATLAB对这两项数据的拟合可以得到结果如图7所示:

图7 赏金数额与会员数量关系的拟合结果

通过图7我们可以得出赏金数额与任务地周围会员数量之间的关系:

5.3.2综合定价模型的建立

因为考虑到距离和会员数量不是单一的影响任务定价因素,任务定价是将这

两种因素综合考虑得到的,所以任务定价模型要将这两种因素综合考虑进去。任

务地距离市中心的距离和任务地周围会员数量都会影响任务的定价,所以可以得

出任务定价的基本式子:

已知αβ、是为决定任务价格因素的参数,前面所得的12P P 、都是根据自己

的参数所确定的定价,所以αβ、要满足+=1αβ,根据具体评优问题的实际,充

分考虑各类因素K O 在评优中所起的作用的大小,构造出成对比较矩阵22()ij A a ?=,

A 是2阶正互反矩阵。求A 的最大特征值max λ及相关的特征向量,并对特征向量

作归一化得

由随机一致性指标0RI =,计算一致性指标(1)CI 和一致性比率指标

(1)

(1)CI CR RI

=,若(1)0.1CR <,则说明0W 可作为权向量,否则要对A 的元素进行调整。

现构造出比较矩阵22()ij A a ?=,再根据上述方法得到该矩阵的最大特征值及

最大特征向量,在进行归一化可得到权向量0(0.67,0.33)W T =,再由组合一致性检

验得到(1)0.1CR <,所以这个向量可作为权向量。

根据上述内容可得出任务定价的模型:

5.4模型的检验

为了检验上述参数的可行性,本文再次提取附件一和附件二另外十组数据,

代入任务定价模型中,结果如表2所示:

行对比可知上述建立的任务定价模型适用于这次任务的定价情况,所以模型一任

务定价模型具有一定的可靠性。

5.5任务未完成原因的分析

根据附件一反馈的信息可知,不是所有的任务都成功完成,在835件任务当

中只有522件任务被成功完成,根据图3所示,绝大多数未完成的任务都分布在

广州市、佛山市、深圳市市中心。

通过计算可以得出各个区域的完成率以及总完成率如表3所示:

表3 完成率情况

率。在此,先分析理论基础,动机理论表明:人们的某个行为都是出于一定的动机。用户参与大数据众包活动同样是受到刺激而产生参与的意愿,这种刺激可能最初来自于外部,如金钱或物质奖励,也可能来自于内部,如享受乐趣、能力提高以

及自我肯定等【1】。动机理论能够直接从心理学和行为学的角度来分析用户行为的

思想、行为的意向以及实际的行为。所以本文认为动机理论在分析用户选取任务时,个人动机占很大的因素,其中不乏有接受任务消磨时光的存在,但是大部分会员都是抱着获得外部奖励去的。会员们会考虑自己完成任务后得到的奖励报酬与付出的努力是否相对等,如果付出的努力大于所得的报酬,那么会员就不会接收该类任务,然而这只是任务未完成的因素之一。根据图8所示的任务完成情况与会员分布图可以找出未完成任务的一些特点

图8 任务完成情况与会员分布图

根据对图8中的会员信息分析可得,在未完成的任务地点周围都分布大量的会员,但是这些会员的信誉值都普遍不高,有些还很低。通过分析得到任务未完成的原因可能是:

1.在未完成任务点周围的会员都是低信誉会员,这类会员接受了任务因为

自己的原因而不去完成任务。

2.在这些低会员当中,大部分抢占了人物资源导致高信誉会员接受不了此

类任务。

3.这些未完成任务的赏金普遍较低,对会员的吸引力不大,经过综合考虑

效率,会员接受此类任务会导致单位时间收益偏低。

4.对于距离未完成任务点的高信誉会员来说,路程较远是他们放弃任务的

主要因素。

6问题二模型的建立与求解

6.1模型的准备

通过问题一的分析本文得到了简单的任务定价模型,但是根据附件信息可知,任务完成情况差,根据问题一所列出的任务未完成的原因,经过图像对照,其中任务点周围充满了信誉值低的会员,因此该问就是解决问题一任务定价模型存在的不足,对模型进行完善和改进,最终得到一个新的任务定价方案,最后根据新的任务定价模型得出该任务的任务完成率与原方案进行对比,说明新模型是否可行。

6.2 改进定价模型的建立

考虑到会员的信誉值分布较广、波动较大的特点,以及各个信誉值人数的关系,本文将信誉值在20以下的会员定义为低信誉会员,信誉值在20以上的会员定义为高信誉会员,因为未完成任务的地点周围都存在大量的低信誉会员,所以这类任务的完成情况与这些低信誉会员有很大的关联(如图9所示)。

图9信誉度与任务完成情况分布图

最可能的原因就是这类低信誉会员在接收这些任务时,自己内心没有引起足够重视,导致任务没有及时完成或者直接被低信誉用户遗忘。造成这个现象最根

本的原因就是完成任务的赏金不高,因此只要做到提高这类任务的赏金就可以提高任务的完成率。

显然,赏金提升越高,任务完成率也就越高。但是,赏金却不是可以无限额的往上提升,而是在APP对此类任务所发布总赏金金额总数不变的情况下进行提升的,但是这类提升很显然就会影响到其他任务赏金的下降。

经过分析可知,这是一个线性规划求局部最优从而得到总体最优的问题。通过增加信誉值低的会员赏金和减少信誉值高的会员的赏金来达到局部最优,使得任务完成率最大。

根据附件二的信息可知,信誉值最高的为67997,而最低的才达到0.0001,可知这个范围是足够大的,但是不可能信誉值越高,完成任务的赏金减少的就越少,否则将会大大影响会员完成任务的情况。由附件二可知,绝大多数会员的信誉值在200以内,其中又以19.9231居多,因此可以将会员的信誉值进行分段处理分段结果为:

从上表可以得出,信誉值在0-19.9231的会员有617人占总人数的33%,信誉值在19.9231的会员有709人占总人数的38%,信誉值在19.9231-200的会员有403人占总人数的21%,信誉值在200以上的会员有148人占总人数的8%,其中0-19.9231信誉值的会员人数与19.9231-200信誉值的会员人数基本相等,所以除去200以上信誉值的会员,剩下的会员人数基本是关于19.9231对称的,因为根据信誉值越小需提高金额数越多、信誉值越高需降低金额数越多的原则,对任务价格进行相应的调整。

对信誉值在0-19.9231的会员需调整的价格进行分析,因为要考虑到调整价格的范围不宜过大,否则会严重影响任务的完成情况,所以在此规定任务价格波动范围在8块钱以内,分析0-19.9231之间有19.9231的间隔要使变化范围在8以内,可设:

?表示低信誉完成任务应增加的金额,根据上式就x表示会员的信誉值,P+

可以将增加的金额限制在9块钱以内,所以信誉增加的规律可通过上式进行计算。

对信誉值在19.9231-200的会员需调整的价格进行分析,因为要考虑到调整价格的范围不宜过大,否则会严重影响任务的完成情况,所以在此规定任务价格波动范围在9块钱以内,分析19.9231-200之间有180的间隔要使变化范围在8以内,可设:

?表示低信誉会员完成任务应降低的金额,根据上x表示会员的信誉值,P-

式就可以将增加的金额限制在8块钱以内,所以信誉降低的规律可通过上市进行计算。

综合任务金额增加或下降的情况我们可以得到基于问题一的定价改进模型:式中x表示会员的信誉值。在考虑了会员信誉值因素后,任务的难易程度也会影响到任务的定价,本文通过完成任务的时间来表现任务的难易程度,完成任务所需时间越长则表明该任务越难,反之则越简单。在此可以将完成任务的时间进行分段处理,大致将时间分为四个等级,10秒以内的为最简单,10秒至30秒为较简单,30秒至60秒为一般,60秒以上为困难。但是考虑到附件中没有给出相对应完成任务的时间,所以本文对任务的难易程度不给予考虑。

模型二的任务定价方案与模型一相比考虑因素更加全面,不仅考虑了任务点

距离市中心的距离、任务点周围会员的分布情况还考虑周围会员的信誉值情况,根据三类影响因素给出新的任务定价方案,较模型一提高了精度。

6.3模型的对比

根据模型二,将各个任务地理位置以及周围会员分布的有用信息代入可以得出各个任务的新定价,分析问题一任务完成情况与任务赏金之间的关系可知当任务赏金大于时任务基本全部被完成,所以通过计算机利用这类规律进行仿真可得该定价条件下各个区域的任务完成情况以及总完成情况如图10所示。

图10 任务完成情况对比图

图10与图3对比可清晰得知任务的完成率大大提高,各区域的任务完成率以及总完成率的对比如表4所示。

的情况下,任务完成率相比之前有了较大的提升。所以得出结论:现方案比原方案好。

7问题三模型的建立与求解

7.1模型的准备

通过问题二的分析本文得到了优化的任务定价模型,但是考虑将一些任务联合在一起进行打包处理,基于这种情况,模型二就不再适用于此类情况,所以应该在模型二的基础上进行优化,因为会员对打包任务的选取跟会员本身的信誉值有很大的关联,所以该问题对于信誉值的处理不再是问题二那么单一,将多个任务比较集中的区域进行打包,在经过主成分分析可得各个参数的值,因此建立相应的模型。

7.2聚集任务打包方案

根据问题一分类聚合的思想,本文通过分析广州市打包模型的建立得到总体的打包模型,在广州市任务分布情况当中,通过提取任务聚集程度高的地区当中中心任务的任务坐标点,通过MATLAB可以得到V oronoi图,通过建立V oronoi 图可以将广州市任务聚集程度高的任务进行打包处理,打包分布情况见图11:

图11 任务打包分布图

7.3打包条件下的模型建立

考虑到在一个包中,任务的分布情况不同(任务的数量以及与中心任务的距离大小)都会影响到任务的定价同时在结合会员的信誉值以及会员的预定任务限额,将这些因素依次考虑进去,最后通过主成分分析,分析出影响任务完成情况最主要的因素以及各个因素之间的参数值。

7.3.1信誉值因素的影响

信誉的大小直接影响了任务的接收情况以及完成任务后所得的赏金多少,信誉越好则会员越能尽早的选择接收任务,在此本文考虑在一个包中任务的分布情况结合信誉值,给出对模型一的一个修正量:

其中χ为修正量A的贡献度,d

?为任务包当中各个任务离中心任务位置的距离,但是对于信誉值x数据不标准因此在此对信誉值进行标准化处理:

因为信誉值是越高越好,所以信誉值为极大型指标,如果要对极大型的指标

j x '

(max{})

j j j j ij x M m M x =-=实现,由此可以将被评价对象的指标值变为'

{}(1,2,,)

j x i n =L 为极小型指标。然后再作极差变换将其数据标准化,即令 其中'

'min{}j ij m x =,'

'max{}j ij M x =。则相应的指标值变为''[0,1]ij x ∈,即为无

量纲的标准化指标。对应的分类区间

()()[,)j j k k a b 也随之相应地变化,在这里为了方便扔记为()()[,)(1,2,,;1)j j k k a b k K j m =≤≤L 。

记'x 为x 标准化处理后的结果,所以:

7.3.2预定任务限额因素的影响

预定任务限额的大小直接影响了任务的接收情况以及完成任务后所得的赏

金多少,预定任务限额越大则表明会员越能选择接收多的任务包,在此本文考虑

在广州市不同任务包的分布情况结合预定任务限额,给出对模型一的另一个修整

量:

其中γ为修正量B 的贡献度,D ?为广州市不同任务包之间的距离,但是对于任务限额y 数

据不标准,同样的任务限额也是极大型指标,因此在此对进行标准化处理得到'y 。所以修

正量B 的表达式为:

7.3.3打包模型的建立

根据上述分析的两类因素结合到模型一可得:

将修正量A 和B 代入式子可得:

7.3.4打包模型参数的确定

下面利用spss 进行主成分分析得到的结果:

(1)再将这些因素运用主成分分析之前,需对因素进行KMO 测度和Bartlett

的球形度检验的计算原公式。

AA:所有变量之间两两(不包括变量自己与自己)的偏相关系数的平方和X

和Y 的偏相关系数:X 和Z 线性回归得到的残差Rx 与 Y 和Z 线性回归得到的

残差Ry 之间的简单(peason)相关系数。这里的"Z"代表其他所有的变量;

BB :所有变量之间两两(不包括变量自己与自己)的相关系数的平方和。

当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,

KMO 值接近1。KMO 值越接近于1, 意味着变量间的相关性越强,原有变量越

适合作因子分析;当所有变量间的简单相关系数平方和接近0时,KMO 值接近

0。KMO 值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作因子分

析。

表5 KMO 和Bartlett 的检验

(2)碎石图:

图12 碎石图

λ>的只有四个成分,因此得到的主成分只通过碎石图可以很容易看出特征值1

有4个。

分1方差值为%,所以提取的成分1可以涵盖原来绝大部分数据。因此只用提取成分1即可。

(4)成分矩阵:

所以得到打包模型如上式所述。

7.4打包模型的评价

根据模型三,将各个任务地理位置以及周围会员分布的有用信息代入可以得出各个任务的新定价。经过分析可知,会员选择打包任务不仅和任务的赏金有关还和任务个数有关,所以这两个是影响会员选择任务包主要因素,再次将模型进行简化认为这两种因素对于会员选择任务的影响权重相当,都为0.5,分析问题一任务完成情况与任务赏金和相邻任务数量之间的关系可知当任务赏金大于时和当任务包中有四个及以上的任务都能被很好的完成,所以通过计算机利用这类规律进行仿真可得该定价条件下各个区域的任务完成情况以及总完成情况如图13所示。

图13 任务完成情况对比图

图13与图3对比可清晰得知任务的完成率大大提高,各区域的任务完成率以及总完成率的对比如表5所示。

大的情况下,任务完成率相比之前有了较大的提升。所以得出结论:打包方案比方案一和方案二好。

7问题四模型的建立与求解

7.1问题的分析

问题四主要考虑是根据普通情况下的定价模型二将附加三中的任务进行定价,最后通过与附件一中相邻任务位置点的比较可以得出在该模型定价方案与给定任务赏金的方差,方差越小则表明该方案效果越好。

7.2附件三任务的定价

根据问题二建立的模型:

可以得出基于附件三的任务定价,在此对任务进行筛选,将与附件一已完成的任务地分布相同的点选取出来,结果如表6所示。

表6 关联任务的定价分布情况

其余结果见附录。

7.3评价模型的建立

考虑到根据相同任务点由模型二计算出的任务赏金与附件一给出的任务赏金之间存在一定的波动范围,其中波动范围越小则说明该模型越好。

模型越好,所以为中间型指标。

对于中间型指标,对于中间型指标,即越靠近某个中间值评价效果越好。可用变换

其中1()2

j j j x M m =-,min{}j ij m x =,max{}j ij M x =。否则,取某一个理想值(0)

(,)j j j x m M ∈,则令

(0)

'

(1)j j

j j x x x j m x -=≤≤,

相应的指标值变化为'

{}[0,1]j x ∈,即为无量纲的标准化指标。对应的分类

区间()()[,)j j k

k a b 也随之相应地变化,在这里为了方便扔记为()()[,)(1,2,,;1)j j k k a b k K j m =≤≤L 。

所以评价模型为:

其中j Q 为检验模型可行性的指标,j Q 越小,则说明该模型可行性越高,越具有说服力和实用性。P ?是根据模型二所得的赏金与附件一的差值。

根据上述模型可以得到各个任务的Q 值,根据Q 值即可评价该方案的实施效

果。结果见表7:

表7 各任务的Q值

从上表可知,大部分的Q值都较小,因此可以得到结论,该方案的实施效果

较好,具有一定的可行性。

8 模型的优缺点及推广

8.1模型的优缺点分析

问题一当中确定路程因素对定价的影响和任务点周围的会员数量因素对定价的影响都依赖于回归曲线方程,因此结果取决于拟合成什么形式的方程。

虽然采用MATLAB分别建立起了关于这两因素的三次曲线回归模型,而由此计算出来的结果从整体来看,大体趋势与实际还是比较符合的。但是该模型仍然存在着很多问题。在对任务地区进行分类聚合时,所有特点只是大概相同,而本文对于至个问题的处理是分析一个就得到全部,所以有些许不妥。

在对不同模型的效果进行对比时,本文抓住了任务率这一关键因素能够较好的体现出模型之间的差异和优化。同时在进行计算任务完成率时,根据不同模型所考虑的重心不一样提出不同计算任务完成率的方法,能较好的体现出任务完成率。

8.2模型的推广

模型一、二、三分别从不同侧面满足了系统的设计要求,具有较强的合理性和实用性。并且这三个模型根据条件的改变由浅入深,步步拓宽,符合实际问题的解决方法和步骤,更重要的是得出的结果与实际结果误差小,具有很强的推广性。

9 参考文献

[1]吴金红.用户参与大数据众包活动的意愿和影响因素研究[J] 情报资料工作,2014年

第三期.

[2]姜启源.MA TLAB在数学建模中的应用[M] 桌金武.北京.北京航空航天大学出版社,

2011

[3]韩中庚.数学建模方法及其运用[M] 北京:高等教育出版社,2009.

附录

相关文档