当前位置：文档库 › 遗传算法的并行实现

遗传算法的并行实现

遗

传

算

法

（基于遗传算法求函数最大值）

指导老师：刘建丽

学号：S201007156

姓名：杨平

班级：研10级1班

遗传算法

一、遗传算法的基本描述

遗传算法（Genetic Algorithm ，GA ）是通过模拟自然界生物进化过程来求解优化问题的一类自组织、自适应的人工智能技术。它主要基于达尔文的自然进化论和孟德尔的遗传变异理论。多数遗传算法的应用是处理一个由许多个体组成的群体，其中每个个体表示问题的一个潜在解。对个体存在一个评估函数来评判其对环境的适应度。为反映适者生存的思想，算法中设计一个选择机制，使得：适应度好的个体有更多的机会生存。在种群的进化过程中，主要存在两种类型的遗传算子：杂交和变异。这些算子作用于个体对应的染色体，产生新的染色体，从而构成下一代种群中的个体。该过程不断进行，直到找到满足精度要求的解，或者达到设定的进化代数。显然，这样的思想适合于现实世界中的一大类问题，因而具有广泛的应用价值。遗传算法的每一次进化过程中的，各个体之间的操作大多可以并列进行，因此，一个非常自然的想法就是将遗传算法并行化，以提高计算速度。本报告中试图得到一个并行遗传算法的框架，并考察并行化之后的一些特性。为简单起见（本来应该考虑更复杂的问题，如TSP 。因时间有些紧张，做如TSP 等复杂问题怕时间不够，做不出来，请老师原谅），考虑的具有问题是：对给定的正整数n 、n 元函数f ，以及定义域D ，求函数f 在D 内的最大值。

二、串行遗传算法

1．染色体与适应度函数

对函数优化问题，一个潜在的解就是定义域D 中的一个点011(,,...,)n x x x -，因此，我们只需用一个长度为n 的实数数组来表示一个个体的染色体。由于问题中要求求函数f 的最大值，我们可以以个体所代表点011(,,...,)n x x x -在f 函数下的值来判断该个体的好坏。因此，我们直接用函数f 作为个体的适应度函数。

2．选择机制

选择是遗传算法中最主要的机制，也是影响遗传算法性能最主要的因素。若选择过程中适应度好的个体生存的概率过大，会造成几个较好的可行解迅速占据种群，从而收敛于局部最优解；反之，若适应度对生存概率的影响过小，则会使算法呈现出纯粹的随机徘徊行为，算法无法收敛。下面我们介绍在实验中所使用的选择机制。

我们定义P 为当前种群内所有个体的集合，

(0)(1)(1),,...,n x x x -为P 中所有个体的一个固定排列。若x

P ∈为某一个体，()f x 表示该个体的适应度，则种群P 的适应度定义为：

()0()()n i i s P f x -==

∑ 对任意个体x P ∈，x 的相对适应度定义为()()/()r x f x s P =。相对适应度()r x 反映了个体()i x 的适应度在整个适应度总和中所占的比例。个体适应度越高，被选中的概率越高。累积适应度定义为:

进行选择之前，先产

生一个0到1之间的随机实数t ，若满足1()()k k r x t r x +≤<，则第k+1个个体被选中。循环以上过程，即得到生成下一代种群的母体。

具体实现见如下函数：

void pop_select(void ) { int mem, i, j, k; double sum = 0; double p; /* 计算种群适应度之和 */

for (mem = 0; mem < POPSIZE; mem++) {

/* 按照累积适应度概率选取母体种群 */ for (i = 0; i < POPSIZE; i++) { p = rand()%1000/1000.0; if (p < population[0].cfitness) newpopulation[i] = population[0]; else { for (j = 0; j < POPSIZE;j++) if (p >= population[j].cfitness && p < population[j+1].cfitness) newpopulation[i] = population[j+1]; }

} /*计算种群的总适应度*/ for (i = 0; i < POPSIZE; i++) population[i] = newpopulation[i];

} sum += (population[mem].fitness - lower_fitness); }

/* 计算相对适应度 */

for (mem = 0; mem < POPSIZE; mem++) { population[mem].rfitness = (population[mem].fitness - lower_fitness)/sum; } population[0].cfitness = population[0].rfitness;

/* 计算累积适应度 */

for (mem = 1; mem < POPSIZE; mem++) { population[mem].cfitness = population[mem-1].cfitness + population[mem].rfitness; ()()

0()()k k i i c x r x ==∑

}

3．杂交算子

杂交算子的流程一般如下：

（1）按杂交概率选择一对参与进化的个体；

（2）随机确定一个截断点；

（3）将两个个体的染色体从截断点处截断，并交换，从而得到新的染色体。

具体算法见如下函数：

void crossover(void)

{

int i, j, k, m, point;

int first = 0;

double x;

for (k = 0; k < POPSIZE; k++) {

x = rand()%1000/1000.0; //产生随机交叉概率

if(x < PXOVER) /*如果随机交叉概率小于交叉概率，则进行交叉*/

{

first++;

if (first % 2 == 0) {

if (NVARS == 2) point = 1; //得到一个交叉点

else point = (rand() % (NVARS - 1)) + 1;

for (j = 0; j < point; j++)

//交叉运算，两个个体的交叉点前的基因进行交换

swap(&population[m].gene[j], &population[k].gene[j]);

}

else m = k;

}

4．变异算子

在遗传算法中使用变异算子有两个目的：改善遗传算法的局部搜索能力。维持群体的多样性，防止出现早熟现象。变异操作的实现相当简单，只需遍历各染色体的各个单元，按某一变异概率将该单元变成一个随机的合法值。

其执行过程是：

（1）对个体的每一个基因组，依变异概率Pm指定为变异点。

（2）对每一个指定的变异点，对其基因取非或者用其他等位基因值来代替，从而产生一个新的个体。实现代码如下：

void mutate(void)

{

int i, j;

double lbound, hbound;

double p; //定义p为随机变异概率

for (i = 0; i < POPSIZE; i++)

for (j = 0; j < NVARS; j++) {

p = rand()%1000/1000.0;

if (p < PMUTATION) {

population[i].gene[j] = randval(lower[j], upper[j]);

}

串行遗传算法的主要流程如图1所示。在每一次进化过程中，总是找出种群中的最优解与最差解，并将最优解保存，将本次最差解用上次保存的最优解替换，这样保证了各次进化的最优解的适应度不会降低，从而增快收敛的速度。

图1 串行遗传算法基本流程

三、算法设计

分析图1中的串行算法，容易看出，在选择函数中，计算相对适应度需要用到全局种群的适应度之和，计算个体x k+1的累积适应度依赖于x k的累积适应度，如果在并行算法中要原封不动地模拟串行算法的运算，这些数据依赖关系都将产生通讯。更为不幸的是，选择后的个体需在各进程中作大量数据迁移。杂交算子中，一次杂交需要用到母体中的两个个体，若在这两个个体分配在不同进程，则需要进行一次通讯。此后的变异和评估都可以非常容易的实现并行，并且完全不需要任何通讯。但最后一步求最优个体和最差个体需要对各进程进行归约。由这些分析可以看出，完全地模拟串行情形将使算法变得相当低效。

幸运地是，遗传算法本身是一个概率算法，我们完全可以对串行算法作些必要的改变。如图2所示，我们将整个种群分成p个子种群，每一子种群由一个单一的进程负责。各进程独立地完成串行遗传算法的整个过程，唯一不同的是选择函数。各进程作选择操作时，首先计算各子种群内的局部累积适应度，然后根据局部累积适应度选择若干（本算法实现中使用的是常数3，也可以设为子种群大小的一个函数）个体按一固定规则轮流发送到其他进程；同时，按照该规则相应地从其他进程获取若干用来进行交流的个体。获取到个体后，先将其暂存；然后按串行算法中的选择机制从原子种群中选择进行进化的母体；最后再用之前暂存的个体完成进程间的种群交流。对每一个待交流的个体，具体策略如下：

（1）随机地从本地的待进化母体种群内抽取与之进行交流的母体；

（2）比较本地个体与传送过来的待交流个体，选取适应度高者作为最终母

体。

各进程在每一次进化过程中，均分别保留各自的局部最优解，用来在下一次进化中替换局部最差的个体。各进程均完成所预定的进化迭代后，最后对各进程的局部最优解进行归约，从而得到整个算法的全局最优解。算法的主要流程详见图2。

图2 并行遗传算法基本流程

四、算法实现

该算法实现的最关键部分为选择中的种群交流，该功能有如下函数实现

void pop_select(void)

{

MPI_Status status;

MPI_Request handle;

int mem, i, j, k;

double sum = 0;

double p;

static struct genotype ex_member[EX_NUM];

/* 计算子种群的总适应度 */

for (mem = 0; mem < TASK_NUM(pid); mem++) {

sum += (population[mem].fitness - lower_fitness);

}

/* 计算各个体相应适应度 */

for (mem = 0; mem < TASK_NUM(pid); mem++) {

population[mem].rfitness =(population[mem].fitness - lower_fitness)/sum;

}

population[0].cfitness = population[0].rfitness;

/* 计算各个体累积适应度 */

for (mem = 1; mem < TASK_NUM(pid); mem++) {

population[mem].cfitness=population[mem-1].cfitness+population[mem].rf

itness;

}

/* 按照累积适应度概率选取种群交流个体，并发送和接收 */

for (i = 1; i <= EX_NUM; i++) {

p = rand()%1000/1000.0;

if (p < population[0].cfitness) {

MPI_Isend(&population[0], sizeof(struct genotype)/sizeof(char),

MPI_CHAR, (pid+i*generation)%pnum, 0, MPI_COMM_WORLD, &handle);

}

else {

for (j = 0; j < TASK_NUM(pid);j++)

if(p >= population[j].cfitness && p < population[j+1].cfitness){ MPI_Isend(&population[j+1], sizeof(struct

genotype)/sizeof(char), MPI_CHAR, (pid+i*generation)%pnum, 0, MPI_COMM_WORLD, &handle);

break;

}

MPI_Recv (&ex_member[i-1], sizeof(struct genotype)/sizeof(char), MPI_CHAR, (pid+(pnum-i)*generation)%pnum, 0, MPI_COMM_WORLD, &status);

}

/* 按照累积适应度概率选取母体种群 */

for (i = 0; i < TASK_NUM(pid); i++)

{

p = rand()%1000/1000.0;

if (p < population[0].cfitness)

newpopulation[i] = population[0];

else {

for (j = 0; j < TASK_NUM(pid); j++)

if (p >= population[j].cfitness &&

p < population[j+1].cfitness)

newpopulation[i] = population[j+1];

}

for (i = 0; i < TASK_NUM(pid); i++)

population[i] = newpopulation[i];

/* 按优胜劣汰的原则完成种群交流 */

for (i = 0; i < EX_NUM; i++) {

j = rand()%TASK_NUM(pid);

if (population[j].fitness < ex_member[i].fitness) {

for (k = 0; k < NVARS; k++) {

population[j].gene[k] = ex_member[i].gene[k];

} population[j].rfitness = 0; population[j].cfitness = 0; population[j].fitness = ex_member[i].fitness;

} } } 另外，全局最优解的归约由如下代码实现：

MPI_Op_create((MPI_User_function *)gene_max, 1, &my_op);

MPI_Reduce( local_best_individual, best_individual, NVARS+1,

MPI_DOUBLE, my_op, pnum-1, MPI_COMM_WORLD );

其中，具体的归约操作由如下函数实现：

void gene_max(double *in, double *inout, int *len, MPI_Datatype *dptr) { int i; if (inout[0] < in[0]) { /* 比较适应度 */ for (i=0; i < *len; ++i) { inout[i] = in[i]; /* 复制适应度较高的个体 */ } } }

五、算法分析与实验结果

下面的实验结果是在192.169.129.47上利用结点vC0—168-129-48（slaver ）和vC0—168-129-49（slaver ）和vC0—168-129-46（slaver ）获得的。用来计算最大值的函数为

625123456112346356

2222

23245613523561245(,,,,,)f x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x =-+--++

其定义域如文件yangping.txt 中所示，总种群大小为500，最大进化次数为2000。

表1 实验结果

结果分析：

表1中最为有趣的现象是，当进程数小于5时，该算法的加速比似乎与进程数p存在一个平方关系，也就是说，存在一个超线性加速的关系。进程数大于等于5时，这种超线性加速实际也应该存在，只是由于节点数的限制，被进程管理的开销所限制。下面我们通过估计时间复杂性来分析造成这种超线性加速的原因。

如果将对染色体中每一变元上的一个计算看作一个基本计算，并设变元数为k，总种群中个体数为n，进程数则对每一进程，分析容易得到：pop_select函数最坏情形的时间复杂性为O((kn/p)2)，crossover函数最坏情形的时间复杂性为O(kn/p)，mutate函数最坏情形的时间复杂性为O(kn/p)，评估函数最坏情形的时间复杂性为O(kn/p)，elitist函数最坏情形的时间复杂性为O(n/p+k)。此外，按照算法的设计，在选择过程中的通讯所耗费的时间为O(kn/p)。综合可知，一次进化的时间复杂性为O((kn/p)2)。因此，所有进程总的计算时间最坏情形的渐近上界为O((kn)2/p)。而串行遗传算法一次进化的时间复杂性为O((kn)2)，这就解释了为什么p小于5的情形会具有超线性加速。当然，这并不能说明并行计算真能产生超线性加速比，因为我们可以非常有效地用一个进程来模拟p个进程的计算，也就是说在串行的情形下也能达到这样的加速。真正值得研究的问题是分析上述建立并行遗传算法收敛速度与串行遗传算法的收敛速度之间的关系。不过从表1可以看出，进程增加时，解得质量并没有任何降低。

并行计算综述

并行计算综述姓名：尹航学号：S131020012 专业：计算机科学与技术摘要：本文对并行计算的基本概念和基本理论进行了分析和研究。主要内容有：并行计算提出的背景，目前国内外的研究现状，并行计算概念和并行计算机类型，并行计算的性能评价，并行计算模型，并行编程环境与并行编程语言。关键词：并行计算；性能评价；并行计算模型；并行编程 1. 前言网络并行计算是近几年国际上并行计算新出现的一个重要研究方向，也是热门课题。网络并行计算就是利用互联网上的计算机资源实现其它问题的计算，这种并行计算环境的显著优点是投资少、见效快、灵活性强等。由于科学计算的要求，越来越多的用户希望能具有并行计算的环境，但除了少数计算机大户（石油、天气预报等）外，很多用户由于工业资金的不足而不能使用并行计算机。一旦实现并行计算，就可以通过网络实现超级计算。这样，就不必要购买昂贵的并行计算机。目前，国内一般的应用单位都具有局域网或广域网的结点，基本上具备网络计算的硬件环境。其次，网络并行计算的系统软件PVM是当前国际上公认的一种消息传递标准软件系统。有了该软件系统，可以在不具备并行机的情况下进行并行计算。该软件是美国国家基金资助的开放软件，没有版权问题。可以从国际互联网上获得其源代码及其相应的辅助工具程序。这无疑给人们对计算大问题带来了良好的机遇。这种计算环境特别适合我国国情。近几年国内一些高校和科研院所投入了一些力量来进行并行计算软件的应用理论和方法的研究，并取得了可喜的成绩。到目前为止，网络并行计算已经在勘探地球物理、机械制造、计算数学、石油资源、数字模拟等许多应用领域开展研究。这将在计算机的应用的各应用领域科学开创一个崭新的环境。 2. 并行计算简介[1] 2.1并行计算与科学计算并行计算（Parallel Computing），简单地讲，就是在并行计算机上所作的计算，它和常说的高性能计算（High Performance Computing）、超级计算（Super Computing）是同义词，因为任何高性能计算和超级计算都离不开并行技术。

遗传算法并行化的研究.doc

遗传算法并行化的研究学号：SC02011036 姓名：黄鑫摘要本文是针对遗传算法并行化进行了研究，首先简要给出了基本遗传算法的形式化描述，然后做了并行性的分析，详细介绍了遗传算法的结构化并行模型：步进模型，岛屿模型，邻接模型，最后指出了进一步要研究的课题。关键词：遗传算法，并行计算，结构化GA 1引言遗传算法（GA）是根据达尔文进化论“优胜劣汰，适者生存”的一种启发式搜索算法。采用选择，交叉，变异等基本变化算子在解空间同时进行多点搜索，本身固有并行性。随着大规模并行机的迅速发展，将并行机的高速性与遗传算法并行性结合起来，从而促进遗传算法的发展。然而，仅仅将基本遗传算法硬件并行化伴随着大量通讯开销等问题，从而必须对标准GA的进行改进，使得并行遗传算法不单单是遗传算法硬件并行实现，更重要的是结构化的遗传算法。本文首先给出了GA形式化描述，对基本GA的可并行性做出分析，然后给出了并行GA的模型，最后指出了并行遗传算法还需要解决的问题。 2 基本遗传算法在这里我们不对遗传算法做过多的介绍，只是给出基本遗传算法的形式化描述：begin (1)initialization (1.1)产生一个初始群体 (1.2)评估第一代整个群体的适应度值（2）while running do (2.1)选择父代 (2.2)交叉操作 (2.3)子代变异 (2.4)评估子代的适应度 (2.5)子代取代父代，形成新的一带个体 endwhile end 3 遗传算法的并行性分析从第一节对遗传算法的描述，我们可以看出基本遗传算法模型是一个反复迭代的进化计算过程，通过对一组表示候选解的个体进行评价、选择、交叉、变异等操作，来产生新一代的个体(候选解)，这个迭代过程直到满足某种结束条件为止。对应于基本遗传算法的运行过程，为实现其并行化要求，可以从下面四种并行性方面着手对其进行改进和发展。并行性Ⅰ：个体适应度评价的并行性。个体适应度的评价在遗传算法中占用的运行时间比较大。通过对适应度并行计算方法的研究，可提高个体适应度评价的计算效率。并行性Ⅱ：整个群体各个个体适应度评价的并行性。

MATLAB分布式并行计算服务器配置和使用方法Word版

Windows下MATLAB分布式并行计算服务器配置和使用方法 1MATLAB分布式并行计算服务器介绍 MATLAB Distributed Computing Server可以使并行计算工具箱应用程序得到扩展，从而可以使用运行在任意数量计算机上的任意数量的worker。MATLAB Distributed Computing Server还支持交互式和批处理工作流。此外，使用Parallel Computing Toolbox 函数的MATLAB 应用程序还可利用MATLAB Compiler （MATLAB 编译器）编入独立的可执行程序和共享软件组件，以进行免费特许分发。这些可执行应用程序和共享库可以连接至MATLAB Distributed Computing Server的worker，并在计算机集群上执行MATLAB同时计算，加快大型作业执行速度，节省运行时间。 MATLAB Distributed Computing Server 支持多个调度程序：MathWorks 作业管理器（随产品提供）或任何其他第三方调度程序，例如Platform LSF、Microsoft Windows Compute Cluster Server（CCS）、Altair PBS Pro，以及TORQUE。使用工具箱中的Configurations Manager（配置管理器），可以维护指定的设置，例如调度程序类型、路径设置，以及集群使用政策。通常，仅需更改配置名称即可在集群间或调度程序间切换。 MATLAB Distributed Computing Server 会在应用程序运行时在基于用户配置文件的集群上动态启用所需的许可证。这样，管理员便只需在集群上管理一个服务器许可证，而无需针对每位集群用户在集群上管理单独的工具箱和模块集许可证。作业（Job）是在MATLAB中大量的操作运算。一个作业可以分解不同的部分称为任务（Task），客户可以决定如何更好的划分任务，各任务可以相同也可以不同。MALAB中定义并建立作业及其任务的会话（Session）被称为客户端会话，通常这是在你用来编写程序那台机器上进行的。客户端用并行计算工具箱来定义和建立作业及其任务，MDCE通过计算各个任务来执行作业并负责把结果返

遗传算法与优化问题

实验十遗传算法与优化问题一、问题背景与实验目的遗传算法(Genetic Algorithm —GA),就是模拟达尔文的遗传选择与自然淘汰的生物进化过程的计算模型，它就是由美国Michigan大学的J、Holla nd教授于1975 年首先提出的?遗传算法作为一种新的全局优化搜索算法，以其简单通用、鲁棒性强、适于并行处理及应用范围广等显著特点，奠定了它作为21世纪关键智能计算之一的地位. 本实验将首先介绍一下遗传算法的基本理论，然后用其解决几个简单的函数最值问题,使读者能够学会利用遗传算法进行初步的优化计算? 1. 遗传算法的基本原理遗传算法的基本思想正就是基于模仿生物界遗传学的遗传过程?它把问题的参数用基因代表，把问题的解用染色体代表(在计算机里用二进制码表示),从而得到一个由具有不同染色体的个体组成的群体?这个群体在问题特定的环境里生存竞争,适者有最好的机会生存与产生后代?后代随机化地继承了父代的最好特征，并也在生存环境的控制支配下继续这一过程.群体的染色体都将逐渐适应环境，不断进化,最后收敛到一族最适应环境的类似个体，即得到问题最优的解?值得注意的一点就是，现在的遗传算法就是受生物进化论学说的启发提出的，这种学说对我们用计算机解决复杂问题很有用，而它本身就是否完全正确并不重要(目前生物界对此学说尚有争议). (1)遗传算法中的生物遗传学概念由于遗传算法就是由进化论与遗传学机理而产生的直接搜索优化方法；故而在这个算法中要用到各种进化与遗传学的概念? 首先给出遗传学概念、遗传算法概念与相应的数学概念三者之间的对应关系这些概念

（2）遗传算法的步骤遗传算法计算优化的操作过程就如同生物学上生物遗传进化的过程，主要有三个基本操作（或称为算子）:选择（Selection）、交叉（Crossover）、变异（Mutation）. 遗传算法基本步骤主要就是：先把问题的解表示成“染色体”，在算法中也就就是以二进制编码的串，在执行遗传算法之前，给出一群“染色体”，也就就是假设的可行解.然后，把这些假设的可行解置于问题的“环境”中,并按适者生存的原则从中选择出较适应环境的“染色体”进行复制，再通过交叉、变异过程产生更适应环境的新一代“染色体”群.经过这样的一代一代地进化，最后就会收敛到最适应环境的一个“染色体”上，它就就是问题的最优解. 下面给出遗传算法的具体步骤，流程图参见图1: 第一步:选择编码策略，把参数集合（可行解集合）转换染色体结构空间；第二步:定义适应函数，便于计算适应值；第三步:确定遗传策略，包括选择群体大小，选择、交叉、变异方法以及确定交叉概率、变异概率等遗传参数；第四步:随机产生初始化群体；第五步:计算群体中的个体或染色体解码后的适应值；第六步:按照遗传策略，运用选择、交叉与变异算子作用于群体，形成下一代群体；第七步:判断群体性能就是否满足某一指标、或者就是否已完成预定的迭代次数,不满足则返回第五步、或者修改遗传策略再返回第六步. 图1 一个遗传算法的具体步骤

并行计算考试复习

1在并行机系统中，主流操作系统有UNIX/Linux，AIX(IBM)，HPUX(HP)，Solaris(SUN)，IRIX(SGI)等。 2 常用的并行算法设计的基本技术有划分，分治，倍增，流水域，破对称，平衡树等设计技术。 3 Matlab并行程序编写过程分为创建对象，创建工作，指定工作任务，提交工作，等待和返回计算任务结果六步。 1. 云计算是对（ D ）技术的发展与运用 A. 并行计算 B网格计算 C分布式计算 D三个选项都是 2. IBM在2007年11月退出了“改进游戏规则”的（ A ）计算平台，为客户带来即买即用的云计算平台。 A. 蓝云 B. 蓝天 C. ARUZE D. EC2 3. 微软于2008年10月推出云计算操作系统是（ C ） A. Google App Engine B. 蓝云 C. Azure D. EC2 4. 2008年，（ A ）先后在无锡和北京建立了两个云计算中心 A. IBM B. Google C. Amazon D. 微软 5. 将平台作为服务的云计算服务类型是（ B ） A. IaaS B.PaaS C.SaaS D.三个选项都不是 6. 将基础设施作为服务的云计算服务类型是（ A ） A. IaaS B.PaaS C.SaaS D.三个选项都不是 7. IaaS计算实现机制中，系统管理模块的核心功能是（ A ） A. 负载均衡 B 监视节点的运行状态 C应用API D. 节点环境配置 8. 云计算体系结构的（ C ）负责资源管理、任务管理用户管理和安全管理等工作 A.物理资源层 B. 资源池层 C. 管理中间件层 D. SOA构建层 9. 下列不属于Google云计算平台技术架构的是（ D ） A. 并行数据处理MapReduce B.分布式锁Chubby C. 结构化数据表BigTable D.弹性云计算EC2 10. 在目前GFS集群中，每个集群包含（ B ）个存储节点 A.几百个 B. 几千个 C.几十个 D.几十万个 11. 下列选项中，哪条不是GFS选择在用户态下实现的原因（ D ） A.调试简单 B.不影响数据块服务器的稳定性 C. 降低实现难度，提高通用性 D. 容易扩展 12. GFS中主服务器节点存储的元数据包含这些信息（ BCD ） A.文件副本的位置信息 B.命名空间 C. Chunk与文件名的映射 D. Chunk副本的位置信息 13. 单一主服务器（Master）解决性能瓶颈的方法是（ ABCD ） A.减少其在数据存储中的参与程度 B. 不适用Master读取数据 C.客户端缓存元数据 D. 采用大尺寸的数据块 14. （ B ）是Google提出的用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。 A. GFS B.MapReduce C.Chubby D.BitTable 15. Mapreduce适用于（ D ） A. 任意应用程序 B. 任意可在windows servet2008上运行的程序 C.可以串行处理的应用程序 D. 可以并行处理的应用程序

遗传算法概述

第1期作者简介：李红梅（1978-），女，湖南湘潭人，硕士，广东白云学院讲师，研究方向为演化计算。 1遗传算法的发展史遗传算法（Genetic Algorithms ）研究的历史比较短，20世纪 60年代末期到70年代初期，主要由美国家Michigan 大学的John Holland 与其同事、学生们研究形成了一个较完整的理论和方法，遗传算法作为具有系统优化、适应和学习的高性能计算和建模方法的研究渐趋成熟。我国对于GA 的研究起步较晚，不过从20世纪90年代以来一直处于不断上升中。 2遗传算法的基本思想遗传算法是从代表问题可能潜在解集的一个种群（popu- lation ）开始的，而一个种群则由经过基因（gene ）编码（coding ）的一定数目的个体（individual ）组成。每个个体实际上是染色体（chromosome ）带有特征的实体。染色体作为遗传物质的主要载体，即多个基因的集合，其内部表现是某种基因组合，它决定了个体的形状的外部表现。初代种群产生之后，按照适者生存和优胜劣汰的原理，逐代（generation ）演化产生出越来越好的近似解。在每一代中，根据问题域中个体的适应度（fitness ）、大小挑选（selection ）个体，借助于自然遗传学的遗传算子（genetic operators ）进行组合交叉（crossover ）和变异（mutation ），产生出代表新的解集的种群。这个过程将导致后生代种群比前代更加适应环境，末代种群中的最优个体经过解码（decoding ），可以作为问题近似最优解。 3遗传算法的一般流程（1）随机产生一定数目的初始种群，每个个体表示为染色体的基因编码；（2）计算每个个体的适应度，并判断是否符合优化准则。若符合，输出最佳个体及其代表的最优解并结束计算，否则转向第3步；（3）依据适应度选择再生个体，适应度高的个体被选中的概率高，适应度低的个体可能被淘汰；（4）执行交叉和变异操作，生成新的个体；（5）得到新一代的种群，返回到第2步。 4遗传算法的特点传统的优化方法主要有三种：枚举法、启发式算法和搜索算法：（1）枚举法可行解集合内的所有可行解，以求出精确最优解。对于连续函数，该方法要求先对其进行离散化处理，这样就可能因离散处理而永远达不到最优解。此外，当枚举空间比较大时，该方法的求解效率比较低，有时甚至在目前先进计算机工具上无法求解。（2）启发式算法寻求一种能产生可行解的启发式规则，以找到一个最优解或近似最优解。该方法的求解效率比较高，但对每一个需求解的问题必须找出其特有的启发式规则。这个启发式规则一般无通用性，不适合于其它问题。（3）搜索算法寻求一种搜索算法，该算法在可行解集合的一个子集内进行搜索操作，以找到问题的最优解或者近似最优解。该方法虽然保证不了一定能够得到问题的最优解，但若适当地利用一些启发知识，就可在近似解的质量和效率上达到一种较好的平衡。遗传算法不同于传统的搜索和优化方法。主要区别在于： ①遗传算法直接处理问题参数的适当编码而不是处理参数集本身。②遗传算法按并行方式搜索一个种群数目的点，而不是遗传算法概述李红梅（广东白云学院计算机系，广东广州510450）摘要：遗传算法是一种全局优化的随机搜索算法。它是解决复杂优化问题的有力工具。在工程设计、演化硬件电路设计以及人工智能等方面应用前景广阔。系统地介绍了遗传算法的发展史、基本思想、特点、主要应用领域等相关方面。关键词：遗传算法；搜索；进化；最优解；种群中图分类号：TP312 文献标识码：A 文章编号：1672-7800（2009）01-0067-02 第8卷第1期2009年1月 Vol.8No.1Jan.2009 软件导刊 Software Guide

分布式与并行计算报告

并行计算技术及其应用简介 XX （XXX，XX，XXX）摘要：并行计算是实现高性能计算的主要技术手段。在本文中从并行计算的发展历程开始介绍，总结了并行计算在发展过程中所面临的问题以及其发展历程中出现的重要技术。通过分析在当前比较常用的实现并行计算的框架和技术，来对并行计算的现状进行阐述。常用的并行架构分为SMP（多处理系统）、NUMA （非统一内存存储）、MPP（巨型并行处理）以及集群。涉及并行计算的编程模型有MPI、PVM、OpenMP、TBB及Cilk++等。并结合当前研究比较多的云计算和大数据来探讨并行计算的应用。最后通过MPI编程模型，进行了并行编程的简单实验。关键词：并行计算；框架；编写模型；应用；实验 A Succinct Survey about Parallel Computing Technology and It’s Application Abstract:Parallel computing is the main technology to implement high performance computing. This paper starts from the history of the development of Parallel Computing. It summarizes the problems faced in the development of parallel computing and the important technologies in the course of its development. Through the analysis of framework and technology commonly used in parallel computing currently,to explain the current situation of parallel computing.Framework commonly used in parallel are SMP(multi processing system),NUMA(non uniform memory storage),MPP(massively parallel processing) and cluster.The programming models of parallel computing are MPI, PVM, OpenMP, TBB and Cilk++, etc.Explored the application of parallel computing combined with cloud computing and big data which are very popular in current research.Finally ,through the MPI programming model,a simple experiment of parallel programming is carried out. Key words:parallel computing; framework; programming model; application; experiment 1引言近年来多核处理器的快速发展，使得当前软件技术面临巨大的挑战。单纯的提高单机性能，已经不能满足软件发展的需求，特别是在处理一些大的计算问题上，单机性能越发显得不足。在最近AlphaGo与李世石的围棋大战中，AlphaGo就使用了分布式并行计算技术，才能获得强大的搜索计算能力。并行计算正是在这种背景下，应运而生。并行计算或称平行计算时相对于串行计算来说的。它是一种一次可执行多个指令的算法，目的是提高计算速度，及通过扩大问题求解规模，解决大型而复杂的计算问题。可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术，而空间上的并行则是指用多个处理器并发的执行计算。其中空间上的并行，也是本文主要的关注点。并行计算（Parallel Computing）是指同时使用多种计算资源解决计算问题的过程，是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算系统既可以是专门设计的，含有多个处理器的超级计算机，也可以是以某种方式互联的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理，再将处理的结果返回给用户。目前常用的并行计算技术中，有调用系统函数启动多线程以及利用多种并行编程语言开发并行程序，常用的并行模型有MPI、PVM、OpenMP、TBB、Cilk++等。利用这些并行技术可以充分利用多核资源适应目前快速发展的社会需求。并行技术不仅要提高并行效率，也要在一定程度上减轻软件开发人员负担，如近年来的TBB、Cilk++并行模型就在一定程度上减少了开发难度，提高了开发效率，使得并行软件开发人员把更多精力专注于如何提高算法本身效率，而非把时间和精力放在如何去并行一个算法。

并行计算简介

并行计算简介 Blaise Barney, 劳伦斯利弗莫尔国家实验室译者：卢洋，同济大学原文地址：https://https://www.wendangku.net/doc/712257171.html,/tutorials/parallel_comp/ 目录 1 摘要 2 概述 2.1 什么是并行计算 2.2 为什么使用并行计算 3 概念和术语 3.1 冯诺依曼体系结构 3.2 Flynn经典分类法 3.3 一些通用的并行术语 4 并行计算机存储结构 4.1 共享内存 4.2 分布式内存 4.3 混合型分布式共享内存 5 并行编程模型 5.1 概览 5.2 共享内存模型 5.3 线程模型 5.4 消息传递模型 5.5 数据并行模型 5.6 其他模型 6 设计并行程序 6.1 自动化vs. 手工并行化 6.2 问题的理解和程序 6.3 问题分解

6.4 通信 6.5 同步 6.6 数据依赖 6.7 负载平衡 6.8 粒度 6.9 I/O 6.10 并行程序设计的限制和消耗 6.11 性能分析与调整 7 并行示例 7.1 数组程序 7.2 PI 的计算 7.3 简单的加热等式 7.4 一维的波等式 8 参考和更多信息 1 摘要为了让新手更加容易熟悉此话题，本教程覆盖了并行计算中比较基础的部分。首先在概述中介绍的是与并行计算相关的术语和概念。然后探索并行存储模型和编程模型这两个话题。之后讨论一些并行程序设计相关的问题。本教程还包含了几个将简单串行化程序并行化的例子。无基础亦可阅读。 2 概述 2.1 什么是并行计算传统上，一般的软件设计都是串行式计算： -软件在一台只有一个CPU的电脑上运行； -问题被分解成离散的指令序列； -指令被一条接一条的执行； -在任何时间CPU上最多只有一条指令在运行图

华南理工大学分布式计算期末考试卷题整理

华南理工大学分布式计算期末考试卷题整理第一章：分布式 1）并行计算与分布式计算区别？（1）所谓分布式计算是一门计算机科学，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。与并行计算不同的是，并行计算是使用多个处理器并行执行单个计算。 2）分布式计算的核心技术是？进程间通信IPC！！！ 3）解决进程间通信死锁的两种方法？超时和多线程 4）分布式系统的CAP理论是什么？一致性，可用性，分区容忍性第二章：范型 1)网络应用中使用的最多的分布式计算范型是？客户-服务器范型（简称CS范型） 2)消息传递范型与消息中间件范型异同？消息传递：一个进程发送代表请求的消息，该消息被传送到接受者；接受者处理该请求，并发送一条应答消息。随后，该应答可能触发下一个请求，并导致下一个应答消息。如此不断反复传递消息，实现两个进程间的数据交换. 基于该范型的开发工具有Socket应用程序接口（Socket API）和信息传递接口（Message Passing Interface，MPI）等消息系统模型可以进一步划分为两种子类型：点对点消息模型（Point- to-point message model）和发布订阅消息模型（Public/Subscribe message model）。在这种模型中，消息系统将来自发送者的一条消息转发到接收者的消息队列中。与基本的消息传递模型不同的是，这种中间件模型提供了消息暂存的功能，从而可以将消息的发送和接受分离。与基本的消息传递模型相比，点对点消息模型为实现异步消息操作提供了额外的一层抽象。如果要在基本的消息传递模型中达到同样的结果，就必须借助于线程或者子进程技术。 3)一个分布式应用能否使用多个分布式计算范型？可以，部分。

并行计算环境介绍

并行计算环境介绍计算机系04 级研究生武志鹏 1 MPI简介目前两种最重要的并行编程模型是数据并行和消息传递。数据并行编程模型的编程级别比较高，编程相对简单，但它仅适用于数据并行问题；消息传递编程模型的编程级别相对较低，但消息传递编程模型可以有更广泛的应用范围。 MPI就是一种消息传递编程模型，并成为这种编程模型的代表和事实上的标准。 1.1什么是 MPI 对MPI的定义是多种多样的，但不外乎下面三个方面： (1) MPI是一个库，而不是一门语言； (2) MPI是一种标准或规范的代表，而不特指某一个对它的实现； (3) MPI是一种消息传递编程模型，MPI虽然很庞大，但是它的最终目的是服务于进程间通信这一目标的。 1.2 MPI的历史 MPI的标准化开始于1992年4月在威吉尼亚的威廉姆斯堡召开的分布存储环境中消息传递标准的讨论会，由Dongarra,Hempel,Hey和 Walker建议的初始草案，于1992年11月推出并在1993年2月完成了修

订版，这就是MPI 1.0。 1995年6月推出了MPI的新版本MPI1.1，对原来的MPI作了进一步的修改完善和扩充。在1997年7月在对原来的MPI作了重大扩充的基础上又推出了MPI 的扩充部分MPI-2，而把原来的MPI各种版本称为MPI-1。 MPI-2的扩充很多但主要是三个方面：并行I/O、远程存储访问和动态进程管理。 1.3 MPI的语言绑定在MPI-1中明确提出了MPI和FORTRAN 77与C语言的绑定，并且给出了通用接口和针对FORTRAN 77与C的专用接口说明。在MPI-2 中除了和原来的FORTRAN 77和C语言实现绑定之外，进一步与 Fortran90和C++结合起来。 1.4 MPI的实现版本 MPICH是一种最重要的MPI实现，它是与MPI-1规范同步发展的版本，每当MPI推出新的版本，就会有相应的MPICH的实现版本，另外它还支持部分MPI-2的特征。 LAM-MPI也是一种MPI实现，主要用于异构的计算机网络计算系统。以上2种版本的MPI实现可以分别从以下网址下载： MPICH(最新版本1.2.7): https://www.wendangku.net/doc/712257171.html,/mpi/mpich/ LAM-MPI(最新版本7.1.2)：

典型并行算法的实现性能分析

第４卷第５期２００３年１０月空军工程大学学报（自然科学版）ＪＯＵＲＮＡＬＯＦＡＩＲＦｏＲＣＥＥＮＣＩＮＥＥＲＩＮＧＵⅣＩｖＥＲＳｒｒＹｆＮＡＴＵＲＡＬＳＣＩＥＮＣＥＥＤｍ０Ｎｖｏ】４Ｎｏ５０ｃｔ．２００３典型并行算法的实现性能分析雷英杰１，霍红卫２（１空军工程大学导弹学院，陕西三原７１３８００；２．西安电子科技大学计算机学院，陕西西安７１００７１）摘要：讨论和分析了几种典型的并行算法及其各种处理方法在基于ｗｊｎｄｏｗｓｘＰ环境、消息传递接口ＭＰＩ并行编程环境支持和ｃ＋＋语言描述的编程实现问题，给出了相应并行程序详尽的计算结果，对比分析了它们的计算性能，以及它们对计算精度产生的影响。分析结论以相应并行算法的实际编程实现和试验计算数据为基础，可信度高。设计实例表明。分析方法是有效的。关键词：并行计算；消息传递接ｏ；并行算法；高性能计算中图分类号：ＴＰ３９３文献标识码：Ａ文章编号：１００９—３５１６（２００３）０５一００６７—０４并行算法计算性能问题是高端、高性能、大规模并行计算领域非常重要的研究内容…。本文以计算。值并行算法为例，通过对若于典型并行算法基于消息传递接口ＭＰＩ（ＭｅｓｓａｇｅＰ∞ｓｉｎｇ１１１ｔｅｒｆａｃｅ）编犁２１和ｃ语言描述的ＨｏｓⅡｅｓｓ程序实现及其运行结果的分析，给出一些新的对比分析结论。ｌＭＰＩ并行编程环境在基于ＭＰＩ的编程模型中，计算是由一个或多个彼此通过调用函数库函数进行消息收、发通信的进程所组成。在绝大部分ＭＰＩ实现中，一组固定的进程在程序初始化时生成。这些进程可以执行相同或不同的程序。进程间的通信可以是点到点的，也可以是群体的（ｃｏｌｌｅｃｔｉｖｅ）。ＭＰＩ最重要的特性是使用了称之为通信体的机构，允许程序员定义一种封装内部通信结构的模块。所谓通信体就是一个进程组加上进程活动环境，其中进程组就是一组有限或有序的进程集合。所谓有限意即组内包含有限数目的ｎ个进程依次按ｏ，１，…，ｎ—ｌ整数定序（Ｒａｎｋｅｄ）。ＭＰＩ中的进程活动环境是指系统指定的超级标记（ｓｕｐｅｒｔａｇ），它能安全地将彼此相互冲突的通信区分开来。每个通信体都有一个不同的、系统指定的进程活动环境，在这一个进程活动环境中发送的消息不能在另一个进程活动环境中被接收。ＭＰＩ不是一个独立的、白包含的软件系统，ＭＰＩ进程是重量级、单线程的进程”］。ＭＰＩ标准并不指明如何启动并行计算，它可通过命令行参数指定应被生成的进程数，然后按ｓＰＭＤ或ＭＰＭＤ方式执行程序”Ｊ。ＭＰＩ并行程序中经常需要一些进程组闻的群体通信，包括：①路障（Ｂａ而ｅＴ）——同步所有进程；②广播（Ｂｍａｄｃａｓｔ）——从一个进程发送一条数据给所有进程；③收集（Ｇａｔ｝ｌｅｒ）——从所有进程收集数据到一个进程；④散射（ｓｃａｔｃｅｒ）——从一个进程散发多条数据给所有进程；⑤归约（Ｒｅｄｕｃｔｉｏｎ）——包括求和、求积等。ＭＰＩ包含的函数多达２００个，它们的功能及参数描述参见文献［４］、［５］等。２问题与算法描述设计求ｗ值并行算法的关键是构造一个合适的函数，（＊），使得它计算起来既简便，误差又小。即使收稿日期：２００３—０５一１２基金项目：国家教育部骨干教师资助计划项目（ＧＧ一８１０—９００３９—１００３）资助作者简介：重摹杰（１９５６一），争，阵西渭南人，教授，博士生导师；主要从事智能信息处理与模式识别研究霍红卫（１９６３一），女，陕西西安人，主要从事算法设计与分析，并行与分布计算研究

并行遗传算法

并行遗传算法及其应用 1、遗传算法（GA）概述 GA是一类基于自然选择和遗传学原理的有效搜索方法，它从一个种群开始，利用选择、交叉、变异等遗传算子对种群进行不断进化，最后得到全局最优解。生物遗传物质的主要载体是染色体，在GA中同样将问题的求解表示成“染色体Chromosome”，通常是二进制字符串表示，其本身不一定是解。首先，随机产生一定数据的初始染色体，这些随机产生的染色体组成一个种群（Population），种群中染色体的数目称为种群的大小或者种群规模。第二：用适值度函数来评价每一个染色体的优劣，即染色体对环境的适应程度，用来作为以后遗传操作的依据。第三：进行选择（Selection），选择过程的目的是为了从当前种群中选出优良的染色体，通过选择过程，产生一个新的种群。第四：对这个新的种群进行交叉操作，变异操作。交叉、变异操作的目的是挖掘种群中个体的多样性，避免有可能陷入局部解。经过上述运算产生的染色体称为后代。最后，对新的种群（即后代）重复进行选择、交叉和变异操作，经过给定次数的迭代处理以后，把最好的染色体作为优化问题的最优解。 GA通常包含5个基本要素：1、参数编码：GA是采用问题参数的编码集进行工作的，而不是采用问题参数本身，通常选择二进制编码。2、初始种群设定：GA随机产生一个由N个染色体组成的初始种群（Population），也可根据一定的限制条件来产生。种群规模是指种群中所含染色体的数目。3、适值度函数的设定：适值度函数是用来区分种群中个体好坏的标准，是进行选择的唯一依据。目前主要通过目标函数映射成适值度函数。4、遗传操作设计：遗传算子是模拟生物基因遗传的操作，遗传操作的任务是对种群的个体按照它们对环境的适应的程度施加一定的算子，从而实现优胜劣汰的进化过程。遗传基本算子包括：选择算子，交叉算子，变异算子和其他高级遗传算子。5、控制参数设定：在GA的应用中，要首先给定一组控制参数：种群规模，杂交率，变异率，进化代数等。 GA的优点是擅长全局搜索，一般来说，对于中小规模的应用问题，能够在许可的范围内获得满意解，对于大规模或超大规模的多变量求解任务则性能较差。另外，GA本身不要求对优化问题的性质做一些深入的数学分析，从而对那些不

遗传算法的并行实现

遗传算法（基于遗传算法求函数最大值）指导老师：刘建丽学号：S201007156 姓名：杨平班级：研10级1班

遗传算法一、遗传算法的基本描述遗传算法（Genetic Algorithm ，GA ）是通过模拟自然界生物进化过程来求解优化问题的一类自组织、自适应的人工智能技术。它主要基于达尔文的自然进化论和孟德尔的遗传变异理论。多数遗传算法的应用是处理一个由许多个体组成的群体，其中每个个体表示问题的一个潜在解。对个体存在一个评估函数来评判其对环境的适应度。为反映适者生存的思想，算法中设计一个选择机制，使得：适应度好的个体有更多的机会生存。在种群的进化过程中，主要存在两种类型的遗传算子：杂交和变异。这些算子作用于个体对应的染色体，产生新的染色体，从而构成下一代种群中的个体。该过程不断进行，直到找到满足精度要求的解，或者达到设定的进化代数。显然，这样的思想适合于现实世界中的一大类问题，因而具有广泛的应用价值。遗传算法的每一次进化过程中的，各个体之间的操作大多可以并列进行，因此，一个非常自然的想法就是将遗传算法并行化，以提高计算速度。本报告中试图得到一个并行遗传算法的框架，并考察并行化之后的一些特性。为简单起见（本来应该考虑更复杂的问题，如TSP 。因时间有些紧张，做如TSP 等复杂问题怕时间不够，做不出来，请老师原谅），考虑的具有问题是：对给定的正整数n 、n 元函数f ，以及定义域D ，求函数f 在D 内的最大值。二、串行遗传算法 1．染色体与适应度函数对函数优化问题，一个潜在的解就是定义域D 中的一个点011(,,...,)n x x x -，因此，我们只需用一个长度为n 的实数数组来表示一个个体的染色体。由于问题中要求求函数f 的最大值，我们可以以个体所代表点011(,,...,)n x x x -在f 函数下的值来判断该个体的好坏。因此，我们直接用函数f 作为个体的适应度函数。 2．选择机制选择是遗传算法中最主要的机制，也是影响遗传算法性能最主要的因素。若选择过程中适应度好的个体生存的概率过大，会造成几个较好的可行解迅速占据种群，从而收敛于局部最优解；反之，若适应度对生存概率的影响过小，则会使算法呈现出纯粹的随机徘徊行为，算法无法收敛。下面我们介绍在实验中所使用的选择机制。

对并行算法的介绍和展望——学期大作业

《计算机系统结构》大作业对并行算法的介绍和展望专业计算机科学与技术班级 111 学号 111425020133 姓名完颜杨威日期 2014年4月17日河南科技大学国际教育学院

对并行算法的介绍和展望我们知道，算法是求解问题的方法和步骤。而并行算法就是用多台处理机联合求解问题的方法和步骤，其执行过程是将给定的问题首先分解成若干个尽量相互独立的子问题，然后使用多台计算机同时求解它，从而最终求得原问题的解。并行算法的研究涉及到理论、设计、实现、应用等多个方面，要保持并行算法研究的持续性和完整性，需要建立一套完整的“理论－设计－实现－应用”的学科体系，也就是所谓的并行算法研究的生态环境。其中，并行算法理论是并行算法研究的理论基础，包含并行计算模型和并行计算复杂性等；并行算法的设计与分析是并行算法研究的核心内容；并行算法的实现是并行算法研究的应用基础，包含并行算法实现的硬件平台和软件支撑技术等；并行应用是并行算法研究的发展动力，除了包含传统的科学工程计算应用外，还有新兴的与社会相关的社会服务型计算应用等。并行算法主要分为数值计算问题的并行算法和非数值计算问题的并行算法。而并行算法的研究主要分为并行计算理论、并行算法的设计与分析、和并行算法的实现三个层次。现在，并行算法之所以受到极大的重视，是为了提高计算速度、提高计算精度，以及满足实时计算需要等。然而，相对于串行计算，并行计算又可以划分成时间并行和空间并行。时间并行即流水线技术，空间并行使用多个处理器执行并发计算，当前研究的主要是空间的并行问题。并行算法是一门还没有发展成熟的学科，虽然人们已经总结出了相当多的经验，但是远远不及串行算法那样丰富。并行算法设计中最常用的的方法是PCAM方法，即划分，通信，组合，映射。首先划分，就是将一个问题平均划分成若干份，并让各个处理器去同时执行；通信阶段，就是要分析执行过程中所要交换的数据和任务的协调情况，而组合则是要求将较小的问题组合到一起以提高性能和减少任务开销，映射则是要将任务分配到每一个处理器上。任何一个并行算法必须在一个科学的计算模型中进行设计。我们知道，任何算法必须有计算模型。任何并行计算模型必须要有为数不多、有明确定义的、可以定量计算的或者可以实际测量的参数，这些参数可以构成相应函数。并行计算模型是算法设计者与体系结构研究者之间的一个桥梁，是并行算法设计和分析的基础。它屏蔽了并行机之间的差异，从并行机中抽取若干个能反映计算特性的可计算或可测量的参数，并按照模型所定义的计算行为构造成本函数，以此进行算法的复杂度分析。经过多年的发展，我国在并行算法的研究上也取得了显著进展，并行计算的应用已遍布天气预报、石油勘探、航空航天、核能利用、生物工程等领域，理论研究与应用普及均取得了很大发展。随着高性价比可扩展集群并行系统的逐步成熟和应用，大规模电力系统潮流并行计算和分布式仿真成为可能。目前，并行算法在地震数据处理中应用已较为成熟，近年来向更实用的基于PC机群的并行技术发展.然而，在非地震方法中，并行算法应用较少见文献报道，研究尚处于初级研究阶段。在大地电磁的二维和三维正、反演问题上，并行计算技术逐渐得到越来越多关注和重视.随着资源和能源需求的增长，地球物理勘探向深度和广度快速发展，大幅增长的数据量使得高性能并行计算机和高效的并行算法在勘探地球物理学中的发展和应用将占据愈来愈重要的地位。计算机技术在生物医学领域已经广泛应用，实践证明，并行算法在生物医学工程的各个领域中具有广泛的应用价值，能有效提高作业效率。随着电子科学技术的发展，电磁问题变得越来越复杂，为了在有限的计算机资源条件下求解大规模复杂电磁问题，许电磁学家已

MapReduce求解物流配送单源最短路径研究

MapReduce求解物流配送单源最短路径研究摘要: 针对物流配送路线优化，提出了将配送路线问题分解成若干可并行操作的子问题的云计算模式。详细论述了基于标色法的MapReduce广度优先算法并行化模型、节点数据结构、算法流程和伪代码程序，并通过将该算法应用于快递公司的实际配送，验证了该算法的可行性。关键词: 物流配送； MapReduce；并行计算；最短路径随着电子商务的普及，人们网上购物的习惯逐渐形成。截止2012年11月30日，阿里巴巴集团旗下淘宝和天猫2012年总交易额已经突破一万亿。综合淘宝和天猫的交易数据来看，以快递员为主体的中国物流配送业对电子商务发展的促进起到了巨大作用。同时传统邮政担负的包裹配送业务比重也逐渐地倾斜于第三方物流配送公司。目前我国物流配送运输成本占整个物流成本的35%~50%左右[1]。由于网购物品用户分布在城市的不同地方,为了控制配送运输成本，改善配送秩序，需要优化配送路线。优化配送路线的求解有串行算法和并行算法。串行算法主要表现在基于算法本身以及其优化组合的方法,例如CLARK G和WRIGHT J的节约算法、GILLETT B E和MILLER L R的扫描算法、Christofides等人的k度中心树和相关算法、Gendrean的禁忌搜索方法、LAWRENCE J 的遗传算法、Dijkstra算法、Nordbeck提出的椭圆限制搜索区域改进算法[2]。随着计算数据的海量化以及摩尔定律的失效(晶体管电路已经接近了其物理改进的极限)，串行算法本身的改进和组合已不能适应需求。计算机科学领域出现了另一类并行最短路径分析算法设计，目前关于并行最短路径分析算法设计有基于MPI的主从Dijkstra并行算法[3]、MPI+open-MP混合算法[4]、社区分析的最短路径LC-2q并行算法[5]等。本文针对物流及时配送和成本控制需求，提出基于标色法的MapReduce广度优先算法并行化模型，并应用于配送线路优化问题。由于MapReduce本身封装了数据分割、负载均衡、容错处理等细节，用户只需要将实际应用问题分解成若干可并行操作的子问题，有效降低了求解难度，为解决物流配送运输路径优化问题提供了技术支持。1 MapReduce算法描述信息技术和网络技术的发展为云计算的产生提供了条件。MapReduce并行编程模型是云计算的核心技术之一。MapReduce是Google 实验室提出的一个分布式并行编程模型或框架, 主要用来处理和产生海量数据的并行编程模式，2004 年DEAN J和GHEMAWAT S第一次发表了这一新型分布式并行编程模型[6]。用户不必关注MapReduce 如何进行数据分割、负载均衡、容错处理等细节，只需要将实际应用问题分解成若干可并行操作的子问题，这种分解思路遵守主从架构模型。Mapreduce框架的主要程序分为Master、Map和Reduce。在Hadoop 中，MapReduce由一个主节点(Jobtracker,属于Master)和从节点(Tasktracker,属于Map和Reduce)组成[7]。1.1 基于标色法的MapReduce广度优先算法模型给定一个带权有向图,用G=(N，E，W)模型来表示，其中N={ni∣i=1,2，...，m}为完全图的点的集合；E={e(ni,nj)∣i≠j, ni,nj∈N}为弧段集；W={w(ni,nj)∣i≠j,ni,nj∈N}为权值集。一般向图的权值表示节点与节点之间的几何长度,记为w(ni,nj)=dij，dij表示节点ni到节点nj的距离。最短路径计算就是计算从起始点ni到终止点nj的最短几何长度之和为最小。在有向图起始点和终止点的最短路径计算中，MapReduce采用的是广度优先算法。MapReduce计算最短路径用邻接表来表示图，在邻接表中每一行数据构成Map和Reduce的一个数据内容。Map和Reduce的(key，value)中key为N，value值为与这个节点邻接的所有节点的 AdjacentList。在用标色法求解最短路径时，AdjacentList节点的信息包括源点到顶点的距离distance(除到本身的距离为0外，其余初始值皆为无穷大)；节点的颜色color(其值可分别取0、1、2，0表示未处理的顶点，1表示等待处理的顶点，2表示已处理的顶点，源点的初始值为1，其余顶点皆为0)；被访问顶点和边的权值记为N和W。顶点的数据结构如表1所示。