文档库 最新最全的文档下载
当前位置:文档库 › 基于分布式控制系统的冗余容错控制系统和方法与制作流程

基于分布式控制系统的冗余容错控制系统和方法与制作流程

基于分布式控制系统的冗余容错控制系统和方法与制作流程
基于分布式控制系统的冗余容错控制系统和方法与制作流程

图片简介:

本技术介绍了基于分布式控制系统的冗余容错控制系统和方法,涉及控制技术领域,解决了被控设备断路故障失控问题。本技术中冗余支路的电气控制模块的输出端并联连入k路被控制回路中所述控制支路的电气控制模块输出端的两端,选通支路用于控制所述冗余支路的电气控制模块的输出端k路并联支路的通断;当k路控制支路出现一条控制支路故障时,故障的控制支路为故障支路,冗余控制上位机主动发出数据通信导通故障支路对应的选通支路,所述冗余支路的电气控制模块输出端替换故障支路电气控制模块输出端的所在的故障支路回路位置。本技术以一条冗余控制支路可以对多条实际控制支路进行容错运行,灵活方便,节约了成本。

技术要求

1.基于分布式控制系统的冗余容错控制系统,其特征在于,包括一路冗余支路、k路控制支路和k路选通支路,其中k≥2且k为整数;

所述控制支路包括电气控制模块、被控设备,所述控制支路的电气控制模块的输出端与被控设备构成被控制回路;

所述冗余支路包括电气控制模块,所述冗余支路的电气控制模块的输出端,并联连入k路被控制回路中的所述控制支路的电气控制模块输出端的两端,形成k路并联支路;

k路选通支路为k个分别位于k路并联支路上,所述选通支路用于控制k路并联支路的通断。

2.根据权利要求1所述的基于分布式控制系统的冗余容错控制系统,其特征在于,所述冗余容错被控设备控制系统包括控制室,在控制室中控制控制支路的电气控制模块输入端信号,在控制室中控制冗余支路的电气控制模块输入端信号。

3.根据权利要求2所述的基于分布式控制系统的冗余容错控制系统,其特征在于,所述控制室包括分布式控制系统用上位机,所述分布式控制系统用上位机控制控制支路的电气控制模块输入端信号,所述分布式控制系统用上位机控制冗余支路的电气控制模块输入端信号。

4.根据权利要求1所述的基于分布式控制系统的冗余容错控制系统,其特征在于,所述选通支路包括多个MCU驱动的小型电机驱动电路、小型电机驱动电路发出电机控制信号驱动的机械旋转连接单元,MCU发出选通模块驱动信号控制选通模块驱动电路,选通模块驱动电路连入机械旋转连接单元控制k个选通模块;

机械旋转单元包括小型电机、转轴信号端子、固定信号端子,转轴信号端子接收选通模块驱动电路输出的信号,k个固定信号端子上对应k个选通模块,MCU通过电机间接控制转轴信号端子旋转到特定固定信号端子位置,所述特定固定信号端子对应的选通模块上导通,此时,冗余支路的电气控制模块代替所述特定固定信号端子对应的被控制回路中的电气控制模块,选通模块与被控制回路一一对应。

5.根据权利要求4所述的基于分布式控制系统的冗余容错控制系统,其特征在于,所述控制室包括冗余控制上位机,冗余控制上位机控制k路选通支路,冗余控制上位机通过发出信号与多个MCU进行数据通信间接控制k个选通模块。

6.根据权利要求4所述的基于分布式控制系统的冗余容错控制系统,其特征在于,所述选通模块驱动电路数目为一。

7.根据权利要求1-6任意一条所述的基于分布式控制系统的冗余容错控制系统,其特征在于:

所述电气控制模块包括固态继电器;

所述被控设备包括电磁阀、电源;

所述固态继电器包括输入侧、输出侧;

分布式控制系统用上位机发出信号至控制支路的固态继电器输入侧,响应固态继电器输出侧;

所述固态继电器的输出侧与电磁阀和电源构成被控制回路;

分布式控制系统用上位机控制所述被控制回路的通断;

通过选通支路通断选择将冗余支路的固态继电器替换控制支路的固态继电器;

主动控制选通支路用于将一条冗余支路中的固态继电器替换出现故障的控制支路中的固态继电器。

8.根据权利要求1-6任意一条所述的基于分布式控制系统的冗余容错控制系统,其特征在于,所述选通模块包括冗余容错单向晶闸管;

所述冗余容错单向晶闸管包括控制端和被控端;

MCU通过小型电机驱动电路发出电机控制信号运行小型电机用于操作机械旋转单元,主动旋转多个机械旋转单元变更k个冗余容错单向晶闸管中特定固定信号端子对应的选通模块的状态,机械旋转单元发出切换信号输入至所述冗余容错单向晶闸管的控制端,所述冗余容错单向晶闸管的被控端连入所述k路并联支路的路径上,冗余控制上位机与MCU进行数据通信。

9.基于分布式控制系统的冗余容错被控设备控制方法,其特征在于,基于权利要求1-6任意一条所述的基于分布式控制系统的冗余容错控制系统,控制方法如下:

当k路控制支路出现一条控制支路故障时,故障的控制支路为故障支路,冗余控制上位机主动发出数据通信导通故障支路对应的选通支路,所述冗余支路的电气控制模块输出端替换故障支路电气控制模块输出端的所在的故障支路回路位置。

技术说明书

基于分布式控制系统的冗余容错控制系统和方法

技术领域

本技术涉及工业控制技术领域,具体涉及基于分布式控制系统的冗余容错控制系统和方法。

背景技术

被控设备作为控制阀在工业生产乃至一些军工应用中扮演者重要的角色。化工、核电等行业中,控制阀往往起着关键作用,例如在某些高温高压的安全阀试验中,就会用到常闭被控设备、常开被控设备、双稳态被控设备等;在安全阀强制释放、强制关闭的试验中,被控设备作为释放、关闭开关,其安全可靠的工作至关重要。因此,在特殊应用环境中(例如高温高压环境中),针对多个控制阀,一旦发生了控制系统故障导致控制阀控制失灵,那么轻则造成设备损坏等经济损失,重则造成人员安全事故等。

目前来说针对被控设备控制系统多种故障、多条控制支路故障的研究成果少之又少。专利

US006147498A提出了一种只检测被控设备本身故障的装置,而对其控制环节不能进行故障诊断与故障容错;同时专利US006147498A也仅仅针对电磁控制执行器故障提出了检测系统;论文《System Identification and Fault Diagnosis of an ElectromagneticActuator》研究的内容是电磁驱动器本身的故障诊断及定位,没有涉及到控制系统的故障诊断与容错;论文《Research on Fault Analysis and Fault-tolerant Control ofValve Electric》研究的内容是电动阀门执行机构的故障诊断与容错控制,非被控设备控制系统故障诊断容错,可以看出目前出现的较多的研究成果都是关于被控设备本身的故障诊断。

所以,针对特殊环境、特殊行业中多个被控设备的应用环境,提出冗余容错被控设备控制系统不仅提高了系统可靠性,也避免了因为被控设备突然失去控制带来的不必要的损失。

技术内容

本技术所要解决的技术问题是:在多个被控设备的特殊应用场合,被控设备控制系统中测控系统测量模块断路故障、测控系统到被控设备控制电路之间的线路断路故障或者电气控制模块(固态继电器等)断路故障的发生会导致被控设备失去控制,进而造成不可估量的损失,本技术提供了解决上述问题的基于分布式控制系统的冗余容错控制系统和方法。

本技术通过下述技术方案实现:

基于分布式控制系统的冗余容错控制系统,包括一路冗余支路、k路控制支路和k路选通支路,其中k≥2且k为整数;

所述控制支路包括电气控制模块、被控设备,所述控制支路的电气控制模块的输出端与被控设备构成被控制回路;

所述冗余支路包括电气控制模块,所述冗余支路的电气控制模块的输出端并联连入k路被控制回路中所述控制支路的电气控制模块输出端的两端,形成k路并联支路;

k路选通支路为k个分别位于k路并联支路上,所述选通支路用于控制k路并联支路的通断。

进一步地,所述冗余容错被控设备控制系统包括控制室,在控制室中控制控制支路的电气控制模块输入端信号,在控制室中控制冗余支路的电气控制模块输入端信号。

进一步地,所述控制室包括分布式控制系统用上位机,所述分布式控制系统用上位机控制控制支路的电气控制模块输入端信号,所述分布式控制系统用上位机控制冗余支路的电气控制模块输入端信号。

进一步地,所述选通支路包括多个MCU驱动的小型电机驱动电路、小型电机驱动电路发出电机控制信号驱动的机械旋转连接单元,MCU发出选通模块驱动信号控制选通模块驱动电路,选通模块驱动电路连入机械旋转连接单元控制k个选通模块;

机械旋转单元包括小型电机、转轴信号端子、固定信号端子,转轴信号端子接收选通模块驱动电路输出的信号,k个固定信号端子上对应k个选通模块,MCU通过电机间接控制转轴信号端子旋转到特定固定信号端子位置,所述特定固定信号端子对应的选通模块上导通,此时,冗余支路的电气控制模块代替所述特定固定信号端子对应的被控制回路中的电气控制模块,选通模块与被控制回路一一对应。

进一步地,所述选通模块驱动电路数目为一。

进一步地,所述控制室包括冗余控制上位机,冗余控制上位机控制k路选通支路,冗余控制上位机通过发出信号与多个MCU进行数据通信间接控制k个选通模块。

进一步地,所述电气控制模块包括固态继电器、接触器。

所述被控设备包括电磁阀、电源;

所述固态继电器包括输入侧、输出侧;

分布式控制系统用上位机发出信号至控制支路的固态继电器输入侧,响应固态继电器输出侧;

所述固态继电器的输出侧与电磁阀和电源构成被控制回路;

分布式控制系统用上位机控制所述被控制回路的通断;

通过选通支路通断选择将冗余支路的固态继电器替换控制支路的固态继电器;

主动控制选通支路用于将一条冗余支路中的固态继电器替换出现故障的控制支路中的固态继电器。

所述选通模块包括冗余容错单向晶闸管;

所述冗余容错单向晶闸管包括控制端和被控端;

MCU通过小型电机驱动电路发出电机控制信号运行小型电机用于操作机械旋转单元,主动旋转多个机械旋转单元变更k个冗余容错单向晶闸管中特定固定信号端子对应的选通模块的状态,机械旋转单元发出切换信号输入至所述冗余容错单向晶闸管的控制端,所述冗余容错单向晶闸管的被控端连入所述k路并联支路的路径上,冗余控制上位机与MCU进行数据通信。

进一步地,工程人员在控制室中操作分布式控制板卡实现对分布式控制系统用上位机和冗余控制上位机的控制。

基于分布式控制系统的冗余容错被控设备控制方法,基于上述所述的基于分布式控制系统的冗余容错控制系统,控制方法如下:

当k路控制支路出现一条控制支路故障时,故障的控制支路为故障支路,冗余控制上位机主动发出数据通信导通故障支路对应的选通支路,所述冗余支路的电气控制模块输出端替换故障支路电气控制模块输出端的所在的故障支路回路位置。

本技术具有如下的优点和有益效果:

本被控设备冗余容错控制系统可以在多种故障情况下进行容错控制,包括有控制系统分布式控制板卡断路故障、测控系统到被控设备控制支路的线路断路故障或者电气控制模块(固态继电器等)断路故障。

本被控设备冗余容错控制系统以一条冗余支路可以对多条实际控制支路进行容错运行;无论哪一条被控设备控制支路发生控制环节的断路故障,都可以把控制支路切换到冗余支路,灵活方便;节约了昂贵的分布式控制板卡以及测控电缆,因此较低成本就可以实现冗余容错控制。

本被控设备冗余容错控制系统能提高关键用中的安全性和可靠性。

附图说明

此处所说明的附图用来提供对本技术实施例的进一步理解,构成本申请的一部分,并不构成对本技术实施例的限定。在附图中:

图1为本技术的模块示意图。

图2为本技术的机械旋转连接单元示意图。

具体实施方式

在对本技术的任意实施例进行详细的描述之前,应该理解本技术的应用不局限于下面的说明或附图中所示的结构的细节。本技术可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本技术中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本技术保护的范围。

实施例:

基于分布式控制系统的冗余容错控制系统,包括一路冗余支路、k路控制支路和k路选通支路,其中k≥2且k为整数;

所述控制支路包括电气控制模块、被控设备,所述控制支路的电气控制模块的输出端与被控设备构成被控制回路;

所述冗余支路包括电气控制模块,所述冗余支路的电气控制模块的输出端并联连入k路被控制回路中所述控制支路的电气控制模块输出端的两端,形成k路并联支路;

k路选通支路为k个分别位于k路并联支路上,所述选通支路用于控制k路并联支路的通断。

进一步地,所述冗余容错被控设备控制系统包括控制室,在控制室中控制控制支路的电气控制模块输入端信号,在控制室中控制冗余支路的电气控制模块输入端信号。

进一步地,所述控制室包括分布式控制系统用上位机,所述分布式控制系统用上位机控制控制支路的电气控制模块输入端信号,所述分布式控制系统用上位机控制冗余支路的电气控制模块输入端信号。

进一步地,所述选通支路包括多个MCU驱动的小型电机驱动电路、小型电机驱动电路发出电机控制信号驱动的机械旋转连接单元,MCU发出选通模块驱动信号控制选通模块驱动电路,选通模块驱动电路连入机械旋转连接单元控制k个选通模块;

机械旋转单元包括小型电机、转轴信号端子、固定信号端子,转轴信号端子接收选通模块驱动电路输出的信号,k个固定信号端子上对应k个选通模块,MCU通过电机间接控制转轴信号端子旋转到特定固定信号端子位置,所述特定固定信号端子对应的选通模块上导通,此时,冗余支路的电气控制模块代替所述特定固定信号端子对应的被控制回路中的电气控制模块,选通模块与被控制回路一一对应。

进一步地,所述控制室包括冗余控制上位机,冗余控制上位机控制k路选通支路,冗余控制上位机通过发出信号与多个MCU进行数据通信间接控制k个选通模块。

进一步地,所述选通模块驱动电路数目为一。

进一步地,所述电气控制模块包括固态继电器、接触器。

所述被控设备包括电磁阀、电源;

所述固态继电器包括输入侧、输出侧;

分布式控制系统用上位机发出信号至控制支路的固态继电器输入侧,响应固态继电器输出侧;

所述固态继电器的输出侧与电磁阀和电源构成被控制回路;

分布式控制系统用上位机控制所述被控制回路的通断;

通过选通支路通断选择将冗余支路的固态继电器替换控制支路的固态继电器;

主动控制选通支路用于将一条冗余支路中的固态继电器替换出现故障的控制支路中的固态继电器。所述选通模块包括冗余容错单向晶闸管;

所述冗余容错单向晶闸管包括控制端和被控端;

MCU通过小型电机驱动电路发出电机控制信号运行小型电机用于操作机械旋转单元,主动旋转多个机械旋转单元变更k个冗余容错单向晶闸管中特定固定信号端子对应的选通模块的状态,机械旋转单元发出切换信号输入至所述冗余容错单向晶闸管的控制端,所述冗余容错单向晶闸管的被控端连入所述k路并联支路的路径上,冗余控制上位机与MCU进行数据通信。

进一步地,工程人员在控制室中操作分布式控制板卡实现对分布式控制系统用上位机和冗余控制上位机的控制。

参见图1;

第一部分为分布式控制系统,分布式控制系统由工程师站,操作员站,系统控制网,过程处理站。过程处理站包括I/O模块以及控制器等,每个I/O模块包含若干控制通道。工程师站以及操作员站作为上位机终端通过系统控制网利用过程处理站对工业现场进行状态监测及控制。

第二部分为电气控制部分,包括正常的控制器件、相应的选通模块D、选通模块控制器MCU以及驱动电路;

第三部分为电源。

第四部分为主动冗余容错控制部分,包括冗余控制上位机,n个MCU控制器,m路电机驱动电路,1路选通模块驱动电路,g个机械旋转连接单元,其中n、m、g的数量根据被控设备数量来确定。选通模块驱动电路发出的信号连接到机械旋转连接单元中转轴信号端子上,电机驱动电路连接到每一个电机上。机械旋转单元包括小型电机、转轴信号端子、固定信号端子。固定信号端子数量为q个,数量可以根据需求灵活设置,转轴信号端子1个,固定于电机转轴上,每个固定信号端子连接于对应的选通模块上,选通模块驱动电路发出的信号连接到机械旋转连接单元中转轴信号端子上;

如图2所示,小型电机控制机械旋转连接单元中的小型电机旋转轴旋转位置,而固定信号端子一对一与不同的选通模块对应匹配,转轴信号端子受数目为一的选通模块驱动电路信号控制连通或断开。

机械旋转连接单元可设置多个,但一个机械旋转连接单元上的转轴信号端子为1个,当机械旋转连接单元空间位置不足时,采用多个机械旋转连接单元,同时共有多个转轴信号端子,但同一时间内控制的转轴信号端子数目为一,而同一时间内控制转轴信号端子的电路为选通模块驱动电路,选通模块驱动电路数目也为一。

其中,SSR1~SSR4为固态继电器(也可以为接触器等其他电气控制器件),D1-D3为选通模块(也可以用固态继电器等其他电气控制器件)。分布式控制系统发送开关命令到电气控制部分以控制被控设备开通或者关闭,冗余控制上位机PC发送控制信号控制故障支路切换。

控制支路分为k路、第一路为冗余支路,其余k-1路直接控制被控设备,其中k≥2,并且k为正整数。本电路图除冗余支路外,以3条直接控制被控设备的支路为例说明。

整个系统从功能分为两种:第一种为正常控制的k条被控设备控制支路;第二种为正常控制支路失效后的用来冗余容错的冗余支路及其相关部分。

冗余容错控制部分包含冗余容错控制支路、冗余控制上位机PC、冗余容错MCU、相应的驱动电路(小型电机驱动电路以及晶闸管驱动电路)、机械旋转连接单元。冗余容错控制支路包含控制器、电气控制器件;其余正常控制支路包含控制器、电气控制器件(固态继电器SSR1~SSRn等电气控制器件)、故障支路选通模块(冗余容错单向晶闸管D1~Dn等电气器件)。

在多个被控设备工作的重要现场,如果其中某一条支路发生了分布式控制系统控制模块断路故障、分布式控制系统到被控设备控制电路之间的线路断路故障或者电气控制器件开路故障,那么就可以利用故障支路的选通模块D进行相应的支路切换,使得故障支路的被控设备能够继续容错工作。

在工作过程中,假设控制支路1发生了分布式控制板卡故障,那么支路1中的被控设备将不能被控制。在故障容错时,首先利用冗余控制上位机PC发送控制信号到冗余容错MCU,冗余容错MCU经过计算,通过电机驱动电路控制电机旋转到相应位置,同时通过选通模块驱动电路发出驱动信号,从而使冗余容错单向晶闸管D1导通,同时D2~Dk保持关断状态;

接着操作员站主动发送开通信号到冗余支路上,从而导通相应的固态继电器,此时冗余支路完全代替故障支路,使得故障支路的被控设备在分布式控制板卡故障下仍能继续工作,提高了可靠性。

对于分布式控制系统到被控设备控制电路之间的线路断路故障或者电气控制器件开路故障的发生,采用同样的冗余容错过程。

以上所述的具体实施方式,对本技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术的具体实施方式而已,并不用于限定本技术的保护范围,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

容错关键技术 一个容错系统包含四个要素:首先是故障检测,这是容错系统必不可少的环节,其他环节以此为基础;其次是对出现的故障所造成的影响进行评估并限制其进一步传播;最后是对确定为不可恢复的故障进行处理。 容错的基本步骤概括起来是故障检测→处理故障→系统恢复。 防止故障造成系统失效有两种基本技术:即是故障掩蔽技术和系统重组技术。 故障掩蔽是防止故障造成差错的各种技术,换句话说要将发生的故障隐蔽起来。这类技术不要求在容忍故障前检测故障,但要求做到故障包容。故障包容是指使故障的影响局部化,不希望一个故障全局地影响整个系统的性能。在故障效应达到模块的输出之前,通过隔离或校正来消除它们的影响,从而达到容错的目的。 掩蔽技术不改变系统的结构,即系统部件的逻辑关系相对固定,因此掩蔽技术又称静态冗余技术。当掩蔽冗余因模块中的故障而耗尽时,再发生故障就会在输出产生错误。 系统重组是防止差错导致系统失效的各种技术。系统重组技术首先做到故障检测,然后做到故障定位,最后做到系统恢复。 系统重组技术称动态冗余技术。 故障掩蔽技术及系统重组技术是达到容错的两种基本途径。而它们又建立在资源冗余的基础上的。资源冗余主要有两种基本形式:硬件冗余和软件冗余。 1、硬件冗余 实时系统中应用最广泛的冗余形式是硬件的物理重复。随着半导体元件体积的缩小及成本的下降,硬件冗余成为更实用的一种冗余方法。硬件冗余有两种形式:被动冗余和主动冗余。 被动硬件冗余又称静态硬件冗余,是指冗余结构并不随故障情况的变化的冗余的形式。被动硬件冗余应用了故障掩蔽的概念,将发生的故障隐蔽起来,防止故障造成差错。被动硬件冗余的基本机理是通过多数表决隐蔽发生的故障。这种冗余方法一般用于多机系统。 主动硬件冗余又称动态硬件冗余,是通过故障检测,故障定位及系统恢复来

容错控制的研究现状 容错控制研究的是当系统发生故障是的控制问题,因此必须首先明确故障的定义。故障可以定义为:“系统至少一个特性或参数出现较大偏差,超出了可以接受的范围,此时系统性能明显低于正常水平,难以完成系统预期的功能”[28]。而一直以来,对容错控制并没有一个明确的定义。这里给出一个比较容易理解的概念,即所谓容错控制是指当控制系统中的某些部件发生故障时,系统仍能按期望的性能指标或性能指标略有降低(但可接受)的情况下,还能安全地完成控制任务。容错控制的研究,使得提高复杂系统的安全性和可靠性成为可能。容错控制是一门新兴的交叉学科,其理论基础包括统计数学、现代控制理论、信号处理、模式识别、最优化方法、决策论等,与其息息相关的学科有故障检测与诊断、鲁棒控制、自适应控制、智能控制等。 容错控制方法一般可以分成两大类,即被动容错控制(passive FTC)和主动容错控制(active FTC)。被动容错控制通常利用鲁棒控制技术使得整个闭环系统对某些确定的故障具有不敏感性,其设计不需要故障诊断,也不必进行控制重组,其一般具有固定形式的控制器结构和参数。但常常由于故障并不是经常发生的,其设计难免过于保守,并且其性能也不可能是最优的,而且一旦出现不可预知故障,系统的性能甚至稳定性都可能无法保障[29-31]。但它可以避免在主动容错控制当中由于需要检测诊断故障以及重组控制律造成的时间滞后,而这在时间要求严格的系统控制中是很重要的,因此被动容错控制在故障检测和估计阶段是必须的,它可以保证在系统切换至主动容错控制之前系统的稳定性[29-31]。主动容错控制可以对发生的故障进行主动处理,其利用获知的各种故障信息,在故障发生后重新调整控制器参数,甚至在某些情况下需要改变控制器结构。主动容错控制大多需要故障诊断(FDD)子系统,这正是其优于被动容错控制之处。Patton教授有一著名论断,即“离开了FDD单元,容错控制所能发挥的作用就会非常有限,只能对一些特殊类型的故障起到容错的作用”[20]。 (1)被动容错控制 被动容错控制基本思想就是在不改变控制器和系统结构的条件下,从鲁棒控制思想出发设计控制系统,使其对故障不敏感。其特点是不管故障发生不发生,它都采用不变的控制器保证闭环系统对特定的故障具有鲁棒性。因此被动容错控制不需要故障诊断单元,也就是说不需要任何实时的故障信息。从处理不同类型故障分,被动容错控制有可靠镇定、联立镇定和完整性三种类型。 可靠镇定是针对控制器故障的容错控制。其研究思想始于Siljak 在1980 年[2]提出的使用多个补偿器并行镇定一个被控对象。之后一些学者又对该方法进行了深入研究[32-34]。文[32]针对单个被控对象证明了当采用两个补偿器时,能够可靠镇定的充要条件是被控对象是强可镇定的。但条件若不满足,补偿器就会出现不稳定的极点,闭环系统就不稳定;另一方面,即使条件满足并有解,如何设计这两个补偿器也是极其困难的。文[33]做了进一步研究,给出了两个动态补偿器的参数化设计方法,能够得到可靠镇定问题的解,从而部分解决了上

《分布式计算技术》教学大纲 课程编号: 编写人: 阳小华 开课学期: 2开课单位:计算机科学与技术学院课程中文名称 分布式计算技术课程英文名称Distributed Computing Technology主讲教师:阳小华总学时:36 其中:理论 24 时 实验: 12 时学分:2课程性质:非学位课考核方式:考查先修课程:《程序设计》、《数据结构》、《操作系统》、《计算机网络》一、课程教学目的(说明本课程与专业培养目标、研究方向、培养要求)与要求(限300字): 分布式计算是近年来日趋重要的一种新的计算方式,是基于因特网的应用和服务的技术基础。在Web和其它基于因特网的系统空前重要的今天,分布式计算是计算机应用及其相关专业学生必须掌握的核心技术。本课程旨在传授分布式系统的设计原理和实践知识,要求学生掌握分布式系统的基础知识,了解中间件的基本概念和技术,了解基本的分布式算法,能够评价已有的系统,并具备设计、开发分布式应用系统的能力。 二、课程内容简介(限200字): 分布式系统特征、实例与面临的挑战;体系结构模型与基础模型;网络和网络互联;进程间通信、外部数据表示和编码、客户-服务器通信、组通信;分布式对象间的通信、远程过程调用、事件和通知;操作系统支持;分布式文件系统;命名服务和域名系统、目录服务和发现服务;时钟、事件和进程状态、同步物理时钟、逻辑时间和逻辑时钟、全局状态 三、教学进度 章节内容授课或实验授课或实验教师学时安排(一)Characterization of Distributed Systems授课阳小华(2学时)(二)System Models授课阳小华(4学时)(三)Networking and Internetworking授课阳小华(1学时)(四)Interprocess Communication授课阳小华(4学时)(五)Distributed Objects and Remote Invocation授课阳小华(6学时)(六)Operating System Support授课阳小华(1学时)(七)Distributed File Systems授课阳小华(1学时)(八)Name Services授课阳小华(1学时)(九)Time and Global State授课阳小华(4学时)实验一 开发环境的安装与整合实验阳小华、罗江琴(2学时)实验二 RMI程序编制与调试实验阳小华、罗江琴(2学时)实验三 IP组播:组通信的实现实验阳小华、罗江琴(2学时)实验四 Jini分布式事件规范:共享白板应用 或者MSN Messager java模拟客户端程序的编制实验阳小华、罗江琴(6学时)四、所用教材(正式出版教材要求注明教材名称、作者姓名、出版社、出版时间)及主要参考书:[1] George Coulouris 等,分布式系统概念与设计(英文版,第三版),机械工业出版社,2004.1 [2] 王柏等,《分布计算环境》,北京邮电大学出版社,北京,2000。 [3] OMG编者,韦乐平,《CORBA系统结构、原理与规范》,电子工业出版社,2000。 [4] 潘爱民,《COM原理与应用》,清华大学出版社,2001。 课程负责人: 主管院长: 学院盖章: 年 月 日 注:本表一式二份,由编制教师填写,并报送学院研究生教学秘书处,由教学秘书汇总电子版和纸质版各一份交研究生处培养办公室备案。

冗余设计与容错设计 1.冗余与容错的概念 提高产品可靠性的措施大体上可以分为两类:第一类措施是尽可能避免和减少产品故障发生的避错”技术;第二类措施是当避错难以完全奏效时,通过增加适当的设计余量和替换工作方式等消除产品故障的影响,使产品在其组成部分发生有限的故障时,仍然能够正常工作的“容错”技术。而冗余是实现产品容 错的一种重要手段。

“容错(fault tolerance)”定义:系统或程序在出 现特定的故障情况下,能继续正确运行的能力。“冗余(redundancy)”定义:用多于一种的途径来完成一 个规定功能。“容错”反映了产品或系统在发生故障情 况下的工作能力,而“冗余”是指产品通过多种途径完成规定功能的方法和手段。“容错”强调了技术实施的最终效果,而“冗余”强调完成规定功能所采用的不同方式和途径。严格地说,冗余属于容错设计范畴。 从原理上讲,冗余作为容错设计的重要手段,其实施流 程和原则也同样适用与其他容错设计活动。

2.冗余设计 2.1.目的 冗余设计主要是通过在产品中针对规定任务增加更多的功能通道,以保证在有限数量的通道失效的情况下,产品仍然能够完成规定任务。

2.2 .应用对象 (a) 通过提高质量和基本可靠性等方法不能满足任务可靠性 要求的功能通道或产品组成单元; (b)由于采用新材料、新工艺或用于未知环境条件下,因而其任务可靠性难于准确估计、验证的功能通道或产品组成单元; (c)影响任务成败的可靠性关键项目和薄弱环节; (d)其故障可能造成人员伤亡、财产损失、设施毁坏、环境破坏等严重后果的安全性关键项目; (e)其他在设计中需要采用冗余设计的功能通道或产品组 成单元。

分布式系统与云计算课程教学大纲 课程名称:分布式系统与云计算 英文名称:Distributed Systems and Cloud Computing 总学时:56 总学分:2 适用对象: 物联网工程专业 先修课程:程序设计语言、计算机网络 一、课程性质、目的和任务 本课程是物联网工程专业学生的专业选修课,分布式计算提供了跨越网络透明访问各种信息资源并协同处理的能力,是大规模网络应用的基础, 云计算是海量数据处理的支撑技术。本课程旨在通过介绍分布式计算与云计算相关的理论与技术,使学生能够掌握分布式系统与云计算的概念,理解并掌握当前分布计算领域的主流技术,了解分布计算与云计算研究的方向,开阔视野,为从事分布式应用开发或云计算研究打下一定的基础。 二、教学的基本要求 了解分布式计算与云计算的基本概念。 掌握常见的几种计算模式,并明确优缺点,可以根据需要选用适当的计算模式进行开发。 了解三种典型的分布式对象技术,并能掌握其中一种进行程序开发。 掌握基于Web的应用程序开发技术。 了解当今各大公司主流的云计算技术。 了解分布式计算与云计算研究的发展趋向。 三、教学的基本内容 分布计算技术和云计算的基本概念,分布式系统的目标,云计算的优点和缺点,分布式系统层次结构,分布系统中的主要特征,客户-服务器模式的基本概念,客户-服务器端架构和体系结构。 分布式对象计算:介绍三种典型的分布式对象技术CORBA、DCOM和EJB,以CORBA 为主介绍分布式对象计算技术,包括CORBA的基本结构、ORB之间的互操作,CORBA服务和公共设施以及CORBA编程。 当今各大公司主流的云计算技术介绍:Google文件系统,Bigtable技术,MapReduce 技术,Yahoo!公司的云平台技术,Aneka云平台技术,Amazon公司的Dynamo技术,IBM 公司的云计算技术。 云计算的程序开发:基于Hadoop系统的开发,基于HBase系统的开发,基于Google App Engine系统的开发,基于Windows Azure系统的开发。

第26卷 第6期2000年11月自 动 化 学 报A CT A A U T OM A T ICA SI NI CA V o l.26,N o.6N ov.,20001)国家自然科学基金、“八六三”计划与教育部资助项目.收稿日期 1999-03-08 收修改稿日期 1999-10-11 综述 容错控制理论及其应用 1)周东华 (清华大学自动化系 北京 100084) Ding X (Lausitz 大学电气工程系 德国) (E-mail:ZDH @m ail.au.tsin https://www.wendangku.net/doc/ee17867054.html,) 摘 要 介绍了经典容错控制的主要研究成果及近年来发展起来的鲁棒容错控制和非线性 系统的故障诊断与容错控制,并给出了容错控制的一些典型应用成果.最后,指出了该领域 亟待解决的一些热点与难点问题. 关键词 动态系统,容错控制,故障诊断,集成,鲁棒性. THEORY AND APPLICATIONS OF FAULT TOLERANT C ONTROL ZHOU Donghua (Dep t .of A utomation ,Tsing hua Univer sity ,Beij in g 100084) DING X (De p t .of E E ,L ausitz Univ .,Ger ma ny ) Abstract A survey of fault tolerant cont rol for dynamic syst ems is present ed .T he main result s in classical fault tolerant cont rol are f irstly int roduced.T hen,empha- sis is put on t he robust fault tolerant control as well as the fault diagnosis and f ault tolerant control of nonlinear systems developed in recent years.Some typical appli- cation result s of fault t olerant cont rol are discussed ,and finally ,some open ques- tions are pointed out . Key words Dynamic syst ems,fault t olerant cont rol,fault diagnosis,int egrat ion, robust ness . 1 引言 现代系统正朝着大规模、复杂化的方向发展,这类系统一旦发生事故就有可能造成

容错服务器技术vs双机冗余 2009-05-21 来自:网界网作者:宋家雨收藏 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。 1980年,当Bill Fost先生苦思冥想在为新公司取个什么名字的时候,无意间看到了飞机外层层叠叠的云层,由此“Stratus”诞生了。但是Bill Fost没有想到,1990当他们注册北京办事处的时候,竟然可以使用“美国容错计算机公司”,这种用技术术语命名公司的现象,此后再也没有出现过。不知道国内有多少用户知道“美国容错计算机公司”,进而了解容错技术,但是相信,这几年数量有限与很多技术领先型公司相类似,“酒香不怕巷子深”是其风格,市场上的低调在一定程度上制约了发展。 容错的含义比较宽泛,这种不确定性容易引发歧义,增加理解上的难度。从概念上来说,容错是指服务器对于错误的容纳能力,是应用过程中对于服务器稳定性追求的一个目标。为了这样一个目标,有几种技术上的实现方法,目前国内谈论最多的是三种:服务器群集技术、双机冗余服务器方案和单机容错技术。 实际上,服务器群集和双机冗余的技术比较类似,双机冗余是最简单的集群,是其一个特例,也可以把服务器集群技术视为双机冗余的延伸,可以理解为一种多机容错的方案。在一般的讨论之中,集群技术是为了解决计算性能不足的问题,通过多台服务器的集群计算,为高性能计算领域应用提供所需要的高性能。采用集群技术,通过多台服务器之间的负载均衡,可以解决服务器单点故障所引发的系统不稳定,提高系统的可靠性,因此集群具有更好的容错能力,但是在实际的应用中,集群技术多用于高性能计算。 单机容错技术以Stratus公司的ftServer、惠普公司的NonStop服务器和NEC公司的Express5800/ft为代表。这种技术具有比双机冗余方案更高的容错能力。据记者查阅有关技术资料,双机冗余系统的可靠性可以达到99.9%,也就是3个9的能力,而Stratus公司的方案,其可靠性可以达到5个9。在记者的采访中,惠普公司企业服务器产品经理陈武胜表示,其NonStop服务器作为目前惠普公司最高档的服务器,其可靠性可以达到7个9的水平。在记者看来,双机冗余与单机容错有很多的差异,绝不是3个9和5个9的区别。为了了解这些区别,记者分别采访了有关软硬件厂商,并结合实际的应用案例,帮助读者了解有关容错服务器的技术。 产品技术篇之一“没有错误”的容错服务器技术 单机容错技术是我们为了区别双机冗余技术对Stratus等容错服务器的称谓,但是在我的采访中,有关服务器厂商都不愿意采用这个称谓,他们更愿意采用容错服务器,因为单机只是一个表现形式,并不能准确表达其技术的特征。IDC资询师将这种技术称之为“没有错误”的容错服务器技术。 容错与同步技术

收稿日期:2004 07 14 作者简介:刘俊丽(1972 ),女,毕业于黑龙江大学计算数学及其应用软件专业,黑龙江省黑河学院计算机系讲师,从事计算机教学工作。 分布式系统中容错技术导论 刘俊丽 (齐齐哈尔大学黑河学院,齐齐哈尔164300) 摘 要 本文讲述的是分布计算系统出现部分失效的时候,系统应该能自动从失效中恢复过来,并且不会对整个系统的性能产生严重的影响。 关键词 分布式系统;故障;失效;容错 Abstract The article is abou t the fault tolerance that the system can recover from the crash automatically and won t have a serious influence on the function of the whole system. Key words the distribu ted system;the crash;the failure;the fault tolerance 中图分类号 TP392 文献标识码 A 文章编号 1008-0821(2004)10-0223-03 分布计算系统区别于单机系统的一个特点是在分布式系统中存在着部分失效的情况。当分布式系统某个部件出现问题的时候就发生了部分失效。虽然部分失效对分布式系统的性能有一定的影响,但同时,它应该不会影响分布式系统中整个应用程序的正确执行。相反,在单机系统中,如果系统中的一个关键部件出现问题,整个应用程序就无法继续执行。 分布计算系统的一个重要设计目标是当系统中出现部分失效的时候,系统应该能自动从失效中恢复过来,并且不会对整个系统的性能产生严重的影响。故此在这里我们讨论分布计算系统中的容错技术。 容错是计算机科学中一个重要的研究领域。首先介绍与故障处理有关的一些基本概念和分布计算系统中的故障模型。关于分布计算系统中容错的一些非常有用而详细的介绍可以参见文献[J ALOTE,1994]。 1 基本概念 分布计算系统应该是一个可信赖的系统(dependable system),容错是与可信赖系统紧密相联系的一个概念。分布计算系统的可信赖性(dependability )包括如下几个方面[KOPETZ,1993]: 1 1 可用性(availability) 可用性反映的是系统随时可被用户使用的特性。也就是说,在任何给定的时刻用户都可以使用此系统正确地执行用户给定的任务。 1 2 可靠性(reliability) 可靠性指的是在错误存在的情况下,系统持续服务的能力。尽管可靠性和可用性容易混淆,但它们并不是同一个概念。可靠性反映的是一段时间的特性,而可用性反映的是某个时刻的特性。高可靠性系统能够持续运行一个相当长的时间而不会中断。如果一个系统,每个小时都有并 且仅有1毫秒时间失效,那么它的可用性可达99 9999%,但是它仍然是一个高度不可靠的系统。同样地,如果一个系统从来不崩溃,但是在8月份中,有2个星期的假期需要关机,这个系统是高可靠性的系统,但是它的可用性只有96%。 1 3 安全性(safety) 安全性指的是在系统出现暂时错误的情况下,不出现灾难性后果的能力。例如核电厂的控制系统和宇宙飞船的控制系统要求具有很高的安全性。 1 4 可维护性(maintainability) 可维护性指的是系统一旦出现故障,系统易于修复的能力。高可维护性的系统意味着具有高的可用性。对于高可维护性系统来说,要求它具有自动检测错误和自动修复的能力。 1 5 保密性(security) 保密性要求系统资源不被非法用户访问。 系统失效指的是系统不能提供它所固有的服务功能。例如,分布式系统是为用户提供一系列服务的,但其中某一个服务或某些服务功能不能完全正确提供时,就说系统失效了。 一般来说,从错误的时间特性来看,错误可分为暂时性的(transient)、间歇性的(intermittent)和永久性的(per manent)。暂时性的错误一旦发生之后就会消失,当相关的操作重复执行之后,错误就消失了。间歇性的错误是一会儿出现,一会儿又消失的错误,这种错误是十分令人烦恼的一种错误,因为它十分难于诊断。永久性错误是一种持续性错误,这种错误一旦出现,将会长时间存在,直到出现错误的部件被修复为止。像集成芯片被烧坏、软件缺陷、磁盘磁头损坏等都是永久性错误。 223 2004年10月第10期October 2004No .10 现代情报 情报纵横

1.2容错技术简介 容错控制及其系统组成 容错控制的发展及研究现状 1.2.1容错控制的概念和任务 容错概念最初来源于计算机系统设计领域,是指系统内部环节发生局部故障或失效情况下,计算机系统仍能继续正常运行的一种特性。后来人们逐渐把容错的概念引入到控制系统,这样人们虽然无法保证控制系统每个环节的绝对可靠,但是构成容错控制系统后,可以使系统中的各个故障因素对控制性能的影响被显著削弱,从而间接地提高了控制系统的可靠性。特别是控制系统的重要部件的可靠度未知时,容错技术更是在系统设计阶段保证系统可靠性的必要手段。 容错控制的指导思想是在基于一个控制系统迟早会发生故障的前提下,在设计控制系统初期时就将可能发生的故障对系统的稳定性及静态和动态性能影响考虑在内。最简单的情况,如果传感器或执行器发生故障,在故障后不改变控制律的情况下,如何来维持系统的稳定性就是控制器设计过程中值得注意的问题。在容错控制技术中,这种问题属于完整性控制的范畴。 在某种程度上,容错控制系统是指具有内部冗余(硬件冗余、解析冗余、功能冗余和参数冗余等)能力的控制系统,即在某些部件(执行器、传感器或元部件)发生故障的情况下,闭环系统仍然能保持稳定,并在原定性能指标或性能指标有所降低但可接受的条件下,安全地完成控制任务,并具有较理想的特性。动态系统的容错控制是伴随着基于解析冗余的故障诊断技术的发展而发展起来的。 1.2.2容错控制的现状研究 容错控制系统的基本结构为:传感器、故障检测与诊断子系统、执行器和控制器。其中,故障检测与诊断子系统能够对控制系统进行实时故障监测与辨识等;控制器则根据故障诊断信息作出相应的处理,实施新的容错控制策略,保证系统在故障状态下仍能获得良好的控制效果。在实际控制系统中,各个基本环节都有可能发生故障。 容错控制系统有多种分类方法,如按系统分为线性系统容错控制和非线性系统容错控制,确定性系统容错控制和随机系统容错控制等;按克服故障部件分类为执行器故障容错控制,传感器故障容错控制,控制器故障容错控制和部件故障容错控制等;按控制对象不同分为基于硬件冗余和解析冗余的容错控制分类。一般,为了全面反映容错控制系统的特性,常将上述各种分类方法组合运用。 1.硬件冗余方法 硬件冗余是指对系统的重要部件及易发生故障部件设置各种备份,当系统内某部件发生故障时,对故障部分进行隔离或自动更换,使系统正常工作不受故障元器件的影响,保证系统的容错性能。硬件冗余方法根据备份部件是否参与系统工作可分为静态硬件冗余和动态硬件冗余。 l)静态硬件冗余:并联多个相同的组件,当其中某几个发生故障时并不影响其它组件的正常工作。 2)动态硬件冗余:在系统中不接入备份组件,只有在原组件发生故障后,才把输入和输出端转接到备份组件上来,同时切断故障组件的输入和输出端,即运行模块的失效,备用模块代替运行模块工作。系统应该具有自动发现故障的能力与自动转接设备。 硬件冗余方法可以用于任何硬件环节失效的容错控制,建立起来的控制系统将具有较强

容错与冗余技术 容错控制的研究虽然面临着空前的挑战,但近些年来,相关研究领域,如鲁棒控制理论,模糊控制,神经网络控制研究的不断深入和发展,也给容错控制的研究带来了良好的机遇,提供了充分的条件。 而计算机控制技术、人工智能等技术的飞速发展,使得容错控制技术在实际工程中应用的可能性变得越来越大。 1.1 容错概念的提出 提高系统的可靠性一般有两种办法:1、采用缜密的设计和质量控制方法来尽量减少故障出现的概率。2、以冗余资源为代价来换取可靠性。 利用前一种方法来提高系统的可靠性是有限的,要想进一步的提高必须采用容错技术。 容错控制技术在国外发展的比较早,是由冯·诺依曼提出的。随着八十年代微型计算机的迅速发展和广泛应用,容错技术也得到了飞速的发展,容错技术被应用到各个环境中。 我国的容错技术现在发展的也很迅速,一些重要的工作场合如航天、电厂等现在都采用了容错技术。 所谓容错:就是容许错误,是指设备的一个或多个关键部分法生故障时,能够自动地进行检测与诊断,并采取相应措施,保证设备维持其规定功能,或牺牲性能来保证设备在可接受范围内继续工作。 错误一般分为两类:第一类是先天性的固有错,如元器件生产过程中造成的错、线路与程序在设计过程中产生的错。这一类的错误

需对其拆除、更换或修正,是不能容忍的。第二类的错后天性的错,它是由于设备在运行中产生了缺陷所导致的故障。这种故障有瞬时性、间歇性和永久性的区别。 容错技术是提高系统可靠性的重要途径。常采用的容错方法有硬件容错、软件容错、信息容错和时间容错。 1.1.1 智能容错的定义 智能容错IFT(Intelligent Fault-Tolerance):就是设备在运行过程中一个或多个关键部件发生故障或即将发生故障之前,利用人工智能理论和方法,通过采取有效措施,对故障自动进行补偿、抑制、消除、修复,以保证设备继续安全、高效、可靠运行,或以牺牲性能损失为代价,保证设备在规定的时间内完成其预定功能。 智能容错技术的构成方法可以采用以下三步来实现: (1)建立系统的设计目标; (2)设计智能容错处理机构; (3)根据设计目标对所作的设计进行评价,如果满足目标则设计成功,否则将返回第二步进行重新设计,直到满足设计目标要求。 硬件智能容错HIFT (Hardware Intelligent Fault Tolerant) 主要采用硬件冗余技术。其基本思想是对设备的关键部件配备多重相似或相同部件,一旦检测和诊断出设备发生故障就可以立刻切换到备份部件,以达到故障容错的目的。图1 所示为二冗余结构原理图:

分布式系统原理介绍 刘杰

目录 前言 (1) 1 概念 (2) 1.1 模型 (2) 1.1.1 节点 (2) 1.1.2 通信 (2) 1.1.3 存储 (2) 1.1.4 异常 (3) 1.2 副本 (8) 1.2.1 副本的概念 (8) 1.2.2 副本一致性 (8) 1.3 衡量分布式系统的指标 (9) 1.3.1 性能 (9) 1.3.2 可用性 (9) 1.3.3 可扩展性 (9) 1.3.4 一致性 (10) 2 分布式系统原理 (11) 2.1 数据分布方式 (11) 2.1.1 哈希方式 (11) 2.1.2 按数据范围分布 (13) 2.1.3 按数据量分布 (14) 2.1.4 一致性哈希 (14) 2.1.5 副本与数据分布 (16) 2.1.6 本地化计算 (18) 2.1.7 数据分布方式的选择 (18) 2.1.8 工程投影 (18) 2.2 基本副本协议 (20) 2.2.1 中心化副本控制协议 (20) 2.2.2 primary-secondary协议 (20) 2.2.3 去中心化副本控制协议 (23) 2.2.4 工程投影 (24) 2.3 Lease机制 (26) 2.3.1 基于lease的分布式cache系统 (26) 2.3.2 lease机制的分析 (28) 2.3.3 基于lease机制确定节点状态 (29) 2.3.4 lease的有效期时间选择 (30) 2.3.5 工程投影 (30) 2.4 Quorum机制 (33) 2.4.1 约定 (33) 2.4.2 Write-all-read-one (33) 2.4.3 Quorum定义 (34) 2.4.4 读取最新成功提交的数据 (35) 2.4.5 基于Quorum机制选择primary (36)

第26卷 第6期 2000年11月自 动 化 学 报A CT A A U T OM A T IC A SIN ICA V o l.26,N o.6N ov.,20001)国家自然科学基金、“八六三”计划与教育部资助项目. 收稿日期 1999-03-08 收修改稿日期 1999-10-11 综述 容错控制理论及其应用 1)周东华 (清华大学自动化系 北京 100084) Ding X (Lausitz 大学电气工程系 德国)(E-mail :ZDH @mail.au.tsingh https://www.wendangku.net/doc/ee17867054.html,) 摘 要 介绍了经典容错控制的主要研究成果及近年来发展起来的鲁棒容错控制和非线性 系统的故障诊断与容错控制,并给出了容错控制的一些典型应用成果.最后,指出了该领域 亟待解决的一些热点与难点问题. 关键词 动态系统,容错控制,故障诊断,集成,鲁棒性. THEORY AND APPLICATIONS OF FAULT TOLERANT C ONTROL ZHO U Donghua (Dept .of Auto matio n ,Ts inghua University ,Beijing 100084) DIN G X (Dept .of EE ,Lausitz Un iv .,G erman y ) Abstract  A survey of f ault t olerant cont rol f or dynamic systems is presented .The main results i n classical fault tolerant cont rol are first ly int roduced.Then,empha-sis is put on the robust f ault tolerant cont rol as w ell as the fault diag nosi s and fault tolerant cont rol of nonlinear syst ems dev eloped i n recent years.Some typical appli- cation results of faul t tolerant cont rol are discussed ,and finally ,some open ques-tions are point ed out . Key words Dynamic systems,f ault tolerant cont rol,fault diagnosis,i ntegratio n, robust ness . 1 引言 现代系统正朝着大规模、复杂化的方向发展,这类系统一旦发生事故就有可能造成

容错控制系统培训 2011年8月

3.1 容错控制系统 3.1.1 容错控制概述 容错原是计算机系统设计技术中的一个概念,指当系统在遭受到内部环节的局部故障或失效后,仍然可以继续正常运行的特性。将此概念引入到控制系统中,产生了容错控制的概念。 容错技术是指系统对故障的容忍技术,也就是指处于工作状态的系统中一个或多个关键部分发生故障时,能自动检测与诊断,并能采取相应措施保证系统维持其规定功能或保持其功能在可接受的范围内的技术。如果在执行器、传感器、元部件或分系统发生故障时,闭环控制系统仍然是稳定的,仍具有完成基本功能的能力,并仍然具有较理想的动态特性,就称此闭环控制系统为容错控制系统。 3.1.2 容错控制分类 根据不同的产品和客户需求,容错控制系统分类方式有多种,重点介绍两种: ?按设计分类:被动容错控制、主动容错控制; ?按实现分类:硬件容错、功能容错和软件容错。 3.1.2.1按设计分类的容错控制 1 被动容错控制介绍 被动容错控制是设计适当固定结构的控制器,该控制器除了考虑正常工作状态的参数值以外,还要考虑在故障情况下的参数值。被动容错控制是在故障发生前和发生后使用同样的控制策略,不进行调节。被动容错控制包括:同时镇定,完整性控制,鲁棒性容错控制,即可靠控制等几种类型。 2 主动容错控制介绍 主动容错控制是在故障发生后需要重新调整控制器参数,也可能改变控制器结构。主动容错控制包括:控制器重构,基于自适应控制的主动容错控制,智能容错控制器设计的方法。 3.1.2.2按实现分类的容错控制 1 硬件容错技术 容错控制系统中通常采用的余度技术,主要涉及硬件方面,是指对计算机、传感器和执行机构进行硬件备份,如图3所示。在系统的一个或多个关键部件失效时,通过监控系统检测及监控隔离故障元件,并采用完全相同的备用元件来替代它们以维持系统的性能不变或略有降级(但在允许范

容错控制知识 一知识点 1冗余:多余的重复或啰嗦内容,通常指通过多重备份来增加系统的可靠性。 2冗余设计:通过重复配置某些关键设备或部件,当系统出现故障时,冗余的设备或部件介入工作,承担已损设备或部件的功能,为系统提供服务,减少宕机事件的发生。 3冗余设计常用方法有硬件冗余、软件冗余(主要指解析冗余)、功率冗余。 3.1硬件冗余方法是通过对重要部件和易发生故障的部件提供备份,以提高系统的容错性能。软件冗余方法主要是通过设计控制器来提高整个控制系统的冗余度,从而改善系统的容错性能。硬件冗余方法按冗余级别不同又可分为元件冗余、系统冗余和混合冗余。元件冗余通常是指控制系统中关键部件(如陀螺仪和加速度计等)的冗余。 (l)静态“硬件冗余” 例如设置三个单元执行同一项任务,把它的处理结果,如调节变量相互比较,按多数原则(三中取二)判断和确定结构值。采用这种办法潜伏着这样的可能性: 有两个单元同时出错则确定的结果也出错,不过发生这种现象的概率极小。 (2)动态“硬件冗余” 即在系统运行之初,并不接入所有元件,而是留有备份,当在系统运行过程中某元件出错时,再将候补装置切换上去,由其接替前者的工作。这种方法需要注意的问题是切换的时延过程,最好能保持备份元件与运行元件状态的同步。 3.2软件冗余又可分为解析冗余、功能冗余和参数冗余等,软件冗余是通过估计技术或软件算法来实现控制系统的容错性, 解析冗余技术是利用控制系统不同部件之间的内在联系和功能上的冗余性,当系统的某些部件失效时,用其余完好部件部分甚至全部地承担起故障部件所丧失的作用,以将系统的性能维持在允许的范围之内。 冗余技术在某种程度上能提高DCS 本身的可靠性和数据通信的可靠性, 但对于整个闭环系统来讲,系统中还包含传感器,变送器,和执行器等现场设备,他们往往工作在恶劣的环境下,出现故障的概率也比较高,软硬件冗余一般无能为力,我们要采用容错控制来提升系统稳定性。 4 容错控制指控制系统在传感器,执行器或元部件发生故障时,闭环系统仍

图2智能抽油机节能控制器方案框图 感器模块实时检测电机输出功率的变化,由单片机系统来控制IGBT的关断,控制电机输入端电压的大小,以调整电动机输出功率,减少电动机的铁损和铜损。达到节能降耗的目的。 为克服负功率对I GBT模块的影响并进一步节能,系统设置了负功率处理模块,通过该模块,系统以和电网同样的频率和相位将电动机发出的电能馈送到电网中,进一步降低电机损耗。 由于IGBT是比较昂贵的器件,而且对使用条件要求比较高,必须加以保护。根据抽油机的实际特点,系统设置了过流保护、过压保护、缺相保护和温度保护,从而使系统能够更安全地运行。 智能型抽油机节能控制器具有以下的功能: 1可设置电动机的最大工作电流、空载电流和最高工作温度等参数,根据电动机工作电流的大小判断抽油机的工况。当电动机工作电流超过额定电流和最高工作温度超过额定工作温度时停抽油机工作,从而保护电动机。当抽油机电动机工作电流小于空载电流,认为抽油机空载,可停止抽油机工作,等待原油聚集。根据所设定的停机时间,抽油机停止工作一段时间后,控制系统自动启动抽油机,从而实现抽油机停机节能。 o断电后来电时自动延时启动时间,避免油田抽油机同时启动。 ?软启动功能,减少启动对电网的冲击并节约电能。 ?可根据抽油机运行的载荷工况,自动控制电机输入电压,控制抽油机电动机的输出功率,达到节能目的。 ?独特的负功率处理功能,能有效减小电机发电所带来的影响,提高节能效果。 ?具有数据存储和数据通信功能。通过专用数据回放卡可转储数据进行数据处理分析和绘制抽油机电能图,从而方便油田对抽油机的管理。 3结束语 智能型抽油机节能控制器的开发经过了样机开发和油田试验两个阶段,我们逐渐掌握了游梁式抽油机工作规律和抽油机节能控制器的关键技术,为系统投入运行奠定了基础。 参考文献 1周新生,程汉湘,刘建,等.抽油机的负载特性及提高功率因数措施的研究.北华大学学报(自然科学版),2003(6) 2张继震,马广杰,杨靖.游梁抽油机电机电量测试的特殊性.电机技术,2003(2) 3丁建林,姜建胜,刘瓯,等.抽油机变频调速智能控制技术研究. 石油机械,2003 修改稿收到日期:2004-08-20。 第一作者彭国标,男,1972年生,1995年毕业于国防科技大学精密仪器与检测技术专业,获学士学位,工程师;主要从事载人航天发射场地面系统自动控制、建筑智能化和工业自动化控制。 离散分布控制系统的容错设计 Fault Tolerant Design of Discrete D istributed Control System 王根平 (深圳职业技术学院机电系,深圳518055) 摘要在所考虑的离散分布控制系统中,每个可编程控制器作为一个控制结点,结点之间通过网络进行连接保持通信。容错的设计思路是,增加一个在Galois域进行运算的冗余控制器,从而使系统能够自动侦查系统中的结点(可编程控制器)是否正常工作,并能5自动化仪表6第25卷第9期2004年9月

计算机冗余容错 fault-tolerant computer rongCUO llSUQn』l 容错计算机(fault-tol~t computer)在硬件发生故障或软件产生错误时仍能继续运行并完成其既定任务的计算机系统。容错计算机的主要设计目标是为了提高计算机系统的可靠性、可用性和可信性等性能。提高计算 ·600· 容机可靠性的方法可以分为两大类:一类是排错技术,主要是通过使用可靠性高的元器件,严格的老化筛选等方法达到尽量减少发生故障的可能性; 另一类是容错技术,主要是运用元余技术来抵消由于故障而引起的影响。所谓冗余技术,简单地说,是在正常系统运行所需的基础上加上一定数量的信息、时间或后备硬件、后备软件的方法。冗余技术是容错计算机中容错技术的基础。冗余大致上可以分为下列几种类型: (l)硬件冗余以检测或屏蔽故障为目的而添加一定硬件设备的方法; (2)软件冗余为了检测或屏蔽软件中的错误而添加一些在正常运行时不需要的软件的方法; (3)信息冗余在实现正常功能所需的信息以外,再附加一些信息的方法,例如纠错码就是信息冗余的一种形式; (4)时间冗余使用附加一定的时间来完成系统的功能,这些附加的时间主要是用在故障检测或故障屏蔽上。 最常用的硬件冗余是硬件的重复。硬件冗余一般可以分为3种类型:静态冗余(也称为被动冗余)、动态冗余(也称为主动冗余)和混合冗余。静态冗余将已发生的故障屏蔽起来,使不影响运行的结果。被动冗余主要是依靠表决机制来屏蔽发生的故障,因而这种方法不需要故障检测也不必进行系统的重新配置等就可以获得容错的效果。被动冗余技术中使用最广的是三模元余TM[R。TMR的基本概念是使用3套完全相同的硬件系统执行相同的任务,然后由1个多数表决器对这3套系统的输出进行表决以确定整个系统的输出。多数表决器的表决原则是三中取二。也就是说三模冗余系统可以容许有1个模块发生故障而不至于影响到整个系统运行的正确性。三模冗余的关键是多数表决器本身的可靠性问题。提高多数表决器可靠性的方法有多种,其中最常用的方法是多数表决器本身也使用三模冗余,即利用3个独立的多数表决器,每个多数表决器分别接受来自3个模块的输出作为它的输人,然后再分别输出。这种系统通常被称为带三重多数表决器的三模冗余系统。除了三模冗余系统外,还有多于三模的冗余,称为N模冗余。主动冗余技术与被动冗余技术相反,它是通过故障检测、故障定位及故障恢复等手段达到容错的目的。因而在主动冗余技术中不是去防止故障引发的错误,而是暴露由故障引发的错误,从而去纠正错误。主动冗余技术中

第一章分布式系统概述 计算机系统正在经历着一场革命。从1945年现代计算机时代开始到1985年前后,计算机是庞大而又昂贵的。即使是微型机,通常也每台价值数万美元。因此,大多数机构只有少数的几台计算机,同时,由于缺乏一种把它们连接起来的方法,所以这些计算机只能相互独立地运行。 但是,从20世纪80年代中期开始,技术上的两大进步开始改变这种状况。首先是功能更强的微处理机的开发,开始出现了8位的机型,随后不久16位,32位,甚至64位的CPU 也开始普及。其中许多机器具有较大主机(即,大型机)的计算能力,但价格却只是它的几分之一。 在过去的半个世纪里计算机技术取得了惊人的进步,这在其它工业中是前所未有的。从每台机器价格高达1000万美元,每秒执行一条指令,发展到目前售价1000美元而每秒执行1000万条指令,其性能价格比提高了1011倍。如果在同一时期内汽车工业也能以这样的速度发展,那么现在一部劳斯莱斯牌汽车(Rolls Royce)将会只需要花10美元就可买到,而每加仑汽油就能行驶10亿英里(不幸的是,那时可能会有一本200页的手册告诉你该如何打开车门)。 第二个进步是高速计算机网络的出现。局域网LAN使得同一建筑内的数十甚至上百台计算机连接起来,使少量的信息能够在大约1毫秒左右的时间里在计算机间传送。更大量的数据则以(107~108 )比特/秒(bit/s)或更大的速率传送。广域网WAN使得全球范围内的数百万台计算机连接起来,传输速率从64Kbps(每秒千位比特)到用于一些先进的实验型网络中的每秒千兆比特(gigabits)。 这些技术的结果使得把由大量CPU组成的计算系统通过高速网络连接在一起不仅成为可能,而且变得十分容易。相对于以前包括单个CPU、存储器、外设和一些终端在内的集中式系统(又叫单处理机系统single processor system),它们通常被称为分布式系统(distributed systems)。 现在仅存在一个比较棘手的问题,那就是软件。分布式系统需要与集中式系统完全不同的软件。特别是系统所需要的操作系统只是刚刚出现。虽然分布式系统已经向前迈出了最初的几步,但仍有很长的一段路要走。对于分布式操作系统,我们对它的一些基本思想的介绍到这里已经足够了。接下来,本书将致力于研究分布式操作系统的概念、实现和几个实例。 1.1什么是分布式系统? 分布式系统有很多不同的定义,但其中没有一个是令人满意或者能够被所有人接受的。介绍分布式系统,对它的特点的下列大致的描述足够了: “一个分布式系统是一些独立的计算机的集合,但是对这个系统的用户来说,系统就象一台计算机一样。” 这个定义有两个方面的含义:第一,从硬件角度来讲,各个计算机都是自治的;第二,从软件角度来讲,用户将整个系统看作是一台计算机。这两者都是必需的,缺一不可。在简要介绍有关硬件、软件的一些背景材料之后,我们将再回到这两点上来进行讨论。 由于给出分布式系统的一些实例可能要比进一步的深入研究定义更有帮助,下面就给出一些分布式系统的例子。第一个例子,设想一个大学或公司部门内的工作站网络。除了每个用户的个人工作站外,机房中可能还有一个共享的处理机池(pool of processor),这些处理机并没有分配给特定的用户,而是在需要的时候进行动态分配。这样的系统可能会有一个单一的文件系统,其中所有的文件可以从所有的计算机上以相同的方式并且使用相同的路径名存取。另外,当一个用户输入一条命令时,系统能够找到一个最好的地方执行该命令。这可能

相关文档