当前位置：文档库 › 使用时间冗余保证处理器的可靠性

使用时间冗余保证处理器的可靠性

2011，47（21）1引言工艺发展使芯片中的晶体管数目随摩尔定律指数增加，晶体管尺寸及其噪声容限随之缩小，这些因素使处理器核心流水线对瞬态故障变得非常敏感。为解决瞬态故障给处理器带来的可靠性问题，研究者提出了许多使用双模冗余（Double Modular Redundancy ，DMR ）[1-4]执行模型的方案，这些方案的核心思想是确保冗余执行体（redundant execution entity ）的输入与原始执行体（original execution entity ）的输入事件一致，这恰恰是确定性重播[5]技术的多个应用之一。故障存在于数据流中，它随着计算的进行在各个存储层次之间传播。Spainhower [6]认为，处理器流水线中应尽量少采用容错设计，因为会带来性能开销，这意味着流水线中的故障会被数据携带并传播到流水线之外更远的地方。另一方面，

面向恢复的计算（Recovery-Oriented Computing ）要求故障恢复开销应尽可能小[7-8]，为此系统设计者必须限制故障的传播距离，这意味着故障在流水线中产生后不能传播得太远，而需要及时地检测、隔离它。考虑到上述两种观点，将故障的检测和隔离边界设定在距离核心流水线多远的位置，是一个值得研究的问题。为此扩展了SOR 模型后提出了基于存储层次的BRO-SOC （Backward Recovery Oriented Sphere of Correct-ness ）框架。用BRO-SOC 框架为指导提出了使用确定性重播

技术的DoubleRun 容错处理器方案。DoubleRun 时分复用流水线以支持故障检测（fault detection ），并将故障检测和隔离边界设置在BRO-SOC 框架的SOC2一级，使用向后错误恢使用时间冗余保证处理器的可靠性

刘光辉

LIU Guanghui

国防科技大学计算机学院，长沙410073

School of Computer ，National University of Defense Technology ，Changsha 410073，China

LIU Guanghui.DoubleRun ：using temporal redundancy to insure the reliability of https://www.wendangku.net/doc/62355643.html,puter Engineering and Applications ，2011，47（21）：17-22.

Abstract ：This paper presents the framework of BRO-SOC （Backward Recovery Oriented Sphere Of Correctness ）based on SOR model ，and then under the guidance of this framework ，proposes DoubleRun fault-tolerant processor scheme ，which uses Deterministic Replay to ensure the reliability of processor.Since DoubleRun sets the fault detection boundary at SOC2level ，the transient faults in processor pipeline can be tolerated as long as L1cache is properly extended.DoubleRun provides full fault coverage without modifying the processor pipeline ，so the performance degradation of DoubleRun is less than that of oth-er schemes.Part of SPEC2000benchmarks is used to evaluate the fault-free performance of DoubleRun ，and a metric called fault-tolerant Time and Area Cost （TAC ）is proposed to compare DoubleRun horizontally with other schemes （DCC 、Slipstream ）.The experiment result indicates that DoubleRun only spends 6.9%additional area and 89.8%more time to achieve full tran-sient fault coverage.Although the TAC of DoubleRun is 7%bigger than that of Slipstream ，it can provide full fault coverage ；on the other hand ，the TAC of DoubleRun is 14%less than that of DCC ，with the same fault coverage provided.

Key words ：transient fault ；soft error ；deterministic replay ；processor reliability ；temporal redundancy ；Backward Recovery Ori-ented Sphere Of Correctness （BRO-SOC ）

摘要：在SOR 模型的基础上提出了BRO-SOC （Backward Recovery Oriented Sphere Of Correctness ）框架。在该框架的指导下提出了DoubleRun 容错处理器方案。DoubleRun 使用确定性重播（Deterministic Replay ）技术保证处理器的可靠性。由于Double-Run 将故障的检测边界设置在BRO-SOC 框架的SOC2一级，因此只需对L1cache 进行适当扩展即可容忍处理器流水线中的瞬态故障，由于它不需改动现有的处理器流水线，故相比于其他方案对处理器流水线的性能影响更小。利用SPEC2000的部分程序测试了DoubleRun 的无故障性能。为将DoubleRun 与其他容错方案（DCC 、Slipstream ）作横向比较而提出了衡量指标TAC （Time and Area Cost ）。实验结果表明，DoubleRun 在提供全故障覆盖率的情况下仅增加了6.9%的面积开销和89.8%的时间开销，其TAC 虽然比Slipstream 大7%但却可以提供全面的故障覆盖率，其故障覆盖能力与DCC 相同但TAC 却比后者小14%。

关键词：瞬态故障；软错误；确定性重播；处理器可靠性；时间冗余；面向向后恢复的正确域（BRO-SOC ）

DOI ：10.3778/j.issn.1002-8331.2011.21.005文章编号：1002-8331（2011）21-0017-06文献标识码：A 中图分类号：TP391基金项目：国家自然科学基金（the National Natural Science Foundation of China under Grant No.60921062，No.60873014）。

作者简介：刘光辉（1982—），男，博士研究生，主要研究领域为并行计算机体系结构，容错计算。E-mail ：blazeliu@https://www.wendangku.net/doc/62355643.html,

收稿日期：2011-01-31；修回日期：2011-05-11；网络出版时间：2011-05-18，http ：//https://www.wendangku.net/doc/62355643.html,/kcms/detail/11.2127.TP.20110518.0925.001.html

Computer Engineering and Applications 计算机工程与应用

2011，47（21）复（Backward Error Recovery ）的方式恢复故障。其优点是不需对已成熟的处理器核心流水线做改动而只需适当扩展L1cache 即可实现容错。2BRO-SOC 框架Reinhardt 在文献[3]中提出了复制域（Sphere Of Replica-tion ，SOR ）的概念，复制域抽象出了3个问题：（1）需要检测什么部件中的故障。（2）什么输入需要被复制。（3）需要对什么输出进行比较。解决了这三个问题，系统就具备故障检测功

能。但是SOR 模型没有站在故障隔离和故障恢复的角度为系统设计者提供指导，为此，总结了以往的研究方案（见表1）后提出了BRO-SOC 框架（以下简称SOC ）。相比复制域的概念而言，SOC 框架下的方案同样使用双模冗余执行模型检测故障，但SOC 框架更关注故障在传播时对哪些存储层次造成了污染，换言之，它更关注携带故障的数据离开流水线之后最远能进入到哪一存储层次；其次，SOC 框架归纳了故障的检测/隔离边界与系统的存储层次之间的关系，而SOR 模型没有对此进行归纳；最后，因为SOC 中拥有ECC 保护的checkpoint ，它保证了SOC 内的功能部件具备“逻辑上维持正确性”的能力，因此它是一个正确性的域。BRO-SOC 框架如图1所示，图1中只给出了双模冗余执行模型中的原始执行体，省去了冗余执行体。粗体的黑色箭头方向是新数据的流动方向，新数据被从高一级的存储层次写入低一级的存储层次之前，必须检测其中是否携带故障。类似于SOR ，BRO-SOC 框架也抽象出3个相互联系的重要问题：（1）故障的检测边界在系统存储层次中的哪一层。可能携带着故障的前瞻数据（speculation data ）只能存放在高于SOC 边界的存储层次中，低于SOC 边界的存储层次中的数据必须是无故障的。

（2）原始执行体和冗余执行体何时进行同步。同步点的

位置决定了系统的步进粒度。

（3）如何确保SOC 的正确性。使用确定性重播检测故障，

使用ECC 保护checkpoint 与SOC 边界内的存储层次中的非前瞻数据，确保了向后错误恢复之后系统可以从一个安全的状态重新开始执行。

3DoubleRun 体系结构

3.1以往研究方案分析

结合图1分析，假设瞬态故障导致流水线加法部件出错，若能在错误数据写回寄存器前检测到故障，重新执行加法指令即可将瞬态故障消除，如IBM G5[6]；若允许错误数据写回寄存器，则一条store 操作会在流水线commit 阶段后将错误数据写入store queue ，此前可以进行数据比较，检测到故障后，需要重新执行上一个store 操作到当前store 操作之间的所有指令以消除故障，如CRTR [4]；若允许错误数据进入store queue ，则该数据也进入了L1cache ，错误数据会被L1cache （当前绝大多数处理器L1cache 采取write-back 策略）的LRU 算法替换

并写回L2，从加法部件产生故障到错误数据被写回L2cache ，此时的处理器可能已经执行了很多指令，若此前检测到故障，

如Reunion [13]和DDMR [14]，则需要向后恢复到某个确定性的正确状态才能消除故障。同理，在错误数据从L2写回memory

之前，如NonStop [18]，以及从memory 写回disk 之前，如Portcul-lis [19]都可以设置故障边界进行故障检测。由以上分析可知，处理器流水线中的故障表现在数据中，数据流动于各个存储层次中，在各个存储层次的入口设置故障检测边界，就可以决定故障的传播距离。故障传播距离越小，故障所影响的系统层面也越少，故障恢复简单、开销小；传播距离越大，波及到的系统层面越多（寄存器、store queue 、L1、L2、memory 等），不仅需要考虑如何恢复应用程序本身的数据，还需要考虑故障对与操

作系统内核数据结构的影响。下面分析一下各种方案的特点：

G5使用空间冗余，复制了处理器流水线功能单元，以Lock-

Step 的方式执行指令并比较指令执行结果，没检测出故障的

结果才被写入受ECC 保护的R-unit ，若检测出故障，则需用

R-unit 中的无故障现场恢复处理器状态并重新执行故障指令，G5将故障检测/恢复机制设在处理器流水线内、用LockStep 方

式执行的做法会大大影响流水线的执行效率。

CRTR 使用空间冗余，使用CMP 上两个处理器核执行同

一线程的两个副本，从trailing 线程的流水线commit 的store 指令在将其结果数据写入到store queue 之前被比较，无故障则将程序执行现场记录到trailing 线程中，发现故障则使用trail-

ing 线程的状态恢复现场。其与G5的区别在于避免了使用

LockStep 执行方式，同时在“整体上”冗余了流水线，而不是将

冗余故障检测机制设立在流水线内部，这在一定程度上避免

了对流水线性能的影响，但其不足是需要用四种片上队列

BOQ 、StB 、RVQ 、LVQ 将两个核绑定起来，这四个队列直接参

与了trailing 线程中的指令执行并处于关键路径上，队列的传

输带宽会影响执行性能。

Reunion 与DDMR 使用空间冗余，使CMP 上两个处理器

核执行同一线程的两个副本，它们都允许潜在故障数据进入L1cache （但不允许进入共享L2），因此故障传播距离比较大；

表1BRO-SOC 框架下的各种方案故障检测边界SOC1SOC2SOC3SOC4SOC5方案G5[6]，instruction injection [9]，DIV A [10]，Slipstream [11]，AR-SMT [12]，

SRTR [2]，CRTR [4]Reunion [13]，DDMR [14]，Cherry [15]，DoubleRun DCC [16]，Cherry-MP [17]NonStop [18]Portcullis [19]，PLR [20]Disk （Executable/Data files ）Memory （OS/Process ）Shared L2（Data ）MOESI Protocol DL1流水线（core ）Store

Queue 寄存器文件写

回访存执行译码取指SOC1SOC2SOC3SOC4SOC5DL1…图1BRO-SOC 框架下故障检测边界与系统存储层次的关系图

2011，47（21）它们一段一段地执行程序并检测其中是否发生故障，若无故障则创建checkpoint ，有故障则使用上一个记录正确状态的checkpoint 恢复执行现场，checkpoint 的方法将无故障时系统的步进机制与发现故障后的恢复机制与流水线解耦，这避免了对处理器流水线执行性能的影响。二者都采用指纹技术比较输出结果，相对于CRTR 的优点是比较结果所需的带宽很小，但是这两种方案采用的空间冗余策略引入的问题是，必须在原始执行体和冗余执行体之间设置专门的通信通道以支持输出比较，而输出比较处于系统执行的关键路径上，因此通信通道的效率是这些方案主要需要解决的问题。NonStop 也使用空间冗余，物理处理器在memory bus 一级做片外输出比较，并以LockStep 方式执行，Lockstep 执行方式将来面临的挑战有：线延时、工艺参数的变化、以及其他限制lockstep 实现的缺点[21]；此外，系统范围内的异步接口的验证、共享部件（例如总线和互联）的使用、错误处理与纠正例程的调用，以及电压频率功耗的控制，都使lockstep 的实现变得更困难和低效[22]。因为NonStop 在片外设置故障检测边界，其发现故障的延时很大，所以需要用软件做checkpoint 来保存系统的状态，需要定制的操作系统和应用程序。Portcullis 方案使用“进程级”的空间冗余策略，OS 将进程副本松耦合地结合在一起，比较它们在进程意义上向“外界”

的输出（如磁盘I/O 、系统调用的顺序及其参数等）以检测故障，软错误可能已进入memory 并影响了应用程序数据或者操作系统内核数据，因此其不足是故障检测延迟非常大，发现故障后进程会自动重启，因此错误恢复开销很大。由分析可知，以上方案存在几个问题：（1）使用LockStep 方式导致的执行效率低下及其他问题。（2）使用空间冗余方式带来了不足，如片上核间队列的带宽、核间输出比较通道的效率等。（3）故障检测边界在SOC 框架内的层次过高，也即，设置在流水线内部，影响了流水线的执行效率，这与当前多核平台背景下处理器核的精简化趋势存在冲突。（4）故障检测边界在SOC 框架内的层次过低，系统中潜在含有故障的状态空间更大，同时故障检测延时也很大，因此需要系统级的checkpoint 机制，这不仅增加了应用程序或操作系统的设计复杂度，还降低了故障恢复效率。3.2DoubleRun 实现

针对以往研究方案在3.1节所列不足，提出了DoubleRun 方案，DoubleRun 使用时间冗余机制容忍系统中的瞬态故障，将故障检测边界设定在SOC2一级，也即，允许故障数据进入L1，但不允许进入L2。这么做的好处是：（1）时间冗余执行方式避免了LockStep 执行方式的不足和空间冗余执行方式的不足，省去了核间队列与核间输出比较通道。（2）故障检测边界设置在SOC2一级，缩小了潜在含有故障的系统状态空间大小，故障检测延时较小，故障恢复效率高。（3）故障检测边界位于流水线之外，有效地避免了对已成熟的流水线设计做大量改动，不影响流水线的执行效率，与当前CMP 平台上处理器核精简化的趋势相一致。（4）由硬件创建和维护的checkpoint 对操作系统和应用软件是透明的，不用修改操作系统或者应用程序，系统开销很小。一般来说，系统计算的结果是否正确，取决于数据流和控制流的正确性，由于控制流中的故障最终会在输出的数据流上表现出来，因此DoubleRun 靠比较store 操作的输出结果来检测故障。为了周期性地同步原始执行体和冗余执行体，给出容错事务（以下简称事务）的定义：其输出数据一定是无故障的一段指令序列。事务的指令序列在DoubleRun 上被连续执行两遍，第一遍称之为前瞻计算，称前瞻计算产生的数据为前瞻数据，前瞻数据所在的存储层次为前瞻现场；第二遍称之为确定性重播，简称重播。重播过程验证前瞻数据的正确性，随后前瞻数据被提交（检测到故障）或者被失效（没检测到故障）。副作用事件（side-effect event ）的存在决定了事务的长度，系统在处理副作用事件之前必须确定事务的输出结果是正确的。DoubleRun 所能处理的副作用事件有：uncached I/O

指令、cache buffer 溢出、interrupt 、事务长度计数器（其初始值是一个设定好的Interval 值）减到0。

DoubleRun 方案体系结构如图2所示，它不需要改动处理器的流水线，只需对L1cache 做适度改动和扩充，便可使其利用cache buffering 机制[15-16]支持系统在SOC2一级的正确性，图2中阴影部分为增加的部件，原L1cache 保持不变，称作NC （Normal Cache ），此外增加了一个相同容量的RC （Redundant Cache ）以支持重播过程的访存操作。此外还增加了受ECC 保护的寄存器checkpoint 、事务管理器、指纹生成器、checker 、

BOQ 等部件。

总体来说，DoubleRun 方案中，cache 块共有invalid （I ）、clean （C ）、dirty （M ）、unverified （U ）四种状态，一个块处于U 状态表示其中有前瞻数据，所有U 状态的块构成了前瞻现场。在开始执行一个新事务前，cache 中的所有数据都是无故障（并且受到ECC 保护）的，不存在U 状态的前瞻数据，因此NC 中只有I 、C 、M 三种状态的块，RC 中只有I 、C 两种状态的块。DoubleRun 按照如图3方式工作：（1）事务N 开始前瞻计算，遇到理副作用事件后停止，随后生成一个表征所有输出操作的指纹S 并记录本次前瞻计算的长度I ，计算中所有的store 操作都将对应的块激发到前瞻现场中。（2）加载Checkpoint N -1开始重播，遇到副作用事件后同样生成一个指纹S ′并记录重播长度I ′。（3）当且仅当I ′=I 并且S ′=S 时，说明事务执

行过程中无故障，将checkpoint N -1失效并创建checkpoint N ，提交前瞻数据（清除所有U 状态块上的unverified 标志），然后开始下一个事务N +1。（4）若第三步发现故障则要进行向后

控制、状态寄存器

寄存器

文件pipeline 写回

访存执行前瞻重播分支结果Core Load Queue Store

Queue Cache Controller DoubleRun SOC2RC NC L2Cache

Interval =0

Interrupt

Uncached I/O

Cache set Overflow 事务管理器checker

指纹生成器

Checkpoint S S'

I I'图2DoubleRun 体系结构图

刘光辉：使用时间冗余保证处理器的可靠性

Computer Engineering and Applications 计算机工程与应用

2011，47（21）错误恢复：将所有前瞻数据失效（将所有U 状态的块的unveri-fied 标志清除并设置上Invalid 标志），加载checkpoint N -1并重新开始执行事务N 。上述过程循环迭代重复执行，直到程序运行结束。事务前瞻计算过程发出的load 操作可同时访问NC 和RC ，但store 操作只能访问NC 并使其所访问的块进入U 状态，若store 操作命中了NC 中处于M 状态的块，则系统必须先将其写回L2后才能设置其unverified 标志，以便该块在故障恢复后可以重新从L2中获得。事务重播过程发出的load 操作可以同时访问NC 和RC ，但store 操作只能访问RC 并使其所访问的块进入U 状态，由于RC 中没有M 状态的块，因此不需考虑回写问题。比较了前瞻计算和重播计算的指纹S /S ′和事务长度I /I ′之后，如果没发现故障，则NC 中含有前瞻数据的块提交到M 状态，而RC 中含有前瞻数据的块全部被失效，因此M 状态的数据不可能存在于RC 中，只能由NC 中的U 状态数据提交而得到。NC 和RC 物理上是独立的cache ，但是通过cache 控制器

将其组织成一个逻辑上的容量更大的cache ，可将NC 和RC 看作这个大cache 的两个独立的区域，处理器发出的访存操作物理上可以同时查找NC 和RC ，以支持延迟隐藏，但是逻辑上前瞻计算和重播计算对它们的访问顺序有所不同，前瞻计算先访问NC 后访问RC ，重播计算先访问RC 后访问NC 。前瞻计算阶段，若访存操作在NC 中命中一个块，则：（1）load 操作直接返回数据给处理器。（2）store 操作将C 状态块置为U 状态，将M 状态的块写回L2后再将其置为U 状态，对U 状态的块无影响。若在NC 中未命中一个块而在RC 中命中，则将该块从RC 拷贝到NC 中，随后：（1）load 操作将数据返回给处理器。（2）store 操作将NC 中相应的块置为U 状态。若RC 中也未命中一个块，则从L2中读取C 状态的数据并将其同时放入NC 和RC ，将C 状态数据放入RC 中对于重播过程来说是一种潜在的prefetch ，随后：（1）load 操作将数据返回给处理器。（2）store 操作将NC 中的数据置为U 状态。当事务的前瞻计算结束，RC 中仍旧只有I 、C 两种状态的块，而NC 中增加了一部分U 状态块，这些块表征了当前事务的所有store 操作在前瞻计算阶段的footprint ，但这些块对重播过程是不可见的，如果重播过程中的store 操作在NC 中命中了这个footprint 之外的块，则说明前瞻计算和重播计算中的store 输出有差异，则一定存在故障。在重播过程中，若访存操作在RC 中命中一个块，则：（1）load 操作直接返回数据给处理器；（2）store 操作将C 状态块置为U 状态，对U 状态的块无影响。若在RC 中未命中一个块而在NC 中命中，则：（1）load 操作会直接从NC 中获取数据交给

处理器；（2）而对于store 操作来说这是不可能发生的，一旦发生则说明footprint 产生了不一致。若在NC 中也未命中一个块，则从L2中读取C 数据并只将数据放入RC 中，随后：（1）load 操作将数据返回给处理器；（2）store 操作将RC 中的数据置为U 状态。

为支持确认无故障后前瞻数据的快速提交和检测到故障后的快速向后错误恢复，DoubleRun 需要对NC 和RC 中的cache 块进行统一的标志位操作，因此使用了gang-clear 和gang-invalidation 机制[15]。为了降低指纹生成操作对系统性能的影响，DoubleRun 借鉴了文献[16]中的CRC-32状态压缩方法来生成最终指纹。最后，DoubleRun 借鉴了文献[4]一文中的BOQ 技术来改善重播过程的性能。

4评估方法

4.1实验设置

DoubleRun 使用时间冗余技术容瞬态错，在实验中，将程序分段式地在同一处理器流水线上执行两次，为此增加了RC ，修改了L1控制器，将cache 替换算法修改为FT-LRU 支持

cache buffering 机制，增加了事务管理模块、指纹生成模块、checkpoint 模块和checker 模块。实验配置参数见表2。采用Virtutech Simics 3.0.30全系统模拟器来评估DoubleRun 方案，为此修改了Simics 自带的g-cache 模块使其支持上述各模块功能。使用了SPEC2000中的10个测试程序，将每个程序运行5000000000条指令后统计实验结果。

4.2实验结果

实验分别测试了gzip 、vpr 、gcc 、mcf 、parser 、perl 、swim 、ap-plu 、art 、ammp 等10个benchmark 的cache 失效率，以评估经过

扩展修改的L1对执行性能有什么影响。首先，RC 的存在增加了L1的容量，由图4中每个benchmark 的柱状图的左边部分可以看出，RC 的存在虽然一定程度上降低了前瞻计算中L1的失效率，但没有明显的贡献，使L1的失效率平均只减小了5.5%，这是由于4路相联、32KB 大小的cache 本身已经将数据cache 的失效率控制到很小的程度的缘故；其次，前瞻计算过程中在NC 和RC 中都失效后从L2读取到RC 中的数据对重播过程来

生成新指纹S'，记录验证执行长度I'

比对指纹S'与S ，比对执行长度I'与I

验证正确则失效C (N -1)创建C (N )，提交U 数据，进入“容错事务”N +1

验证不正确则重新加载C (N -1)，失效U 数据，重新执行“容错事务”N

Intervel 计数器清0

确定性重播后的动作发现故障Uncached I/O 指令Interrupt 到来Cache buffer 溢出Intervel 结束计算指纹并保存为S

记录前瞻执行长度I 加载C (N -1)

前瞻执行到同步点后的动作

同步

点

事务N +1同步点向后恢复之后再执行事务N 同步点事务N 同步点前瞻重播前瞻重播前瞻

重播

…

…C N -1C N -1C N C N +1图3DoubleRun 执行模型图

2011，47（21）前瞻计算中的cache 失效率重播中的cache 失效率1.00.8

0.6

0.40.20归一

化后的数值gzip vpr gcc mcf parser perl swim applu art ammp 图4DoubleRun 在前瞻计算和重播计算过程中的L1cache 失效率（用非容错计算归一化）说是一种预取，由图4中每个benchmark 的柱状图的右边部分可以看出，预取效果比较明显，使L1cache 的失效率平均减小了70%，其中6个整数benchmark 相对于其他4个浮点bench-mark 来说更加受益于前瞻计算的预取效果，这是因为浮点benchmark 的工作集比整数benchmark 的工作集大的缘故。随后测试了DoubleRun 容错处理器在无故障运行时的时间开销，如图5所示。由于DoubleRun 逻辑上将程序运行了两遍，因此其运行时间要比非容错方案更久，平均时间增加了89.8%；但是与非容错方案运行时间的两倍相比，其运行时间平均减少了10.2%，这主要是因为前瞻计算过程中的预取动作以及BOQ 的存在增加了重播过程的性能。4.3无故障计算的时空开销当前要实现容错计算的策略有3种：（1）利用空间冗余保证功能单元计算结果的正确性；（2）利用时间冗余保证功能单元计算结果的正确性；（3）利用信息冗余保证数据存储层次中数据的完整性。以上策略中，为了容忍瞬态故障增加处理器

的可靠性，以牺牲时间或牺牲空间为代价是必须的，直觉上讲，基于双模冗余的容错方案，其空间或时间开销都是“非容错方案”的两倍或大于两倍。例如DCC 使用CMP 中的两个处理器核执行程序的同一副本并比较输出结果，虽然其执行时间没有比非容错系统高出太多（3%~20%），但其主要代价是空间冗余的实现方式使完成容错计算的晶体管面积增加了一倍

以上。由以上分析可知，在提出一个新方案使处理器容忍瞬态故障的同时，体系结构设计者需要权衡该方案带来的时间或者空间开销，为此提出了称为容错时空开销（Time and Area Cost ，TAC ）的指标：TAC =Ct *Ca 。其中Ct 是程序无故障执行的时间开销，Ca 是实现容错计算的晶体管开销。TAC 不像以往的方案一样单独衡量时间开销或空间开销，而是将二者结合起来衡量。只要一个方案的TAC 较其他方案小，就可以不用关心它究竟是采用时间冗余策略还是空间冗余策略。基于这个指标将DoubleRun 与两种现存的方案Slipstream [11]和DCC [16]

作比较。

由于处理器中的寄存器和cache 是由SRAM 构成的，

SRAM 的每一位都需要6个晶体管，因此DoubleRun 方案在图2

中的阴影部分晶体管开销统计如下：

（1）RC =32KB*8*6=1572864

（2）344个64位寄存器+4个64位寄存器S /S ′/I /I ′=（344+

4）*64*6=133632

（3）深度为128的BOQ （分支指令地址+分支目标地址）=128*2*64*6=98304

（4）各种控制逻辑消耗大概200000个晶体管。上述4项相加可知，DoubleRun 基于UltraSPARC-III 处理器实现SOC2一级的正确性需要大概200万个晶体管，而Ultra-

SPARC-III 的晶体管总数为2900万，因此DoubleRun 的晶体管

额外开销为200/2900=6.9%。

然后计算DCC 和Slipstream 两种方案的TAC 。DCC 方案对每个处理器核做了大量改动，增加的晶体管开销约为5%，且空间冗余策略使其至少需要两个核才能完成容错计算，

DCC 的时间开销为3%~20%，假定其平均时间开销为5%。

Slipstream 的每个核增加的晶体管开销约为3%，由于A-stream

具有cache 预取和分支预测的功能，最终效果是加速了程序执行，两个核共同运行一个程序的时间开销为非容错计算的

91%，但Slipstream 方案只能检测和恢复部分瞬态故障。有关DoubleRun 、DCC 、Slipstream 三种方案的对比见表3。5相关工作

从实现角度来看，DMR 执行模型分为紧耦合的LockStep 方式与松耦合的RMT （Redundant Multi-Threading ）方式，HP 公

系统组件处理器流水线操作系统Normal Cache （NC ）Redundant Cache （RC ）Instruction Cache L2Cache Memory 分支结果缓冲前瞻数据提交同步验证向后故障恢复Interval 计数器参数

UltraSPARC-III ，In-order Execution ，3.0GHz

Solaris 2.9

32KB ，4-way ，64Byte ，3cycles ，FT-LRU

32KB ，2-way ，64Byte ，2cycles ，LRU

2MB ，8-way ，64Byte ，43cycles ，LRU

Infinite capacity ，400cycles

128entries （分支指令地址+分支目标地址）

1cycle （gang-clear 处于U 状态的cache 块&创建新checkpoint ）

16cycles 指纹生成+1cycle checker 比较

1cycle （gang-invalidation 处于U 状态的cache 块&加载原checkpoint ）

1000个store 操作

表2实验配置参数

gzip vpr gcc mcf parser perl swim applu art ammp 2.00

1.951.90

1.851.80

1.751.701.651.60归一化后的数值图5DoubleRun 的执行时间（用非容错计算归一化）容错方案DoubleRun DCC Slipstream 时间开销1.8981.0500.910处理器核数122晶体管开销1.0691.0501.030故障检测

与恢复Full Full Partial TAC 2.032.311.87归一化

1.00

1.140.92表3三种容错方案的对比表

刘光辉：使用时间冗余保证处理器的可靠性

Computer Engineering and Applications计算机工程与应用2011，47（21）

司的NonStop[18]和IBM的G5处理器[22]都使用了LockStep方式。但LockStep执行方式会引入性能开销，还阻碍了系统使用基于分布式时钟域的动态电压调节技术等。SMT处理器平台的出现使得处理器可以通过松耦合的RMT方式来检测瞬态故障，且RMT有效地规避了LockStep的缺点。基于SMT处理器平台的方案SRT[3]、SRTR[2]、AR-SMT[12]使处理器以前后错开的方式运行同一线程的两个副本，超前的线程可以为滞后的线程提供分支结果以加速后者的运行速度，在SMT处理器中运行的两份线程时分复用同一份流水线资源，它们本质上属于时间冗余方案。工艺发展和功耗的制约促使了CMP平台的出现，CMP中处理器核的复杂性也相对降低，这也为DMR 执行模型提供了另一个便利的实现平台，方案CRT[1]、CRTR[4]、Slipstream[11]、Reunion[13]、DCC[16]、DDMR[14]皆基于CMP平台。但CMP处理器平台上的DMR也存在值得注意的问题，例如互为冗余的处理器核是通过片上的FIFO队列成对儿连在一起的，这使得多个核的组织不够灵活，而且处理器核之间的通信延时相对SMT平台有所增大，通信带宽的问题也不容忽视。与SRT、SRTR相比，CRT、CRTR可以看作将前两者从SMT平台迁移到CMP平台上，它们改善性能的BOQ机制以及故障检测、恢复机制基本相同。CRT只能检测故障不能恢复故障，Slipstream方案主要为了提升单线程程序执行性能，并且只有部分故障检测率，Reunion使用了relax input replication及指纹故障检测技术，避免了使用FIFO队列的缺点，但随着CMP 上核数量的增多，如何更加灵活地组织CMP上的处理器核成为研究者们感兴趣的问题，于是DCC和DMMR等“动态组对”（Dynamical Core Coupling）技术被提出来，这使基于DMR策略的冗余执行可以更加灵活，任何两个核都可以结合成一个DMR，但要获得这种动态性，必须像DCC一样修改节点之间的总线通信协议，或者像DDMR一样建立专门的通信通道，以便支持容错执行过程中的同步和比较动作。

6结束语

基于SOR模型提出了BRO-SOC框架，研究发现BRO-SOC 框架与系统的存储层次是紧密结合的。然后基于SOC2模型提出了DoubleRun方案并给出了DoubleRun的体系结构实现。由于基于SOC1模型的方案没有专门的checkpoint机制，无论采用时间冗余还是空间冗余策略，都需要利用流水线中支持前瞻执行的机制恢复故障，因此其前瞻现场大小等于流水线的乱序执行窗口大小，且由于寄存器文件需要ECC的保护，故这些方案的流水线性能会降低；基于SOC2模型的方案使用ECC保护的checkpoint支持故障恢复，但当前所有基于SOC2的方案都采用了空间冗余技术。DoubleRun与以往方案的不同之处在于，它是目前为止基于SOC2模型的方案中唯一采用时间冗余技术的方案，其事务的前瞻现场更大，不需要ECC保护寄存器文件，因此对流水线的性能影响更小。利用SPEC2000的部分程序测试了DoubleRun的性能，实验结果表明：（1）由于RC一定程度增加了L1的容量，cache的失效率在前瞻计算中平均降低了5.5%。（2）由于前瞻计算为重播提供了数据预取的功能，在重播中L1的失效率平均降低了70%。（3）BOQ+预取机制增加了重播过程的性能，使DoubleRun上容错事务的平均执行时间为非容错计算的1.89倍。（4）DoubleRun 的容错计算时空开销比DCC要小，同时，虽然比Slipstream稍高，但可以提供完全的故障覆盖。

参考文献：

[1]Reinhardt S K，Mukherjee S S.Transient fault detection via simul-

taneous multithreading[J].ACM SIGARCH Computer Architecture News，2000，28（2）：25-36.

[2]Mukherjee S S，Kontz M，Reinhardt S K.Detailed design and eval-

uation of redundant multithreading alternatives[C]//Proceedings of the29th Annual International Symposium on Computer Architec-ture.[S.l.]：IEEE Computer Society，2002.

[3]Vijaykumar T N，Pomeranz I，Cheng K.Transient-fault recovery

using simultaneous multithreading[C]//Proceedings of the29th An-nual International Symposium on Computer Architecture，2002. [4]Gomaa M.Transient-fault recovery for chip multiprocessors[C]//

Proceedings of the30th Annual International Symposium on Com-puter Architecture，2003.

[5]Xu M.Race recording for multithreaded deterministic replay us-

ing multiprocessor hardware[D].University of Wisconsin-Madison，2006.

[6]Spainhower L，Gregg T A.IBM S/390parallel enterprise server

G5fault tolerance：a historical perspective[J].IBM Journal of Re-search and Development，1999，43（5/6）：863-873.

[7]Patterson D，Brown A.Recovery oriented computing[C]//Proc High

Performance Transaction Systems Workshop（HPTS），2001.

[8]Patterson D.Recovery-Oriented Computing（ROC）：motivation，def-

inition，techniques，and case studies[R].2002.

[9]Ray J，Hoe J C，Falsafi B.Dual use of superscalar datapath for

transient-fault detection and recovery[C]//Proceedings of the34th Annual ACM/IEEE International Symposium on Microarchitec-ture.[S.l.]：IEEE Computer Society，2001.

[10]Austin T M.DIV A：a reliable substrate for deep submicron mi-

croarchitecture design[C]//Proceedings of the32nd Annual Inter-national Symposium on Microarchitecture，2002.

[11]Sundaramoorthy K，Purser Z，Rotenberg E.Slipstream processors：

improving both performance and fault tolerance[J].ACM SIG-PLAN Notices，2000，35（11）.

[12]Rotenberg E.AR-SMT：a microarchitectural approach to fault tol-

erance in microprocessors[C]//Proceedings of the29th Annual International Symposium on Fault-Tolerant Computing，2002. [13]Smolens J C.Reunion：complexity-effective multicore redundan-

cy[C]//Proceedings of the39th Annual IEEE/ACM International Symposium on Microarchitecture.[S.l.]：IEEE Computer Society，2006.

[14]Golander A，Weiss S，Ronen R.DDMR：dynamic and scalable dual

modular redundancy with short validation intervals[J].Computer Architecture Letters，2008，7（2）：65-68.

[15]Martínez J F.Cherry：checkpointed early resource recycling in out-

of-order microprocessors[C]//Proceedings of the35th Annual IEEE/ ACM International Symposium，2003.

[16]LaFrieda C.Utilizing dynamically coupled cores to form a resil-

ient chip multiprocessor[C]//Proceedings of the37th Annual IEEE/ IFIP International Conference on Dependable Systems and Net-works，2007.

（下转72页）

可靠性设计准则

可靠性设计准则 1、新技术采用准则：实施合理的继承性设计，在原有成熟产品的基础上开发、研制新产品；尽量不使用不成熟的新技术、新工艺及新材料；新技术的采用必须有良好的预研基础，并按规定进行评审和鉴定。 2、简化设计准则：分析权衡产品功能，合并相同或相似功能，消除不必要功能；在满足技术指标前提下尽量简化设计方案，减少零部件的数量；尽量减少执行同一或相近功能的零部件、元器件数量；优选标准化程度高的零部件、紧固件、元器件、连接件等；最大限度采用通用组件、零部件、元器件，并尽量减少其品种；必须使故障率高、易损坏、关键件的单元具有良好互换性和通用性；产品修改时，不应改变其安装和连接方式以及有关部位的尺寸，使新旧可互换；设计须尽量使电路、结构简单的同时不给其他电路、结构增加不合理应力。 3、热设计准则：元器件布局时应考虑周围零部件热辐射影响，将发热较大器件尽可能分散; 将热敏感器件远离热源或采取隔离（如电容器）；尽量采用温度漂移小的器件；尽量降低接触面的热阻——加大热传导的面积、增加传导器件之间的接触压力、接触面应平整光滑且必要时可在发热体表面涂上散热图层以增加黑度系数、在传导路径中不应有绝热或隔热件；应选用导热系数大的材料制造传导材料；尽量缩短热传导的路径（加大横截面）；接近高温区的所有器件均应采取防护措施（间隙及使用耐高温绝缘材料）；发热器件应尽可能置于上方，条件允许应处于气流通道上；发热量较大或电流较大元器件应安装散热器并远离其他器件；尽可能利用金属机箱或底盘散热。

4、容差设计准则：设计应考虑零部件元器件的制造容差、温漂、时漂的影响；对系统参数影响较大的器件应选用低允差和高稳定性器件；电路的阻抗匹配参数应保证在极限温度情况下电路工作稳定；对稳定性要求高的电路，应通过容差分析进行参数设计；正确选择元器件的工作点，使温度和使用环境的变化对电路影响最小。 5、机械环境设计准则：应使电路结构对机械环境的影响最小；元器件、材料的特性应满足产品的机械环境要求；细长或较重的元器件应予以固定，以防振动疲劳断裂；对振动和冲击强烈的部位应进行减震设计；接插件等可移动的点接触部位，应加固和锁紧，以免振动时接触不良；零部件应避免悬挂式安装，以防振动疲劳断裂；供导线通过的金属隔板孔必须设置绝缘套，导线不得沿锐边、棱角铺设，以防磨损；对于印制电路板应加固和锁紧，以免在振动时产生接触不良和脱开；继电器安装应使触电的动作方向与衔铁的吸合方向相同，尽量不要与振动方向一致；接插头处尽可能有支撑物；在绕曲与振动环境下，应尽量使用软导线。 6、电磁兼容设计准则：应采用良导体（如铜、铝）作为高频电场的屏蔽材料；应采用导磁材料（如铁）作为低频磁场的屏蔽材料；多重屏蔽能提高屏蔽效果和扩大屏蔽的频率范围；有屏蔽要求的设备，应注意开口和间断处并做屏蔽处理；金属表面之间必须紧密接触是获得良好搭接的关键；搭接最好选用相同材料，选用不同材料时要注意搭接腐蚀问题；在需要的场合，必须保护搭接免受潮气和其它腐蚀作用；应把搭接片直接搭接在基体构件上，搭接片应能承受流过的电流；

建筑结构可靠度设计统一标准GB50068-2001

建筑结构可靠度设计统一标准GB 50068-2001 中华人民共和国国家标准建筑结构可靠度设计统一标准 Unified standard for reliability design of building structures GB 50068-2001 主编部门：中华人民共和国建设部批准部门：中华人民共和国建设部施行日期：2002年3月1日关于发布国家标准《建筑结构可靠度设计统一标准》的通知建标[2001]230 号根据我部“关于印发《一九九七年工程建设标准制订、修订计划的通知》”（建标[1997]108号）的要求，由建设部会同有关部门共同修订的《建筑结构可靠度设计统一标准》，经有关部门会审，批准为国家标准，编号为GB 50068-2001 ，自2002年3月1日起施行。其中1.0.5，1.0.8为强制性条文，必须严格执行，原《建筑结构设计统一标准》GBJ 68-84 于2002年12月31日废止。本标准由建设部负责管理，中国建筑科学研究院负责具体解释工作。建设部标准定额研究所组织中国建筑工业出版社出版发行。中华人民共和国建设部 2001年11月13日前言本标准是根据建设部建标[1997]108 号文的要求，由中国建筑科学研究院会同有关单位对原《建筑结构设计统一标准》(GBJ 68-84)共同修订而成的。本次修订的内容有：

1.标准的适用范围:鉴于《建筑地基基础设计规范》、《建筑抗震设计规范》在结构可靠度设计方法上有一定特殊性，从原标准要求的"应遵守"本标准，改为"宜遵守"本标准； 2.根据《工程结构可靠度设计统一标准》(GB 50153-92)的规定，增加了有关设计工作状况的规定，并明确了设计状况与极限状态的关系； 3.借鉴最新版国际标准ISO 2394:1998 《结构可靠度总原则》，给出了不同类型建筑结构的设计使用年限； 4.在承载能力极限状态的设计表达式中，对于荷载效应的基本组合，增加了永久荷载效应为主时起控制作用的组合式； 5.对楼面活荷载、风荷载、雪荷载标准值的取值原则和结构构件的可靠指标以及结构重要性系数等作了调整； 6.首次对结构构件正常使用的可靠度做出了规定，这将促进房屋使用性能的改善和可靠度设计方法的发展； 7.取消了原标准的附件。本标准黑体字标志的条文为强制性条文，必须严格执行。本标准将来可能需要进行局部修订，有关局部修订的信息和条文内容将刊登在《工程建设标准化》杂志上。为了提高标准质量，请各单位在执行本标准的过程中，注意总结经验，积累资料，随时将有关的意见和建议寄给中国建筑科学研究院，以供今后修订时参考。本标准主编单位：中国建筑科学研究院本标准参编单位：中国建筑东北设计研究院，重庆大学，中南建筑设计院，四川省建筑科学研究院，福建师范大学。本标准主要起草人：李明顺胡德炘史志华陶学康陈基发白生翔苑振芳戴国欣陈雪庭王永维钟亮戴国莹林忠民 1 总则 1.0.1 为统一各类材料的建筑结构可靠度设计的基本原则和方法，使设计符合技术先进，经济合理、安全适用、确保质量的要求，制定本标准。 1.0.2 本标准适用于建筑结构，组成结构的构件及地基基础的设计。

可靠性理论模拟题

《可靠性理论》模拟题（补）一.名词解释 1.可靠性：产品在规定的条件下和规定的时间内完成规定功能的能力。 2. 可靠性设计：系统可靠性设计是指在遵循系统工程规范的基础上，在系统设计过程中，采用一些专门技术，将可靠性“设计”到系统中去，以满足系统可靠性的要求。 3. 最小割集和最小径集：最小割集就是引起顶上事件发生所必需的最低限度的割集。最小径集就是顶上事件不发生所需的最低限度的径集。 4. 网络：连接不同点之间的路线系统或通道系统。 5.广义可靠性：广义可靠性是指产品在其整个寿命期限内完成规定功能的能力，它包括可靠性（即狭义可靠性）与维修性。 6.可靠性指标分配：指根据系统设计任务书中规定的可靠性指标（经过论证和确定的可靠性指标），按照一定的分配原则和分配方法，合理的分配给组成该系统的各分系统、设备、单元和元器件，并将它们写入相应的设计任务书或经济技术合同中。 7. 降额设计：使元器件或设备工作时所承受的工作应力（电应力或温度应力），适当低于元器件或设备规定的额定值，从而达到降低基本故障率、提高使用可靠性的目的。 8. 人机系统：指人与其所控制的机器相互配合,相互制约,并以人为主导而完成规定功能的工作系统。二.填空题 1.可靠性的定义包含有五个方面的内容，它们是：对象、使用条件、使用期限、规定的功能、概率等。 2.由三种失效率曲线所反应，表现产品在其全部工作过程中的三个不同时期分别是：早期失效期、偶然失效期、耗损失效期。 3.对于可修复的产品，其平均无故障工作时间或平均故障间隔称为平均寿命。 4.失效率函数为常数λ时，可靠度函数表达式可写为： t e t Rλ- = )(。 5.系统进行可靠度分配时，若已知各元件的预计失效率，而进行分配的方法称为阿林斯分配法。 6.简单求解网络可靠度的常用方法有状态枚举法、全概率分解法、最小割集法、最小径集法、不交布尔代数运算规则。 7.割集和径集中反应导致顶上事件发生所必需的最低限度的是最小割集；反应顶上事件不发生所需的最低限度的是最小径集。 8.常用的可靠性特征量有：可靠度、失效率、平均寿命、可靠寿命等。 9.产品失效率曲线一般可分为：递减型失效率曲线、恒定型失效率曲线、递增型失效率曲线。

机电设备可靠性设计准则条

A1 在确定设备整体方案时，除了考虑技术性、经济性、体积、重量、耗电等外，可靠性是首先要考虑的重要因素。在满足体积、重量及耗电等于数条件下，必须确立以可靠性、技术先进性及经济性为准则的最佳构成整体方案。 A2 在方案论证时，一定要进行可靠性论证。 A3 在确定产品技术指标的同时，应根据需要和实现可能确定可靠性指标与维修性指标。 A4 对己投入使用的相同（或相似）的产品，考察其现场可靠性指标，维修性指标及对这两种备标的影响因素，以确定提高当前研制产可靠性的有效措施。 A5 应对可靠性指标和维修性指标进行合理分配，明确分系统（或分机）、不见、以至元器件的的可靠性指标。 A6 根据设备的设计文件，建立可靠性框图和数学模型，进行可靠性预计。随着研制工作深入地进行，预计于分配应反复进行多次，以保持其有效性。 A7 提出整机的元器件限用要求及选用准则，拟订元器件优选手册（或清单）A8 在满足技术性要求的情况下，尽量简化方案及电路设计和结构设计，减少整机元器件数量及机械结构零件。 A9 在确定方案前，应对设备将投入使用的环境进行详细的现场调查，并对其进行分析，确定影响设备可靠性最重要的环境及应力，以作为采取防护设计和环境隔离设计的依据。 A10 尽量实施系列化设计。在原有的成熟产品上逐步扩展，抅成系列，在一个型号上不能采用过多的新技术。采用新技术要考虑继承性。 A11 尽量实施统一化设计。凡有可能均应用通用零件，保证全部相同的可移动模块、组件和零件都能互换。

A12 尽量实施集成化设计。在设计中，尽量采用固体组件，使分立元器件减少到最小程度。其优选序列为：大规模集成电路-中规模集成电路-小规模集成电路-分立元器件 A13 尽量不用不成熟的新技术。如必须使用时应对其可行性及可靠性进行充分论证，并进行各种严格试验。 A14 尽量减少元器件规格品种，增加元器件的复用率，使元器件品种规格与数量比减少到最小程度。 A15 在设备设计上，应尽量采用数字电路取代线性电路，因为数字电路具有标准化程度高、稳定性好、漂移小、通用性强及接口参数易匹配等优点。 A16 根据经济性及重量、体积、耗电约束要求，确定设备降额程度，使其降额比尽量减小，便不要因选择过于保守的组件和零件导致体积和重量过于庞大。A17 在确定方案时，应根据体积、重量、经济性与可靠性及维修性确定设备的冗余设计，尽量采用功能冗余。 A18 设计设备时，必须符合实际要求，无论在电气上或是结构上，提出局部过高的性能要求，必将导致可靠性下降。 A19 不要设计比技术规范要求更高的输出功率或灵敏度的线路，但是也必须在最坏的条件下使用而留有余地。 A20 在设计初始阶段就要考虑小型化和超小型化设计，但以不妨碍设备的可靠性与维修性为原则。 A21 对于电气和结构设计使用公差需考虑设备在寿命期内出现的渐变和磨损，并保证能正常使用。 A22 加大电路使用状态的公差安全系数，以消除临界电路。

可靠性设计技术工作规范

可靠性设计技术工作规范 1. 范围本规范规定了可靠性设计大纲、工作计划编制的相关要求。本规范规定了可靠性设计准则、原则与方法的相关要求。 2. 规范性引用文件 GJB450A-2004 装备可靠性工作通用要求 GJB841-1990 故障报告、分析和纠正措施系统 GJB899A-2009 可靠性鉴定和验收试验 GB/T7826-20012 系统可靠性分析技术――失效模式和影响分析(FMEA)程序 3. 术语和定义 3.1 可靠性可靠性(Reliability)指产品(包括零件和元器件、整机设备、系统)在规定的条件下和规定的时间内,完成规定功能的能力。可靠性指标主要反映产品或设备的可靠性(Reliability),可靠性是部件(Part)、元件(Component)、产品(Product)或系统(System)的完整性的最佳数量的度量。平均故障间隔时间又称平均无故障时间(Mean Time Between Failure,MTBF)指可修复产品两次相邻故障之间的平均时间,是衡量一个产品的可靠性指标。 3.2 可靠性设计可靠性设计(Reliability Design),即根据可靠性理论与方法确定产品零部件以及整机的结构方案和有关参数的过程。设计水平是保证产品可靠性的基础。可靠性设计,在产品设计过程中,为消除产品的潜在缺陷和薄弱环节,防止故障发生,以确保满足规定的固有可靠性要求所采取的技术活动。可靠性设计是可靠性工程的重要组成部分,是实现产品固有可靠性要求的最关键的环节,是在可靠性分析的基础上通过制定和贯彻可靠性设计准则来实现的。 4. 可靠性设计大纲为了保证产品满足规定的可靠性要求而制定的一套文件,包括可靠性设计组织机构及其职责,要求按进度实施的工作项目、工作程序和需要的资源等。

常见五种安全PLC 的冗余系统结构和安全性可靠性分析

常用安全PLC 的结构和性能【摘要】本文介绍了几种常见的安全PLC的结构和性能，然后对各种安全PLC的特性进行了归纳和总结。【关键词】安全PLC N选X系统三重冗余四重冗余 Abstract: The article analyses several popular safety PLC’s architecture and performance. Finally, summarize their features. Key word: Safety PLC XooN TMR QMR 近几十年来，多起工业事故发生的原因可以追溯到计算机系统的失效，引起了人员伤亡、设备损坏和环境污染。这些信息也唤醒了国家和公众对减少危险、建立安全工业流程的意识。为此，IEC制定了新的安全国际标准：IEC 61508/ 61511，也已经由工业组织合作制定完成，我国的相关标准也即将颁布。为了帮助读者了解目前安全仪表系统（SIS）使用安全PLC实现电气/电子/可编程电子系统（E/E/PES）功能的情况，就常见的几种安全系统结构进行探讨，希望能对今后的系统选择有所借鉴和参考。 1．PLC 是一个逻辑解算器一个安全系统的逻辑解算器是一种特殊类型的PLC，它具有独立的安全功能认证，但也有继电器逻辑或者固态逻辑的运算能力。逻辑解算器从传感器读入信号，执行事先编制好的程序或者事先设计好的功能，用于防止或者减轻潜在的安全隐患，然后通过发送信号到执行器或最终元件采取行动。逻辑解算器的设计有很多种，来满足不同的市场需求、应用和任务。我们下面将就比较典型的安全PLC的结构进行探讨。 2．安全PLC 的体系结构当你构建一个安全系统时，可以有很多方式来安排安全系统部件。有些安排考虑的是对成功操作有效性的最大化。（可靠性或可用性）。有些安排考虑的是防止特殊失效的发生（失效安全，失效危险）。控制系统部件的不同安排可以从它们的体系结构中看出来。这节内容将介绍市场上几款常见的可编程电子系统（PES）的体系结构，了解它们的安全特性，以及在安全和关键控制的应用。它们是已经在实践中存在的多种结构的代表，真正现场使用的系统就是这些结构的不同组合。下面的内容将用N选X (比如2选1) 的方式：XooN 来介绍系统。在每个类型中，X 代表需要执行安全功能的通道数，而N 代表整个可用的通道数。. 2.1．1oo1 单通道系统单控制器带有单个逻辑解算器和单个I/O 代表了一个最小化的系统，见下图（图1）。这个系统没有提供冗余，也没有失效模式保护。电子电路可以失效安全（输出断电，回路开路）或者失效危险（输出粘连或给电，短路）。这种安排方式是典型的非安全－常规PLC系统结构。

机电设备可靠性设计准则1000条.

机电设备可靠性设计准则1000条陕西神木神源煤炭矿业有限公司 2016年1月

机电设备可靠性设计准则1000条 A1 在确定设备整体方案时，除了考虑技术性、经济性、体积、重量、耗电等外，可靠性是首先要考虑的重要因素。在满足体积、重量及耗电等条件下，必须确立以可靠性、技术先进性及经济性为准则的最佳构成整体方案。 A2 在方案论证时，一定要进行可靠性论证。 A3 在确定产品技术指标的同时，应根据需要和实现可能确定可靠性指标与维修性指标。 A4 对己投入使用的相同（或相似）的产品，考察其现场可靠性指标，维修性指标及对这两种备标的影响因素，以确定提高当前研制产可靠性的有效措施。 A5 应对可靠性指标和维修性指标进行合理分配，明确分系统（或分机）、不见、以至元器件的的可靠性指标。 A6 根据设备的设计文件，建立可靠性框图和数学模型，进行可靠性预计。随着研制工作深入地进行，预计于分配应反复进行多次，以保持其有效性。 A7 提出整机的元器件限用要求及选用准则，拟订元器件优选手册（或清单）A8 在满足技术性要求的情况下，尽量简化方案及电路设计和结构设计，减少整机元器件数量及机械结构零件。 A9 在确定方案前，应对设备将投入使用的环境进行详细的现场调查，并对其进行分析，确定影响设备可靠性最重要的环境及应力，以作为采取防护设计和环境隔离设计的依据。 A10 尽量实施系列化设计。在原有的成熟产品上逐步扩展，抅成系列，在一个型号上不能采用过多的新技术。采用新技术要考虑继承性。 A11 尽量实施统一化设计。凡有可能均应用通用零件，保证全部相同的可移动模块、组件和零件都能互换。 A12 尽量实施集成化设计。在设计中，尽量采用固体组件，使分立元器件减少到最小程度。其优选序列为：大规模集成电路-中规模集成电路-小规模集成电路-分立元器件 A13 尽量不用不成熟的新技术。如必须使用时应对其可行性及可靠性进行充分论证，并进行各种严格试验。 A14 尽量减少元器件规格品种，增加元器件的复用率，使元器件品种规格与数量比减少到最小程度。 A15 在设备设计上，应尽量采用数字电路取代线性电路，因为数字电路具有标准化程度高、稳定性好、漂移小、通用性强及接口参数易匹配等优点。 A16 根据经济性及重量、体积、耗电约束要求，确定设备降额程度，使其降额比尽量减小，便不要因选择过于保守的组件和零件导致体积和重量过于庞大。 A17 在确定方案时，应根据体积、重量、经济性与可靠性及维修性确定设备的冗余设计，尽量采用功能冗余。 A18 设计设备时，必须符合实际要求，无论在电气上或是结构上，提出局部过高的性能要求，必将导致可靠性下降。 A19 不要设计比技术规范要求更高的输出功率或灵敏度的线路，但是也必须

系统的可靠性冗余分配最优配置问题

系统可靠性冗余分配最优配置问题随着科技的不断进步，人们对系统整体可靠性优化设计的要求越来越高。为了改进一个给定基本系统的可靠性，设计工程师一般有两种选择：①增强单个元件的可靠度，如加大科研成本的投入，研制出可靠度更高的元件；②对不同阶段提供冗余，即对系统的同一阶段分配多个相同的元件（相当于备用元件），当其中一个元件发生故障时，其他新的元件可以代替故障元件进行工作，以减少故障时间。而实验证明，当单个元件可靠度达到某个水平后，要想再继续增加单个元件的可靠度，其成本将呈指数增长。因此，若提高元件可靠度至某个水平之后还希望继续提升，则只能对系统进行冗余。即对系统的每个阶段进行重复配置元件,当系统发生故障时,冗余配置的部件介入并承担故障元件的工作,由此减少系统的故障时间。当对系统各阶段进行冗余配置时，系统资源也会随着每个阶段冗余度的增加带来更多消耗。即随着冗余度的增加，整个系统的成本、体积、重量、可靠度也都会有所增加。一个系统所追求的最优配置是成本、体积、重量的尽可能小，可靠度的尽可能大，但一般情况下各项目标不能同时达到最优的，这时可靠性设计者就需要在这几个目标中进行权衡。如下图所示，该系统是一个四阶串联的燃气轮机的超速监测系统原理图，k 1、k 2、k 3、k 4分别为待分配冗余的四个阶段，同一个阶段安装的元件是相同的。要对该系统进行可靠性冗余分配设计，即是在满足系统的约束条件下，通过建立模型给出一种方法来确定k 1、k 2、k 3、k 4这四个阶段元件的冗余分配数量x j 以及各阶段元件的可靠度r j ，使得系统可靠度尽可能的大，总成本、总体积、总重量尽可能的小。工程中，该系统的总体积可表示为V=∑v j n j=1x j 2，v j 为第j 级每个元件的重量和体积的乘积；总重量W=∑w j n j=1x j exp? (x j /4)，w j 为第j 级每个元件的重量；总成本C=∑αj /λj βj n j=1[x j +exp? (x j /4)]，λj 为常数，表示第j 级元件的故障率，假

基于混合法的监控系统可靠性分析

基于混合法的监控系统可靠性分析于敏a ，何正友b ，钱清泉b (西南交通大学 a. 信息科学与技术学院；b. 电气工程学院，成都 610031) 摘要：针对复杂监控系统规模庞大及关键设备为双机冗余结构的特点，提出以动态故障树(DFT)为基础并结合蒙特卡罗方法对监控系统进行可靠性分析的混合方法。利用DFT 建立系统可靠性模型，通过蒙特卡罗仿真算法对模型进行仿真计算，得到系统的可靠性指标。通过对地铁车站级监控系统的可靠性分析，证明了该模型的可行性和算法的有效性。关键词：监控系统；动态故障树；蒙特卡罗方法；可靠性分析 Reliability Analysis of Monitor System Based on Hybrid Method YU Min a , HE Zheng-you b , QIAN Qing-quan b (a. School of Information Science & Technology; b. School of Electric Engineering, Southwest Jiaotong University, Chengdu 610031, China) 【Abstract 】For dealing with the large scale characteristic of complex monitor system as well as redundant structures of critical components, a hybrid method of reliability analysis for monitor system is presented on basis of dynamic fault tree and in combination with Monte Carlo simulation algorithm. Dynamic Fault Tree(DFT) is used to establish the reliability model of monitor systems. Reliability indices can be obtained by Monte Carlo method, which is used to solve the reliability model. A special reliability analysis case of the subway station-level monitor system is proposed, it demonstrates the feasibility of the model and the effectiveness of the algorithm. 【Key words 】monitor system; Dynamic Fault Tree(DFT); Monte Carlo method; reliability analysis 计算机工程 Computer Engineering 第36卷第19期 Vol.36 No.19 2010年10月 October 2010 ·博士论文· 文章编号：1000—3428(2010)19—0014—04 文献标识码：A 中图分类号：TP391 1 概述监控系统是实现监视控制与数据采集功能的系统，完成远方现场运行参数与开关状态的采集和监视、远方开关的操作、远方参数的调节等任务，并为采集到的数据提供共享的途径[1-2]。监控系统作为一种保证复杂系统正常工作与提高其运行可靠性的重要手段已经被广泛应用[3]。对系统进行可靠性分析时，经常采用静态(传统)故障树模型及其相应的处理方法。但在工程中，监控系统的关键设备诸如服务器、网络设备等多采用双机冗余结构，而传统故障树方法用于描述冗余部件之间的顺序失效以及动态冗余管理机制时存在局限。因此，可引入动态故障树(Dynamic Fault Tree, DFT)对其进行可靠性分析。DFT 是在传统故障树基础上引入新的逻辑门来表征动态系统故障行为，常利用Markov 状态转移过程进行计算，但它的计算量将随着系统规模的增大呈指数增长[4]，且Markov 过程仅适用于失效与维修时间变量服从指数分布的情况。文献[5]提出利用基于梯形公式的顶事件概率计算法，但仍然存在组合爆炸的问题，并不适用于大型监控系统分析。而蒙特卡罗方法作为一种以概率统计理论为基础的数值计算方法，其计算量不受系统规模的制约[6]。结合DFT 具有建模物理概念清楚的特点，本文提出利用混合法对监控系统可靠性进行分析。 2 监控系统可靠性模型 2.1 动态逻辑门 DFT 指至少包含一个专用动态逻辑门的故障树，具有顺序相关性、容错性以及冗余等特性[3]，本文对监控系统可靠性分析可引入如图1所示的4个动态逻辑门。图1(a)~图1(c)为双机储备门，用于描述双机冗余子系统的状态与其主、备用设备状态之间的关系。其中，输入事件A 、B 分别用于描述主、备用设备的状态，输出事件C 则用于描述双机冗余子系统的状态。若主设备的失效率为λ，备用设备的失效率一般为αλ,01α≤≤。当冷储备时备用设备故障率为0，则 0=α；温储备时备用设备故障率小于主设备故障率，则10<<α；热储备时主、备用设备的故障率相同，即有1=α。图1(d)为顺序与门，当且仅当事件按从A 到B 的顺序发生时，输出事件C 才会发生。 (a)双机冷备门 (b)双机温备门 (c)双机热备门 (d)顺序与门图1 动态逻辑门 2.2 DFT 预处理当使用混合法对监控系统可靠性进行分析时，根据系统的失效原因建立DFT ，DFT 的顶事件为系统的故障事件，底事件为设备的故障事件。但蒙特卡罗方法是依据静态故障树的结构函数作为仿真的逻辑关系，因此，仿真之前需对DFT 进行预处理，将DFT 转换成静态故障树的方法如下：基金项目：国家自然科学基金资助项目(50878188) 作者简介：于敏(1982－)，女，博士研究生，主研方向：大型监控系统可靠性分析；何正友，教授、博士生导师；钱清泉，教授、中国工程院院士收稿日期：2010-04-18 E-mail ：yugnm@https://www.wendangku.net/doc/62355643.html,

地铁供电系统可靠性和安全性分析方法研究(通用版)

( 安全论文 ) 单位：_________________________ 姓名：_________________________ 日期：_________________________ 精品文档 / Word文档 / 文字可改地铁供电系统可靠性和安全性分析方法研究(通用版) Safety is inseparable from production and efficiency. Only when safety is good can we ensure better production. Pay attention to safety at all times.

地铁供电系统可靠性和安全性分析方法研究(通用版) 摘要：随着社会的快速发展，地铁也渐渐的融入了人们的生活，为人们提供了便利的出行条件。地铁的供电系统是否安全和可靠运行直接影响到地铁的安全运行和稳定性能。随着地铁线路不断增设，地铁的供电系统也越来越复杂化，出现故障的可能性也在不断提高。如果地铁的供电系统出现故障，会直接导致城市地铁运输功能的失灵，可能会危及乘客的生命和安全。因此，本文重点对地铁供电系统的可靠性和安全性进行分析，旨在提高地铁的运行效率和安全性能。关键词：地铁供电系统；可靠性；安全性；分析方法；研究一、地铁供电系统的概述随着社会和经济的迅速发展，我国的城市人口密度也在不断增

加，人们对地铁的需求也随之不断增强，地铁已经成为人们生活中不可或缺的交通工具，由于地铁具有运行速度快、旅客运送量大、车次多、方便舒适等优点，所以被众多国家所使用，缓解了城市大部分的交通压力。因此，我们对地铁可靠性、安全性的要求也越来越高。地铁供电系统的安全可靠运行，对地铁列车的安全可靠运行起着至关重要的作用。供电系统是地铁运行的重要组成部分，供电系统的安全可靠是地铁正常运行的前提和重要保障。二、地铁供电系统的组成部分地铁供电系统是为地铁车辆提供电能运行动力的系统。地铁供电系统是由两部分内容组成。第一部分是高压的供电系统，高压供电的系统的供电方式有三种：集中式供电、分散式供电和混合式供电。集中式供电具有可靠性高、便于统一调度管理、施工方便、维护简单、计费便捷等优点，但投资比较大。分散式供电方式一般会受外部电网影响，可靠性相对差一些。混合供电方式集中了前两者共同的优点，但是增大了复杂性。所以，三种供电方式各有其自身的优点和缺点，需要根据地铁运行及管理的实际情况进行选择；而

乳化液泵站液压系统可靠性分析

乳化液泵站液压系统可靠性分析发表时间：2019-04-01T14:40:59.160Z 来源：《电力设备》2018年第28期作者：李强 [导读] 摘要：随着科学技术水平的提高，我国矿山生产过程中乳化液泵站液压系统的应用也逐渐受到重视。（身份证号：61272819860910xxxx 神东设备维修中心一厂四部内蒙古鄂尔多斯 017209）摘要：随着科学技术水平的提高，我国矿山生产过程中乳化液泵站液压系统的应用也逐渐受到重视。文章主要对乳化液泵站液压系统可靠性分析的重要性进行分析，并探讨可靠性优化策略。关键词：乳化液泵站；液压系统；可靠性引言矿用乳化液泵站是综采工作面的关键设备,它一方面为机械化综采面单体液压支柱提供基础保障,另一方面将机械能转化为液压能为掘进设备提供转矩。在液压系统中,液压源的稳定性是液压系统稳定性的决定性因素。当系统液压源出现压力波动时,会引起整个系统的压力震荡,加快系统密封元件、管道和压力元件的损坏,严重时会引发系统故障,造成重大事故。 1常规乳化液泵站工作原理乳化液泵站工作原理为:磁力启动器(6)闭合,给乳化液泵电机(4)供电,驱动乳化液泵(3)工作,将乳化液由液箱(15)经输液管道送到综采工作面液压支架(14),为液压支架提供动力。乳化液泵的输出能力,为单体液压支柱供液的应不小于18MPa,为综采液压支架供液的应不小于30MPa,并且不得超过31.5MPa。乳化液泵采用的是由电动机驱动的电动泵；在运动形式上，采取柱塞驱动的形式，这主要是因为柱塞泵排出压力范围广、可靠性高；从外观结构上，泵分为卧式泵和立式泵，此次设计采用卧式泵，方便维护、维修、操作，可保证工作效率；泵的联数、缸数及作用数也是总体设计时需要考虑的关键问题，在柱塞泵中，一根柱塞和其连杆的组合，称为一联，当柱塞间相位差不同，但一同排出时，联可以称为缸，缸数的多少影响泵的流量脉动。一般而言，缸数越多，其脉动越小，但考虑到制造工艺的方便，此次设计为五缸泵，柱塞往复一次吸入与排出介质的次数称为作用数，因为结构的关系，柱塞泵一般是单作用泵。图1 常规乳化液泵站液压系统示意图在乳化液泵站的出液口还安装安全阀(8),作为泵站的的高压保护零件,安全阀的调定压力为泵工作压力的110%~115%左右,超压时,乳化液通过安全阀回流入液箱。图1中蓄能器(11)的主要作用是补充高压系统中的漏损,从而减少卸载阀的动作次数,延长液压系统中液压元件的使用寿命;同时还能吸收高压系统的压力脉动。 2乳化液泵站液压系统可靠性分析的重要作用综采工作面的支护体系主要由液压支架与乳化液泵站以及控制、调节、保护元件和辅助装置构成。其中，乳化液泵站液压系统是整个工作面支护体系完整系统的一部分。泵站液压系统既能安全可靠地向工作面输送液压支架等液压装置所需压力等级的高压液体，又能将通过回液管道流回乳化液箱的乳化液经过滤净化后，再次输送至工作面液压设备，形成连续无间断的循环供液模式。在功能方面，当液压支架动作时泵站液压系统可以满足其需要，系统可以即时供给高压液体;当液压支架不动作乳化液泵仍在运转时，系统能够自动卸载，保证乳化液泵站安全运行;当液压支架等液压设备动作受阻时，工作液压力超过限定值，系统能够限压保护。乳化液泵站液压系统是综采工作面泵站与液压支架及辅助元件组成的整体系统的一部分。不仅可以向工作面液压装置提供所需压力等级的乳化液体，还可以将输送完能量的乳化液进行回收、过滤后再进行加压，形成连续循环的供液体系。乳化液泵液压系统通常具有以下特点：乳化液泵站液压系统可以满足工作面液压支架及其附属装置的工作用液要求，当工作面液压支架需要压力时，乳化液泵站可以及时提供符合压力及流量要求的乳化液;工作面液压支架不需要供液时，泵站液压系统仍正常运转并自动卸载压力;系统压力超过调定值时，系统可以自动卸载，当压力降至调定值时，系统又可恢复正常工作;保护乳化液泵，空载启动减少对泵体自身的损害;系统内有完善的压力及流量缓冲装置、良好的过滤装置、压力指示装置以及自动配液装置等。 3乳化液泵站液压系统可靠性 3.1建立可靠性模型在分析乳化液泵的可靠性时,首先要了解乳化液泵中每个元部件的功能、各个元部件之间在功能上的关系,以及各个元部件的功能和故障对整个乳化液泵的影响。用方框代表系统元部件,用短线把各个代表元部件的方框按照功能上的逻辑关系连接起来,就建立了整个系统的可靠性框图。根据可靠性理论,乳化液泵各个元部件之间都是串联关系,其中任何一个元件出现故障都可以导致乳化液泵站故障。因此,乳化液泵站的可靠性模型是由电动机、齿轮副、滑块、曲轴、缸体、进液阀和排液阀组成的串联系统。设U代表乳化液泵站无故障工作的事件,Ui 代表第i个元部件无故障工作的事件。因为乳化液泵站各个元部件之间是串联关系,所以U事件出现等于U1,U2,…Un,事件同时发生,即:U=U1U2…Un。依照概率计算的原则,假如乳化液泵站中各元部件是相互独立的,得出的乳化液泵站可靠度

硬件系统可靠性设计规范

硬件系统可靠性设计规范一、概论可靠性的定义：产品或系统在规定条件下和规定时间内完成规定功能的能力可靠性及抗干扰设计是硬件设计必不可少的一部分,它包括芯片、器件选择、去耦滤波、印刷电路板布线、通道隔离等。有完善的抗干扰措施，是保证系统精度、工作正常和不产生错误的必要条件。设备可靠性设计规范的一个核心思想是监控过程，而不是监控结果。二、可靠性设计方法 1、元器件：构成系统的基本部件，作为设计与使用者，主要是保证所选用的元器件的质量或可靠性指标满足设计的要求 2、降额设计：使电子元器件的工作应力适当低于其规定的额定值，从而达到降低基本故障率，保证系统可靠性的目的。幅度的大小可分为一、二、三级降额，一级降额（(实际承受应力)/(器件额定应力) < 50%的降额），建议使用二级降额设计方法，一级降额<70% 3、冗余设计：也称为容错技术或故障掩盖技术，它是通过增加完成同一功能的并联或备用单元（包括硬件单元或软件单元）数目来提高系统可靠性的一种设计方法，实现方法主要包括：硬件冗余；软件冗余；信息冗余；时间冗余等 4、电磁兼容设计：系统在电磁环境中运行的适应性，即在电磁环境下能保持完成规定功能的能力。电磁兼容性设计的目的是使系统既不受外部电磁干扰的影响，也不对其它电子设备产生电磁干扰。硬件措施主要有滤波技术、去耦电路、屏蔽技术、接地技术等；软件措施主要有数字滤波、软件冗余、程序运行监视及故障自动恢复技术等 5、故障自动检测及诊断 6、软件可靠性设计：为了提高软件的可靠性，应尽量将软件规范化、标准化、模块化 7、失效保险技术 8、热设计 9、EMC设计：电磁兼容（EMC）包括电磁干扰（EMI）和电磁敏感度（EMS）两个方面三、可靠性设计准则

系统可靠性分配

系统可靠性分配一、概述系统可靠性分配是系统可靠性设计的主要内容之一。它是根据一定的原则和方法，将系统可靠性指标自上而下逐级分配到下属各级产品的过程，也是人力、物力、财力合理试用的过程。可靠性指标分配的目的在于将可靠性指标层层落实，使各级设计者明确自己的目标以便采取响应的措施，将可靠性设计进去。对可靠性指标进行合理分配必须吃透两头：一头是对全局深刻了解，另一头是充分了解各个局部的特点。了解全局主要包括：用户对可靠性的目前要求及潜在要求，与可靠性相关的各种约束条件，例如性能要求、尺寸、重量、进度、成本、维修要求等。了解局部主要包括：下属产品技术难度，所含新技术比例；目前能达到的可靠性水平；提高可靠性的必要性及可能性；局部在全局的地位，是否是薄弱环节等。可靠性分配与可靠性预计之间可以起到相辅相成的作用。建立在可靠性预计基础上的分配将会使这种分配更加合理。因此，在可靠性分配前，硬首先做好可靠性预计工作。可靠性分配应尽早进行才有意义，一般适用于方案论证阶段及设计阶段早期。需要说明的是，在进行可靠性指标分配时，由于许多情况还不明朗，可供使用的信息有限，很难做到一次分配到位。因而需要进行调整或再分配，即是说，可靠性分配是一个渐进、反复的过程。二、可靠性分配的准则要是可靠性分配做到合理，必须一方面满足系统的可靠性指标要求和约束条件要求；另一方面要具有可行性。为此，需遵循以下准则： ⑴危害度愈高，可靠性分配值愈高； ⑵无约束条件时，可靠性的分配值允许较高； ⑶复杂程度高，可靠性的分配值应适当降低； ⑷技术难度大，可靠性的分配值应适当降低； ⑸不成熟产品，可靠性的分配值应适当降低； ⑹恶劣环境条件工作的产品，可靠性的分配值应适当降低； ⑺工作时间长的产品，可靠性的分配值应适当降低。以上准则是从不同的角度，逐一陈述的，即只考虑了但因素。实际分配中，系统所属产品往往是多因素的，在运用以上准则时要注意综合权衡。三、可靠性分配方法的分类按可靠性的模型分，可分为基本可靠性分配和任务可靠性分配。按约束条件分，可分为无约束系统可靠性分配和有约束系统可靠性分配。按分配的次数分，可分为首次分配和二次分配等。

推钢机液压系统的设计与可靠性分析

2016年7月机床与液压Jul.2016第 44 卷第13 期 MACHINE TOOL &HYDRAULICS Vol.44 No. 13 D O I：10.3969/j.issn. 1001-3881. 2016. 13.040 推钢机液压系统的设计与可靠性分析王海芳，戴亚威，汪澄，韦博 (东北大学秦皇岛分校控制工程学院，河北秦皇岛〇66〇〇4) 摘要：在对推钢机传动系统相关资料深人研究的基础上，设计了一套液压传动系统，详细阐述其工作原理，并对其重要元件的参数进行计算。基于液压元件基本失效概率，应用串联系统的可靠度计算方法建立该液压系统的可靠性数学模型，最后利用MATLAB软件进行了仿真分析。结果表明：工作时间越长，推钢机液压系统的可靠性越低，而且其可靠度随着时间先下降较快，后下降较缓，只有限定工作时间，液压系统的可靠性才能得到保障。关键词：推钢机；液压系统；可靠性；串联系统；MATLAB 中图分类号：TH137 文献标志码：A 文章编号：1001-3881 (2016) 13-178-2 Design and Reliability Analysis on Hydraulic System of Rolling Pusher WANG Haifang,D AI Yawei,WANG Cheng,W EI Bo (School of Control Engineering,Northeastern University at Qinhuangdao,Qinhuangdao Hebei 066004, China) Abstract ：The hydraulic system of a pusher drive system was designed based on the analysis of the related materials, and its work principle was introduced, and the parameters of important components in the hydraulic system were calculated. Based on the basic fail-ure probability of the hydraulic element, the reliability mathematical model of the hydraulic system was established by using the relia-bility calculation method of the series system, and the simulation analysis was carried out by using the MATLAB software. The simula-tion results show that increasing working hours can short reliability of pusher hydraulic system, and its reliability decrease rapidly first along with the time, then decrease slowly gradually, the reliability can be guaranteed in the limited working time. Keywords：Rolling pusher；Hydraulic system；Reliability；Series system ；MATLAB 〇前言加热炉推钢机是轧钢生产线上将钢坯推进加热炉内进行加热的专用设备，推力要求大、推头同步性要求高。旧式生产线上往往采用机械式推钢机，其体积大、价格高、故障率高、维修保养复杂。目前，推钢机的种类主要有螺旋式、齿条式、曲柄连杆式等，其性能和要求各不相同[1]。随着轧钢生产的发展，利用液压油缸和液压系统的推力大、体积小、操作方便的优点，新型液压推钢机逐步取代了老式机械推钢机，使推料工序大大简化。 1工作原理推钢机液压系统工作原理参见图1。启动主令控制器，使三位四通阀的电磁铁1DT、3D T得电，二位四通阀5D T得电，这时油栗输出压力油，经二位四通阀、同轴马达分别进人两组4个油缸的无杆腔，4个油缸的有杆腔回油，经由调速阀、二位四通阀排回油箱，这时4个油缸获得同步运动。推出热钢述后 (这时间很短）处于待命阶段，5D T断电，系统处于卸荷状态。再次操纵主令控制器，使三位四通阀的电磁铁2DT、4D T通电，同时二位四通阀的5DT 也通电，这时油栗输出压力油，经二位四通阀、两同轴油马达分别进人两组4个油缸的有杆腔，4个油缸的无杆腔回油，经由调速阀、二位四通阀排回油箱[2]。由于系统采用冗余设计，具有左右对称结构，工作可靠性较高，而且如果钢坯比较小，只要求其中一组两个油缸同步工作，只需使串接于油马达后的两个两位四通阀其中一个工作，就可实现。系统通过设立限位开关1SQ、2SQ、3SQ、4SQ来消除两组四个油缸的位置误差，避免出现误差累积，影响系统同步精度，同时也起限位作用[3]。收稿日期：2015-05-15 基金项目：河北省自然科学基金资助项目（E2012407010; F2014203157);河北省博士后科研项目择优资助(B2014003012);河北省教育厅资助项目（2011136);秦皇岛科技支撑项目（201501B011);东北大学教改课题资助项目（2014-47) 作者简介：王海芳（1976—），男，博士，副教授，研究方向为轧制过程自动化、液压伺服控制及可靠性研究。E-m ail: hfwang0335@ 126. com 〇