文档库 最新最全的文档下载
当前位置:文档库 › HA

HA

HA
HA

HA双机设计

高可用性(HA)集群通过一组计算机系统提供透明的冗余处理能力,从而实现不间断应用的目标。

高可用性(High Availability,简称HA)集群是共同为客户机提供网络资源的一组计算机系统。其中每一台提供服务的计算机称为节点(Node)。当一个节点不可用或者不能处理客户的请求时,该请求会及时转到另外的可用节点来处理,而这些对于客户端是透明的,客户不必关心要使用资源的具体位臵,集群系统会自动完成。

基于共享磁盘的HA集群系统通过共享盘柜实现集群中各节点的数据共享,包含主服务器、从服务器、存储阵列三种主要设备,以及设备间的心跳连接线。

在本HA集群方案中,将节点1配臵成“主服务器”,节点2配臵成“从服务器”,主从服务器有各自的IP地址,通过HA集群软件控制,主从服务器有一个共同的虚拟IP地址,客户端仅需使用这个虚拟IP,而不需要分别使用主从IP地址。这种措施是HA集群的首要技术保证,该技术确保集群服务的切换不会影响客户IP层的访问。

心跳线是HA集群系统中主从节点通信的物理通道,通过HA集群软件控制确保服务数据和状态同步。不同HA集群软件对于心跳线的处理有各自的技巧,有的采用专用板卡和专用的连接线,有的采用串并口或USB口处理,有的采用TCP/IP网络处理,其可靠性和成本都有所不同。近几年,基于TCP/IP技术的

心跳线因其成本低、性能优异而被广泛采用。具体实现中主从服务器上至少各需配臵两块网卡。

HA集群软件的本质是当主服务器出现故障时,从服务器及时接管主服务器的资源,这些资源包括处理器、内存进程和磁盘数据。接管进程意味着接管该服务进程的内存数据列表,采用共享磁盘技术方式的集群无需做存储数据接管,采用磁盘镜像技术方式的集群则使用本机的存储数据。

主从服务器的资源(处理器、内存、磁盘)配臵具有科学性和技巧性。系统物理内存过低,会使系统频繁使用效率低下的“虚拟内存”,导致系统反应迟钝,也使得客户端响应缓慢,甚至出现“系统服务超时(Timeout)”形态的系统报错,没有达到高可靠的目的。所以,HA集群系统要求从服务器(故障切换节点)的内存容量应不小于主服务器的内存容量,其内存配臵应该至少为应用系统对内存的基本需求。

从节点服务器需要的CPU数量应以不间断客户服务为目的。其CPU处理能力应不小于主服务器的CPU处理能力,若板卡、CPU等型号相同,从服务器的CPU个数应不少于主服务器的CPU个数。

采取磁盘镜像的从服务器存储空间应不小于主服务器存储空间。

1.1设计原则

系统的设计应遵从高可用性、可扩充性、先进性、开放性、经济性及投资保护、高可管理性、高质量服务与支持等基本原则。

具体来说,主机系统要满足以下原则:

1、保障性能是本方案主机系统选择的首要任务。

2、系统的高度灵活性:充分考虑到用户数据的不断增长及不可预测性,必须对系统配臵具有高度扩充能力的服务器系统:应采用支持多CPU的SMP 对称多处理结构、大容量内存、大I/O吞吐能力的多I/O通道的主机系统。除此之外,在内存、CPU速度、I/O能力三方面都应具有优异扩充能力。

3、系统的高度可用性:在考虑提高系统性能,保证系统的灵活性时,还必须保证系统的可靠和数据的安全。为此必须采用多种先进可靠的软硬件技术,在产品本身的质量之外,提供进一步的安全保障:用双机技术保证系统的连续不间断运行。无论是节点故障,还是事先有计划的软硬件升级,都不会造成关键业务的中断。

应对操作系统、系统引导区、系统软件等利用镜像(Mirror)技术来进一步保证系统的安全可靠。系统硬盘应支持热插拔。

对用户数据,必须用高可靠的海量存储设备,采用高性能及高可靠的AutoRAID技术保证其安全可靠。

应考虑采用先进的备份策略来保证数据的备份和恢复,并能实现实时和脱机备份数据的恢复或查询。

4、对应用系统的完全计算能力支持:充分考虑到整个应用系统对中心数据库服务器的性能要求,为系统的可靠运转规划合理的负载能力和冗余度,保证用户投资。

另外,从对主机系统的普遍性要求上来讲,应遵循以下原则:

高扩展性:当业务量增加或增加新的应用模块时,主机能以增加处理器、内存、存储设备、节点等方式提供更高的性能来满足新的要求。

高可靠性:主机系统需7*24小时连续运行,同时系统应具有良好的容错能力。系统应采用冗余配臵,保证系统无单一故障点。

易于管理与使用:保证系统的易使用性,并使系统在较优的状态下运行,以提高系统的运行和处理效率。

恢复周期短:当对系统进行扩容或系统发生不可预见的故障时,系统应能在最短时间内恢复到正常运行状态。

1.2系统架构设计

系统作为本单位对外窗口形象,同时也是对外信息发布、收集以及反馈的重要窗口,系统一旦停机造成的损失及影响也越来越大。

本次涉及到信息化平台4个系统:财务系统,客控,酒管,点菜等应用系统;

整个解决方案通过HA高可用集群方案,确保业务的高可用性和安全性,方案拓扑图如下:

1)部署2台高性能两路服务器组成服务器集群

2)部署2台应用服务器;

双机容错提供两种基本架构:

模式一双机互备援(Dual Active)(支持多台主机的集群系统)

模式二双机热备份(Hot Standby)(支持多台主机的集群系统)

双机互备援(Dual Active)基本简介

所谓双机互备援就是两台服务器均为工作机,在正常情况下,两台工作机均为信息系统提供支持,并互相监视对方的运行情况。当一台主机出现异常时,不能支持信息系统正常运营,另一主机则主动接管(Take Over)异常机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行,而达到不停机的功能(Non-Stop),但正常运行主机的负载(Loading)会有所增加。此时必须尽快将异常机修复以缩短正常机负载持续时间,当异常机经过维修恢复正常后,它会自动抓回先前的工作,恢复以前正常时的工作状态。

双机互备援(Dual Active)切换时机(Take Over) -—系统软件或应用软件造成服

务器当机-—服务器没当机,但系统软件或应用软件工作不正常-—连接卡(SAS HBA、IP、FC HBA)损坏,造成服务器与磁盘阵列无法存取资料-—服务器内硬件损坏,造成服务器当机-—服务器不正常关机-—网络故障,网卡故障或网络不通等2、双机热备份(Hot Standby)基本简介所谓双机热备份就是一台主机为工作机(Primary Server),另一台主机为备份机(Standby Server),在系统正常情况下,工作机为信息系统提供支持,备份机监视工作机的运行情况(工作机也同时监视备份机是否正常,有时备份机因某种原因出现异常,工作机可尽早通知系统管理工作人员解决,确保下一次切换的可靠性)。当工作机出现异常,不能支持信息系统运营时,备份机主动接管(Take Over)工作机的工作,继续支持信息的运营,从而保证信息系统能够不间断地运行(Non-Stop)。当工作机经过维修恢复正常后,它会将其先前的工作自动抓回,恢复以前正常时的工作状态。

双机热备份(Hot Standby)切换时机(Take Over) -—系统软件或应用软件造成服务器当机-—服务器没当机,但系统软件或应用软件工作不正常-—服务器内连接卡损坏,造成服务器与磁盘阵列无法存取资料-—服务器内硬件损坏,造成服务器当机-—服务器不正常关机-—网络故障,网卡故障或网络不通等基本功能:

—服务器停电时,能实现自动切换。

—服务器的硬盘,CPU,RAM 发生故障时,能发生自动切换。

—网络连接故障时,能发生自动切换。

—操作系统,数据库或应用程序发生故障时,能实现自动切换。

—提供手动切换功能,使系统管理员可以在主机负载过大时或其它适当的时候,实现手动切换。

—安全完成多次切换。

—监测备份机的基本设备和系统状态,保证备份机的可靠性。

HA运行原理

双机系统的两台服务器(主机)都与存储系统直接连接,用户的操作系统、应用软件和HA软件安装在两台主机上,数据库等共享数据存放在存储系统上,两台主机之间通过私用网络连接。配臵好的系统主机开始工作后,HA软件开始监控系统,通过私用网络传递的心跳信息,每台主机上的、HA软件都可监控另一台主机的状态。当工作主机发生故障时,心跳信息就会产生变化,这种变化可以通过私用网络被HA软件捕捉。当捕捉到这种变化后HA就会控制系统进行主机切换,即备份机启动和工作主机一样的应用程序接管工作主机的工作(包括提供网络服务、存储系统的存取等服务)并进行报警,提示管理人员对故障主机进行维修。当维修完毕后,可以根据HA的设定自动或手动再切换回来,也可以不切换,此时维修好的主机就作为备份机,双机系统继续工作。

HA的实现原理

高可用容错功能实现的关键是在系统发生错误进行切换时,对客户端来说主机是透明的,即主机的切换在工作端看来没有变化,所有基于主机的应用都正常。HA采用了虚拟IP地址映射技术来实现此功能。客户端通过虚拟地址和工作主机通讯,无论系统是否发生切换虚拟地址始终指向工作主机,在客户端看来主机是透明的。在进行网络服务时,在双机系统后台HA提供一个逻辑的虚拟地址,任何一个客户端需要访问系统时只需要使用这个虚拟地址。当双机系统中的一台服

务器出现故障时,HA会将另外一台服务器网卡的IP地址更换为这个虚拟地址,继续提供网络服务。切换完成后,在客户端看来系统并没有出现故障,网络服务也没有间断。除IP地址外,HA还可以提供虚拟的计算机别名供客户端访问。对于数据库服务,当有一台服务器出现故障时,另外一台服务器就会自动接管数据库引擎,同时启动数据库和应用程序,使用户数据库可以正常操作。

服务器设计

CPU性能

原来的处理器架构是用前端总线(Front Side Bus,简称FSB)是将CPU中央处理器连接到北桥芯片,FSB是CPU和外界交换数据的主要通道。前端总线的数据传输能力对计算机整体性能影响很大,如果没有足够带宽的前端总线,即使配备再强劲的CPU,用户也不会感觉到计算机整体速度的明显提升。

新一代的因特尔处理器采用QPI(Quick Path Interconnect)——“快速通道互联”,取代前端总线(FSB)的一种点到点连接技术,20位宽的QPI连接其带宽可达惊人的每秒25.6GB,远非FSB可比。QPI总线可实现多核处理器内部的直接互联,而无须像以前那样还要再经过FSB进行连接。而且在多处理器作业下,每颗处理器可以互相传送资料,并不需要经过芯片组,从而大幅提升整体系统性能。

服务器支持新一代Romley平台的Intel Xeon E5-2600系列处理器。最大八核处理能力,8.0GT/S传输速率,可以显著提高性能,通过更高的处理性能提高生产效率。优化多线程应用程序,以实现更快的并发执行。凭借运用优化20MB三级缓存的多达8 个内核,实现卓越的处理器性能。更大容量缓存使得可进行更多的事务处理。八核心处理器最大135W功耗,凭借更佳的性能功耗比来降低成本。

下面两个表为的E5-2600系列处理器与Intel E5600系列处理器性能对比情况,可以看出E5-2600系列处理器的整数运算性能和浮点数运算性能全面优于E5600系列处理器。

表1:E5-2600系列处理器与5600系列处理器的整数运算性能对比

表2:E5-2600系列处理器与5600系列处理器的浮点数运算性能对比

高性能DDR3内存

凭借24个插槽支持2 GB、4 GB、8 GB 、16 GB和32GB 高性能DDR3 RDIMM,支持内存可扩展性,以便使性能不工作负载要求匹配。

每处理器四个内存通道,内存所能达到的最高工作频率由1333MHz提升至1600MHz,内存的存取速度更快,提升应用性能。

DDR3相比于DDR2的优势:

(1)功耗和发热量较小:吸取了DDR2的教训,在控制成本的基础上减小了能耗和发热量,使得DDR3更易于被用户和厂家接受。

(2)工作频率更高:由于能耗降低,DDR3可实现更高的工作频率,在一定程度弥补了延迟时间较长的缺点,同时还可作为显卡的卖点之一,这在搭配DDR3显存的显卡上已有所表现。

(3)降低显卡整体成本:DDR2显存颗粒规格多为4M X 32bit,搭配中高端显卡常用的128MB显存便需8颗。而DDR3显存规格多为8M X 32bit,单颗颗粒容量较大,4颗即可构成128MB显存。如此一来,显卡PCB面积可减小,成本得以有效控制,此外,颗粒数减少后,显存功耗也能进一步降低。

(4)通用性好:相对于DDR变更到DDR2,DDR3对DDR2的兼容性更好。由于针脚、封装等关键特性不变,搭配DDR2的显示核心和公版设计的显卡稍加修改便能采用DDR3显存,极大的降低了成本。

高性能RAID控制器

外插RAID卡,可升级组件支持RAID5,可选扩展具备缓存的高性能SAS RAID控制器,支持RAID0/1/5/6/10/50/60等多种RIAD级别,并可扩展缓存保护电池,保证系统掉电之后数据不丢失。

IO扩展槽—PCI-E3.0技术

服务器的I/0扩展槽支持PCI-E3.0技术,相对于PEI-E2.0性能提升一倍,PCI-E 3.0规范将数据传输率提升到8GHz|8GT/s,并保持了对PCI-E 2.x/1.x的向下兼容,继续支持2.5GHz、5GHz信号机制。基于此,PCI-E 3.0架构单信道(x1)单向带宽即可接近1GB/s,十六信道(x16)双向带宽更是可达32GB/s。PCI-E 3.0同时还特别增加了128b/130b解码机制,可以确保几乎100%的传输效率,相比此前版本的8b/10b机制提升了25%,从而促成了传输带宽的翻番,延续了PCI-E 规范的一贯传统。

6个IO扩展插槽:帮助用户提供多种可扩展性选项,可以实现卓越的性能和生产效率。

网络

双路服务器最大集成四个千兆网络接口:可以支持更高的网络带宽和冗余度,采用节省插槽的高效集成,为系统提供更高的网络吞吐量和冗余度,不仅让客户有更多的选择,并且减少客户投资,满足客户日益增长的网络IO需求。

独立BMC网络管理口:管理一套网络,业务一套网络,管理和业务相分离,可以有效的提升系统整体安全性,且不占用业务网的带宽资源,节省宝贵的用户业务带宽。

支持万兆网络扩展:且不占用PCI插槽,相比其他方案具有更好的布线成本,以及更好的提升IO吞吐带宽。

风扇散热

双路服务器支持6个热插拔冗余风扇,保证在系统风扇出现问题时,可以不停机的做快速的维护,维护起来比较简单,性价比较高,提升了整机的可用性。

风扇采用定向倒风通道技术,针对关键部件CPU、硬盘,电源两两组合集

中冗余散热,保证了系统在高扩展状态下的良好散热。

加强噪音控制,在保证优秀散热性能的前提下,加强噪音控制,更加优化客户机房的环境,提升用户的实际操作体验。

金牌电源

支持热插拔冗余双电源:凭借第2 个热插拔电源减少其他的潜在故障点,从而延长系统与应用程序的正常运行时间,凭借冗余电源提高可用性,凭借热插拔组件提高系统的易维护性。

支持高效能转换金牌电源:高效电源在绝大部分负载下效率都超过93%,50%负载下效率高达94.55%,通过了苛刻的80Plus Platinum认证,电源可以在110-220V 宽幅电压下工作,电源的DC-DC设计可以更好的带来高转换效率。电源在用料方面采用了最高等级用料,并采用固态电容提供更高的效率、稳定性与耐用性,增加产品的使用寿命,节省用户能源投资。

管理功能

维护管理:

可选Dashboard可视化液晶管理模块,提供本地可视化系统监控和故障诊断功能。图形用户界面可以帮劣提供对强大系统管理功能的直观访问,通过采用强大系统管理平台的先进服务器管理功能,帮助延长正常运行时间、降低成本和提高生产效率。

机箱内附详尽的维护指南贴纸,方便用户自行对机器进行维护,人性化的步骤提示,提升用户的运维效率。

在机箱后加上了设备信息标签,方便客户做资产管理。

睿捷管理软件:

睿捷管理套件包含多个实用软件,帮助用户进行快捷、智能的服务器部署、监控、维护工作。提供全方位的管理功能,可以对服务器、网络设备、应用和机房环境进行全面的监管,可以直观的查看网络拓扑图;具有多种监控告警和邮件、短信等多种远程告警方式。

整合管理工具:帮助用户提供一套经过整合的集成式管理工具,降低选择和学习平台管理工具的复杂性,从而实现IT设备的一体化管理和监控。

更优RAS特性,保证了客户应用业务的连续性

双路服务器从CPU平台、内存、风扇等各个易损部件的RAS特性出发,全面提升了系统的可靠性。作为云平台的底层硬件支撑,承载众多的应用系统,相对传统的应用架构虚拟化平台对于硬件设备可靠性的要求更高。双路服务器具备更优的RAS特性,为整个云平台的建设提供强大的可靠性。

内存可靠性技术:内存是服务器中的关键部件,服务器的宕机20%是由内存导致的。传统的内存镜像和内存热备技术在高端服务器平台上难以发挥其根本作用。创新性的采用了三种内存可靠性技术:内存节点镜像、内存Rank热备、内存故障隔离,可以充分保证内存、内存板工作稳定,同时最大限度的减小内存容量损失。

风扇可靠性技术:

风扇是保证服务器良好散热的最主要设备,风扇的损坏将会影响整个服务器系统的性能,甚至导致宕机。服务器针对系统风扇有独到的可靠性设计:常规风扇故障一般不是一蹴而就的,而是初现转速异常,后续逐渐转速波动,最后损坏。服务器的管理系统实时监测系统风扇的转速,当发现某一风扇低于其

他风扇转速2000转时,自动产生日志信息,并通过多种方式报警。

风扇损坏且没有即使更换的情况下,系统会对CPU发出降频指令,同时协调其他CPU资源。服务器最大可做到一般系统风扇损坏的恶劣环境下,依然可以维持工作。

风扇采用前维护,热插拔,从而使得风扇一旦损坏,也可以维持机器的工作状态,直接更换,进一步减小系统的宕机时间。

相关文档