文档库 最新最全的文档下载
当前位置:文档库 › 基于VCS集群技术的系统故障分析

基于VCS集群技术的系统故障分析

基于VCS集群技术的系统故障分析

作者:金素文华连生唐怀瓯江双五

来源:《电子世界》2012年第20期

【摘要】本文详细分析了基于VCS集群技术的省级气象通信系统的一次故障实例,描述了本次系统故障中的硬件、软件问题,对重点集群故障问题分别从VCS集群体系架构、集群系统的启动过程、集群故障检查、故障解决方案等方面进行了循序渐进地阐述。省级气象通信系统是部署在各省气象局的气象数据通信传输业务系统,它采用赛门铁克VCS(VERITAS Cluster Server)集群技术完成了气象数据传输、数据处理和系统监视等几大功能,并实现了气象通信系统的高可用性、易扩展性,提升了数据的处理能力与传输能力。文章简单介绍了集群CFS、CVM、HAD、IO Fencing、GAB、LLT等体系架构,根据集群架构、集群系统的启动顺序逐步检查集群心跳状态,端口状态;详细分析了集群故障原因,判断集群GAB中的v,f端口未能正常启动,即Cvm,cfs未能启动;由此提出了该系统故障的解决步骤,首先停止整个集群,再逐步启动集群,分别查看集群端口的启动状态,同时查看磁盘链路的状态,监控导致集群故障的源头——HP阵列主控制器的HBA卡故障,最终通过更换HBA卡,问题得以解决。

【关键词】集群;GAB;故障

1.前言

目前,省级气象通信系统是继气象9210工程以后国内气象通信系统的重要升级,它是中国气象局气象信息中心在新的形势下开发完成的能够适应现有气象资料传输、处理和监视需求的新一代气象信息系统。省级气象通信系统部署在各省气象局的气象数据通信传输业务系统,它采用赛门铁克VCS(VERITAS Cluster Server)集群技术,搭建由6台PC服务器通过两个光纤交换机与两台磁盘阵列存储系统连接构成高可靠负载均衡集群系统(如图1所示),实现省级气象数据传输、通信数据处理和数据通信业务监控等几大功能。

省级气象通信系统环境由六台服务器组成,阵列为HP MSA2000和EMC CX240,OS平台为SUSE 10 SP2,SFCFS版本为SFCFS5.0MP3,所有服务器通过集群文件系统共享阵列上的存储空间,共有三个文件系统,6个数据卷,其分布如图2所示。

文件系统:/behf,六个节点可以访问,大小为1TB,用于存放FTP和CMACast接收到的数据,需要behf和behf_bak两个数据卷

文件系统:/share,四个节点可以访问,大小为1.3TB,用于存放经过整理后的对外服务数据,需要share和share_bak两个数据卷

文件系统:/mosdb,四个节点可以访问,大小为400GB,用于存放数据库的数据,需要mosdb和mosdb_bak两个数据卷

6台服务器组成一个集群系统,通过集群文件系统使得6台服务器能够同时访问一个文件系统,实现业务数据的快速交换。

4台DL380G5组成一个逻辑集群,4台服务器全部配置运行LVS、FTP和www服务,其中两台还需要添加MySQL和Tomcat服务。向外提供统一的FTP、www、MySQL和Tomcat 服务。

2台X3650组成另一个逻辑集群,实现DVB数据接收应用的高可用管理。

2.故障实例分析

2.1 故障现象描述

省级气象通信系统的web监控网页不能正常登录。查看系统硬件设备发现,HP MSA200磁盘阵列的第一块硬盘红灯告警,阵列右边侧最上面两个告警提示灯是为红色,系统背面板电源模块红灯告警。查看文件系统发现/behf系统卷未发现,系统运行不正常。

试图执行备份脚本启动备份系统,切换至EMC磁盘阵列失败,备份系统不能正常接管。检查系统发现/dev/vx/dsk/目录下没有任何目录卷信息。采用vxdisk path命令查看磁盘链路状态,发现所有链路状态都是disabled,并且HP磁盘阵列的每个盘只有两条链路。磁盘阵列上两块电源模块有告警灯。

2.2 故障原因分析

2.2.1 一般故障分析

根据硬件设备HP MSA200磁盘阵列的第一块硬盘红灯告警,可判断其中一块磁盘故障。两块电源模块有告警灯,判断阵列电源模块故障,两处硬件问题需及时联系HP公司更换。注意到两块电源模块都告警但系统仍然处于待电状态判断该电源模块的硬件应该是正常工作状态,告警提示应该是电源模块的软件告警。对于HP的每个盘只有两条链路判断可能阵列的控制器有一块故障。磁盘链路disabled状态和文件系统运行不正常的问题,初步认为是集群故障。下面对这个主要问题作出详细的分析解决。

2.2.2 集群故障分析

1)VCS集群体系架构:

Service group/Agent管理应用的启动停止监控。

相关文档