运维驻场管理规范
一、驻场服务介绍
为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备2年工作经验的工程师进行驻场服务。驻场服务地点为广电总局监管大楼18层,工作环境由数据中心提供。工作时间为法定工作日5*8小时、重大节日和数据中心规定的重要保障期7*24小时。驻场服务工程师需按规定完成常规巡检服务,并提交巡检报告;在设备(系统)出现故障时,最短时间恢复业务运行,并排除故障,编写故障报告。
1.1驻场服务
浪潮提供1名驻场工程师,在法定工作日内提供8小时现场值守服务,重大节日和重要保障期内提供24小时现场值守服务。
驻场人员主要服务内容包括但不限于如下内容:
1)服务范围内的设备/系统日常运行维护,确保系统的可靠性和可用性;
2)备份软件客户端的维护;
3)随时了解用户对集中存储系统的访问需求,协助进行故障处理和应急处置,并及时
反馈处置情况;
4)迅速、及时和准确的反馈和处理突发事件或紧急设备故障;
5)提供产品巡检日报、周报及月报;
6)完成投标方布置的相关工作。
1.2巡检服务
日巡检:维保服务产品清单,提供巡检服务,对所有设备(系统)提供每个工作日2次常规巡检服务,并填写巡检报告;
周巡检:每周1次深度巡检服务,检查常规巡检报告,填写深度巡检报告;
月巡检:每月1次月度深度巡检服务,执行周巡检的所有内容,制作性能曲线。
具体内容如下:
1.2.1日巡检:硬件设备及链路巡检
产品清单中的产品运行状态,检查各链路连接状态。记录设备清单列表中的设备状态指示灯的状态。
1.2.2日巡检:集中存储系统巡检
检查磁盘阵列状态,包括RAID组的状态、卷的状态。检查存储文件系统的运行状态,包括MDS系统状态、挂在卷状态、SMB服务状态。记录存储系统的总量、增量、剩余量、OST卷的使用率、文件系统实时读写速率,并按照要求及时清理空间。
a.检查磁盘阵列状态
b.RAID组的状态
c.磁盘状态
d.检查存储系统MDS运行状态(在元数据节点上运行top命令)
e.检查存储系统MDS HA状态
(在元数据节点上运行crm_mon命令)
f.检查存储系统SMB服务状态
(在接口节点上执行service smb status 命令)
g.检查存储系统的总量、增量、剩余量、OST卷的使用率(在接口节点上执行lfs df –h命令)
h.检查存储系统CTDB服务状态
(在接口节点上执行service ctdb status命令)
1.2.3日巡检:备份系统巡检
(远程桌面到10.242.110.159,通过Xshell ssh到10.242.110.105,运行NBU备份软件)检查磁带库中磁带的使用情况,磁带卷池的剩余容量。检查备份服务器的运行状态,检查备份文件备份及数据路备份作业是否正常执行,查看备份日志;若备份失败,应急情况下针对失败作业进行手动备份作业,并及时处理故障。记录检查结果和执行结果。
检查当天备份作业是否成功执行
检查剩余可用磁带数目
每月初手动设定新的备份策略,划分对应的资源池,保证备份作业的连续性。
根据带库容量,运维驻场人员要根据客户需求,完成磁带的入库、出库、过期等操作。
1.2.4周巡检:工作要求
为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备5年工作经验的工程师与驻场工程师进行每周1次深度巡检服务,执行如下工作
●执行日巡检内容。
●收集集中存储中MDS节点、OST节点、转换节点的日志并分析。
●收集光纤交换机、以太网交换机、磁盘阵列日志并分析。
●收集备份服务器及磁带库日志并分析。
●根据日志分析结构,提供合理化建议方案。
●根据客户需求,执行数据的删除,维护存储剩余空间。
分析结果若出现系统不可用现象,现场调查出现故障原因,记录出现时间,描述问题现象及影响,提出解决方案并现场解决问题。出局故障分析报告及故障,内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。
1.2.5周巡检:收集日志并分析
分析结果若出现系统不可用现象,现场调查出现故障原因,记录出现时间,描述问题现象及影响,提出解决方案并现场解决问题。出局故障分析报告及故障,内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。
日志搜集方法如下:
●登录到mds:10.242.110.1
●使用xshell ssh 10.242.110.1 到root目录下(cd /root);
●在执行ls命令,显示root目录下的所有文件,log后缀名为.sh的文件为收集日志
的脚本。
●执行这个脚本(./文件名)。
●在IO节点和接口节点上全部执行一遍,单独收集;
●执行完上面的脚本后,登录mds2(10.242.110.2),在mds2的home目录下生成所
有节点的message搜集。
●再登录Mds1,搜集/var/log/cfs这里面的内容。
●登录接口节点搜集日志中:日志路径/var/log/messages。
1.2.6周巡检:执行数据的删除
执行原则:系统容量不足百分之90时,及时进行数据的删除,避免影响系统可用性。
执行流程:由巡检人员发起,存储负责人责任确认,业务部负责人确认删除内容,巡检人员执行删除操作,执行完毕之后,再顺次找业务部负责人、存储负责人确认。
执行命令:rm –rf *****
严格填写数据删除单据,按单据指示操作。
1.2.7月巡检:工作要求
为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备5年工作经验的工程师与驻场工程师进行每月1次深度巡检服务,执行如下工作:
●执行日巡检内容。
●执行月巡检内容。
●分析日巡检报告及周巡检报告,提出分析结果
●针对故障问题,出现2次及以上问题,需针对问题彻底解决,杜绝在下一巡检周期再
次出现类似问题。
●提交日巡检报告、周巡检报告、月巡检报告,向数据中心汇报月度巡检情况。
●提交统一存储系统容量曲线、磁带库容量曲线报告等。
●检查存储系统网络IP分配情况
1.2.8月巡检:绘制存储系统、带库每日增量图
文件系统容量增长曲线
2.2磁带库容量增长曲线图
1.2.9月巡检:检查存储系统网络分配状况
按照以下表格分类及对应关系,检查存储系统网络分配状况是否正确。节点网络IP
存储单元IP
设置存储阵列IP地址
光纤交换机网络
万兆交换机网络
千兆交换机
带库网络
浪潮磁带库IP的设置没有按照顺序进行设置,单独指定了一个IP:
备份服务器
备份介质服务器(Media Server)IP设置为:
二、故障响应服务承诺及完成承诺指标采取的措施
2.1总体方案
针对驻场服务和巡检服务,响应工程师进行双重考核,签到包含现场签到及我方公司签到两套签到体系,保障工程师按时上下班。驻场工程师和巡检工程师每月向客户和项目经理提交当月巡检报告,用于考核相关工程师的工作。
本方案按故障等级提供不同的故障响应服务,力求在最短的时间内恢复业务运行,并排除故障,每季度提交故障排除报告,报告内容包括:故障排除过程描述及故障分析、服务清单等。我方针对故障处理向数据中心提出如下承诺:
相应措施:项目经理深入到工作的每个环节,参与协调并督促相关部门完成故障处理。针对处理结果,项目经理会按季度将完成情况及表现反馈到各部门主管,加入到我方公司的KPI考核。
2.2详细方案规划
存储系统的关键部件采取热备份的形式,单个设备出现故障不会马上影响到系统正常运行,但必须及时发现并加以解决,以免造成系统可靠性的降低.一旦发现故障发生,首先要判别故障类型和故障位置,然后进行处理。
2.2.1单电源故障
故障现象:电源指示灯变红。
影响范围:但电源故障在短时间内不影响系统的正常运行,但长时间可能导致设备供电不稳定,系统可靠性下降。
应急预案:及时联系设备提供商,更换电源模块。
2.2.2温度报警
故障现象:左前面板指示灯亮。
影响范围:温度过高可能造成系统的运行不稳定甚至宕机,影响整个存储系统的使用。
应急预案:及时采取降温手段,检查风扇的运行状况,联系设备提供商判别故障位置,更换风扇或其他故障部件。
2.2.3磁盘故障
故障现象:异常情况下磁盘指示灯显示红色或黄色。如果出现刺耳的报警声说明存储单元有问题,需要登录管理节点查看。可以远程登录10.242.110.159服务器,用
户名:administrator,密码:1!。该服务器上有存储单元管理软件。登录存
储单元管理软件,如果有问题,界面会有红色报警提示。
影响范围:单块磁盘故障不影响系统的运行和使用。
应急预案:及时联系设备提供商技术人员进行磁盘重建。
2.2.4处理器故障
故障现象:指示灯会显示为红色。
影响范围:单处理器故障不影响系统的运行和使用。
应急预案:及时联系设备提供商技术人员进行更换。
2.2.5Windows客户端不能访问
故障现象: windows客户端无法访问存储系统。
影响范围:所有windows客户端无法正常工作。
应急预案:1)网络通信是否正常:使用ping网络其他IP地址是否通信正常来确认,确认windows本地IP地址可用。
2)权限是否正常:vim /etc/samba/smb.conf查看对各共享权限的定义,修改后保存退出,重启smb服务。
3)SMB服务是否正常:以root身份登入协议转换节点,通过service smb
status查看samba服务状态;若没有启动,分别使用service smb start、service
winbind start启动服务。
4)ctdb是否正常:ctdb status、ctdbip检测ctdb状态及各节点分配到的ip;
若ctdb不正常,vim查看各samba服务器上etc/ctdb/sysconfig、
/etc/ctdb/nodes、/etc/ctdb/public_addresses三文件内容,确保其一致;查看
/etc/ctdb/sysconfig中规定的共享目录下的锁文件是否存在;修改后依次重启ctdb、
smb服务。
三、重大节日和重要保障期保障服务
●我方在重大节日和重要保障期内提供24小时驻场服务。
●在重大节日及重要保障期前一周做一次深度巡检服务,保障系统无故障运行。
●在驻场服务期间,每隔6小时做一次常规巡检服务。
●遇到报警或故障,驻场工程师若无法保障短时间解决问题,直接将报警或故障提升
为I级紧急故障,并启动故障响应服务。
四、考勤制度
4.1目的
为了规范运维考勤管理,严肃工作纪律,并使驻场人员的奖惩核算做到有法可依,结合我司实际情况,特制定本规定。
4.2适用范围
本制度适用于所有监管中心运维驻场人员。
4.3管理规定
4.3.1工作制度
工作时间: 周一至周五
8:30---17:30
或9:00—-18:00
4.3.2打卡制度
运维驻场人员实行上、下班指纹录入打卡制度,所有人员都必须自觉遵守工作时间。
●打卡次数:一日两次,即早上上班打卡一次,下午下班打卡一次。
●打卡时间:打卡时间为上班到岗时间和下班离岗时间;
●因公外出不能打卡:
?因公外出不能打卡应填写申请表,注明外出日期、事由、外勤起止时间。
?因公外出需事先申请,如因特殊情况不能事先申请,应在事毕到岗当日完成申请、审批手续,否则按旷工处理。
4.3.3加班管理
●根据合同要求,重保期间实行24小时值班驻场,定义为加班时间。