文档库 最新最全的文档下载
当前位置:文档库 › 运维考勤规范V

运维考勤规范V

运维驻场管理规范

一、驻场服务介绍

为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备2年工作经验的工程师进行驻场服务。驻场服务地点为广电总局监管大楼18层,工作环境由数据中心提供。工作时间为法定工作日5*8小时、重大节日和数据中心规定的重要保障期7*24小时。驻场服务工程师需按规定完成常规巡检服务,并提交巡检报告;在设备(系统)出现故障时,最短时间恢复业务运行,并排除故障,编写故障报告。

1.1驻场服务

浪潮提供1名驻场工程师,在法定工作日内提供8小时现场值守服务,重大节日和重要保障期内提供24小时现场值守服务。

驻场人员主要服务内容包括但不限于如下内容:

1)服务范围内的设备/系统日常运行维护,确保系统的可靠性和可用性;

2)备份软件客户端的维护;

3)随时了解用户对集中存储系统的访问需求,协助进行故障处理和应急处置,并及时

反馈处置情况;

4)迅速、及时和准确的反馈和处理突发事件或紧急设备故障;

5)提供产品巡检日报、周报及月报;

6)完成投标方布置的相关工作。

1.2巡检服务

日巡检:维保服务产品清单,提供巡检服务,对所有设备(系统)提供每个工作日2次常规巡检服务,并填写巡检报告;

周巡检:每周1次深度巡检服务,检查常规巡检报告,填写深度巡检报告;

月巡检:每月1次月度深度巡检服务,执行周巡检的所有内容,制作性能曲线。

具体内容如下:

1.2.1日巡检:硬件设备及链路巡检

产品清单中的产品运行状态,检查各链路连接状态。记录设备清单列表中的设备状态指示灯的状态。

1.2.2日巡检:集中存储系统巡检

检查磁盘阵列状态,包括RAID组的状态、卷的状态。检查存储文件系统的运行状态,包括MDS系统状态、挂在卷状态、SMB服务状态。记录存储系统的总量、增量、剩余量、OST卷的使用率、文件系统实时读写速率,并按照要求及时清理空间。

a.检查磁盘阵列状态

b.RAID组的状态

c.磁盘状态

d.检查存储系统MDS运行状态(在元数据节点上运行top命令)

e.检查存储系统MDS HA状态

(在元数据节点上运行crm_mon命令)

f.检查存储系统SMB服务状态

(在接口节点上执行service smb status 命令)

g.检查存储系统的总量、增量、剩余量、OST卷的使用率(在接口节点上执行lfs df –h命令)

h.检查存储系统CTDB服务状态

(在接口节点上执行service ctdb status命令)

1.2.3日巡检:备份系统巡检

(远程桌面到10.242.110.159,通过Xshell ssh到10.242.110.105,运行NBU备份软件)检查磁带库中磁带的使用情况,磁带卷池的剩余容量。检查备份服务器的运行状态,检查备份文件备份及数据路备份作业是否正常执行,查看备份日志;若备份失败,应急情况下针对失败作业进行手动备份作业,并及时处理故障。记录检查结果和执行结果。

检查当天备份作业是否成功执行

检查剩余可用磁带数目

每月初手动设定新的备份策略,划分对应的资源池,保证备份作业的连续性。

根据带库容量,运维驻场人员要根据客户需求,完成磁带的入库、出库、过期等操作。

1.2.4周巡检:工作要求

为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备5年工作经验的工程师与驻场工程师进行每周1次深度巡检服务,执行如下工作

●执行日巡检内容。

●收集集中存储中MDS节点、OST节点、转换节点的日志并分析。

●收集光纤交换机、以太网交换机、磁盘阵列日志并分析。

●收集备份服务器及磁带库日志并分析。

●根据日志分析结构,提供合理化建议方案。

●根据客户需求,执行数据的删除,维护存储剩余空间。

分析结果若出现系统不可用现象,现场调查出现故障原因,记录出现时间,描述问题现象及影响,提出解决方案并现场解决问题。出局故障分析报告及故障,内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。

1.2.5周巡检:收集日志并分析

分析结果若出现系统不可用现象,现场调查出现故障原因,记录出现时间,描述问题现象及影响,提出解决方案并现场解决问题。出局故障分析报告及故障,内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。

日志搜集方法如下:

●登录到mds:10.242.110.1

●使用xshell ssh 10.242.110.1 到root目录下(cd /root);

●在执行ls命令,显示root目录下的所有文件,log后缀名为.sh的文件为收集日志

的脚本。

●执行这个脚本(./文件名)。

●在IO节点和接口节点上全部执行一遍,单独收集;

●执行完上面的脚本后,登录mds2(10.242.110.2),在mds2的home目录下生成所

有节点的message搜集。

●再登录Mds1,搜集/var/log/cfs这里面的内容。

●登录接口节点搜集日志中:日志路径/var/log/messages。

1.2.6周巡检:执行数据的删除

执行原则:系统容量不足百分之90时,及时进行数据的删除,避免影响系统可用性。

执行流程:由巡检人员发起,存储负责人责任确认,业务部负责人确认删除内容,巡检人员执行删除操作,执行完毕之后,再顺次找业务部负责人、存储负责人确认。

执行命令:rm –rf *****

严格填写数据删除单据,按单据指示操作。

1.2.7月巡检:工作要求

为保证集中统一存储系统的软硬件产品、备份系统的正常运行,我方提供1名具备5年工作经验的工程师与驻场工程师进行每月1次深度巡检服务,执行如下工作:

●执行日巡检内容。

●执行月巡检内容。

●分析日巡检报告及周巡检报告,提出分析结果

●针对故障问题,出现2次及以上问题,需针对问题彻底解决,杜绝在下一巡检周期再

次出现类似问题。

●提交日巡检报告、周巡检报告、月巡检报告,向数据中心汇报月度巡检情况。

●提交统一存储系统容量曲线、磁带库容量曲线报告等。

●检查存储系统网络IP分配情况

1.2.8月巡检:绘制存储系统、带库每日增量图

文件系统容量增长曲线

2.2磁带库容量增长曲线图

1.2.9月巡检:检查存储系统网络分配状况

按照以下表格分类及对应关系,检查存储系统网络分配状况是否正确。节点网络IP

存储单元IP

设置存储阵列IP地址

光纤交换机网络

万兆交换机网络

千兆交换机

带库网络

浪潮磁带库IP的设置没有按照顺序进行设置,单独指定了一个IP:

备份服务器

备份介质服务器(Media Server)IP设置为:

二、故障响应服务承诺及完成承诺指标采取的措施

2.1总体方案

针对驻场服务和巡检服务,响应工程师进行双重考核,签到包含现场签到及我方公司签到两套签到体系,保障工程师按时上下班。驻场工程师和巡检工程师每月向客户和项目经理提交当月巡检报告,用于考核相关工程师的工作。

本方案按故障等级提供不同的故障响应服务,力求在最短的时间内恢复业务运行,并排除故障,每季度提交故障排除报告,报告内容包括:故障排除过程描述及故障分析、服务清单等。我方针对故障处理向数据中心提出如下承诺:

相应措施:项目经理深入到工作的每个环节,参与协调并督促相关部门完成故障处理。针对处理结果,项目经理会按季度将完成情况及表现反馈到各部门主管,加入到我方公司的KPI考核。

2.2详细方案规划

存储系统的关键部件采取热备份的形式,单个设备出现故障不会马上影响到系统正常运行,但必须及时发现并加以解决,以免造成系统可靠性的降低.一旦发现故障发生,首先要判别故障类型和故障位置,然后进行处理。

2.2.1单电源故障

故障现象:电源指示灯变红。

影响范围:但电源故障在短时间内不影响系统的正常运行,但长时间可能导致设备供电不稳定,系统可靠性下降。

应急预案:及时联系设备提供商,更换电源模块。

2.2.2温度报警

故障现象:左前面板指示灯亮。

影响范围:温度过高可能造成系统的运行不稳定甚至宕机,影响整个存储系统的使用。

应急预案:及时采取降温手段,检查风扇的运行状况,联系设备提供商判别故障位置,更换风扇或其他故障部件。

2.2.3磁盘故障

故障现象:异常情况下磁盘指示灯显示红色或黄色。如果出现刺耳的报警声说明存储单元有问题,需要登录管理节点查看。可以远程登录10.242.110.159服务器,用

户名:administrator,密码:1!。该服务器上有存储单元管理软件。登录存

储单元管理软件,如果有问题,界面会有红色报警提示。

影响范围:单块磁盘故障不影响系统的运行和使用。

应急预案:及时联系设备提供商技术人员进行磁盘重建。

2.2.4处理器故障

故障现象:指示灯会显示为红色。

影响范围:单处理器故障不影响系统的运行和使用。

应急预案:及时联系设备提供商技术人员进行更换。

2.2.5Windows客户端不能访问

故障现象: windows客户端无法访问存储系统。

影响范围:所有windows客户端无法正常工作。

应急预案:1)网络通信是否正常:使用ping网络其他IP地址是否通信正常来确认,确认windows本地IP地址可用。

2)权限是否正常:vim /etc/samba/smb.conf查看对各共享权限的定义,修改后保存退出,重启smb服务。

3)SMB服务是否正常:以root身份登入协议转换节点,通过service smb

status查看samba服务状态;若没有启动,分别使用service smb start、service

winbind start启动服务。

4)ctdb是否正常:ctdb status、ctdbip检测ctdb状态及各节点分配到的ip;

若ctdb不正常,vim查看各samba服务器上etc/ctdb/sysconfig、

/etc/ctdb/nodes、/etc/ctdb/public_addresses三文件内容,确保其一致;查看

/etc/ctdb/sysconfig中规定的共享目录下的锁文件是否存在;修改后依次重启ctdb、

smb服务。

三、重大节日和重要保障期保障服务

●我方在重大节日和重要保障期内提供24小时驻场服务。

●在重大节日及重要保障期前一周做一次深度巡检服务,保障系统无故障运行。

●在驻场服务期间,每隔6小时做一次常规巡检服务。

●遇到报警或故障,驻场工程师若无法保障短时间解决问题,直接将报警或故障提升

为I级紧急故障,并启动故障响应服务。

四、考勤制度

4.1目的

为了规范运维考勤管理,严肃工作纪律,并使驻场人员的奖惩核算做到有法可依,结合我司实际情况,特制定本规定。

4.2适用范围

本制度适用于所有监管中心运维驻场人员。

4.3管理规定

4.3.1工作制度

工作时间: 周一至周五

8:30---17:30

或9:00—-18:00

4.3.2打卡制度

运维驻场人员实行上、下班指纹录入打卡制度,所有人员都必须自觉遵守工作时间。

●打卡次数:一日两次,即早上上班打卡一次,下午下班打卡一次。

●打卡时间:打卡时间为上班到岗时间和下班离岗时间;

●因公外出不能打卡:

?因公外出不能打卡应填写申请表,注明外出日期、事由、外勤起止时间。

?因公外出需事先申请,如因特殊情况不能事先申请,应在事毕到岗当日完成申请、审批手续,否则按旷工处理。

4.3.3加班管理

●根据合同要求,重保期间实行24小时值班驻场,定义为加班时间。

相关文档