当前位置：文档库 › 运维考勤规范V

运维考勤规范V

运维驻场管理规范

一、驻场服务介绍

为保证集中统一存储系统的软硬件产品、备份系统的正常运行，我方提供1名具备2年工作经验的工程师进行驻场服务。驻场服务地点为广电总局监管大楼18层，工作环境由数据中心提供。工作时间为法定工作日5*8小时、重大节日和数据中心规定的重要保障期7*24小时。驻场服务工程师需按规定完成常规巡检服务，并提交巡检报告；在设备（系统）出现故障时，最短时间恢复业务运行，并排除故障，编写故障报告。

1.1驻场服务

浪潮提供1名驻场工程师，在法定工作日内提供8小时现场值守服务，重大节日和重要保障期内提供24小时现场值守服务。

驻场人员主要服务内容包括但不限于如下内容：

1)服务范围内的设备/系统日常运行维护，确保系统的可靠性和可用性；

2)备份软件客户端的维护；

3)随时了解用户对集中存储系统的访问需求，协助进行故障处理和应急处置，并及时

反馈处置情况；

4)迅速、及时和准确的反馈和处理突发事件或紧急设备故障；

5)提供产品巡检日报、周报及月报；

6)完成投标方布置的相关工作。

1.2巡检服务

日巡检：维保服务产品清单，提供巡检服务，对所有设备（系统）提供每个工作日2次常规巡检服务，并填写巡检报告；

周巡检：每周1次深度巡检服务，检查常规巡检报告，填写深度巡检报告；

月巡检：每月1次月度深度巡检服务，执行周巡检的所有内容，制作性能曲线。

具体内容如下：

1.2.1日巡检：硬件设备及链路巡检

产品清单中的产品运行状态，检查各链路连接状态。记录设备清单列表中的设备状态指示灯的状态。

1.2.2日巡检：集中存储系统巡检

检查磁盘阵列状态，包括RAID组的状态、卷的状态。检查存储文件系统的运行状态，包括MDS系统状态、挂在卷状态、SMB服务状态。记录存储系统的总量、增量、剩余量、OST卷的使用率、文件系统实时读写速率，并按照要求及时清理空间。

a.检查磁盘阵列状态

b.RAID组的状态

c.磁盘状态

d.检查存储系统MDS运行状态（在元数据节点上运行top命令）

e.检查存储系统MDS HA状态

（在元数据节点上运行crm_mon命令）

f.检查存储系统SMB服务状态

（在接口节点上执行service smb status 命令）

g.检查存储系统的总量、增量、剩余量、OST卷的使用率（在接口节点上执行lfs df –h命令）

h.检查存储系统CTDB服务状态

（在接口节点上执行service ctdb status命令）

1.2.3日巡检：备份系统巡检

（远程桌面到10.242.110.159，通过Xshell ssh到10.242.110.105，运行NBU备份软件）检查磁带库中磁带的使用情况，磁带卷池的剩余容量。检查备份服务器的运行状态，检查备份文件备份及数据路备份作业是否正常执行，查看备份日志；若备份失败，应急情况下针对失败作业进行手动备份作业，并及时处理故障。记录检查结果和执行结果。

检查当天备份作业是否成功执行

检查剩余可用磁带数目

每月初手动设定新的备份策略，划分对应的资源池，保证备份作业的连续性。

根据带库容量，运维驻场人员要根据客户需求，完成磁带的入库、出库、过期等操作。

1.2.4周巡检：工作要求

为保证集中统一存储系统的软硬件产品、备份系统的正常运行，我方提供1名具备5年工作经验的工程师与驻场工程师进行每周1次深度巡检服务，执行如下工作

●执行日巡检内容。

●收集集中存储中MDS节点、OST节点、转换节点的日志并分析。

●收集光纤交换机、以太网交换机、磁盘阵列日志并分析。

●收集备份服务器及磁带库日志并分析。

●根据日志分析结构，提供合理化建议方案。

●根据客户需求，执行数据的删除，维护存储剩余空间。

分析结果若出现系统不可用现象，现场调查出现故障原因，记录出现时间，描述问题现象及影响，提出解决方案并现场解决问题。出局故障分析报告及故障，内容包括故障信息描述、故障现象分析、故障造成的影响、故障导致损坏或丢失的文件列表、故障解决过程、问题改进措施等。

1.2.5周巡检：收集日志并分析

日志搜集方法如下：

●登录到mds：10.242.110.1

●使用xshell ssh 10.242.110.1 到root目录下（cd /root）；

●在执行ls命令，显示root目录下的所有文件，log后缀名为.sh的文件为收集日志

的脚本。

●执行这个脚本（./文件名）。

●在IO节点和接口节点上全部执行一遍，单独收集；

●执行完上面的脚本后，登录mds2(10.242.110.2)，在mds2的home目录下生成所

有节点的message搜集。

●再登录Mds1，搜集/var/log/cfs这里面的内容。

●登录接口节点搜集日志中：日志路径/var/log/messages。

1.2.6周巡检：执行数据的删除

执行原则：系统容量不足百分之90时，及时进行数据的删除，避免影响系统可用性。

执行流程：由巡检人员发起，存储负责人责任确认，业务部负责人确认删除内容，巡检人员执行删除操作，执行完毕之后，再顺次找业务部负责人、存储负责人确认。

执行命令：rm –rf *****

严格填写数据删除单据，按单据指示操作。

1.2.7月巡检：工作要求

为保证集中统一存储系统的软硬件产品、备份系统的正常运行，我方提供1名具备5年工作经验的工程师与驻场工程师进行每月1次深度巡检服务，执行如下工作：

●执行日巡检内容。

●执行月巡检内容。

●分析日巡检报告及周巡检报告，提出分析结果

●针对故障问题，出现2次及以上问题，需针对问题彻底解决，杜绝在下一巡检周期再

次出现类似问题。

●提交日巡检报告、周巡检报告、月巡检报告，向数据中心汇报月度巡检情况。

●提交统一存储系统容量曲线、磁带库容量曲线报告等。

●检查存储系统网络IP分配情况

1.2.8月巡检：绘制存储系统、带库每日增量图

文件系统容量增长曲线

2.2磁带库容量增长曲线图

1.2.9月巡检：检查存储系统网络分配状况

按照以下表格分类及对应关系，检查存储系统网络分配状况是否正确。节点网络IP

存储单元IP

设置存储阵列IP地址

光纤交换机网络

万兆交换机网络

千兆交换机

带库网络

浪潮磁带库IP的设置没有按照顺序进行设置，单独指定了一个IP：

备份服务器

备份介质服务器（Media Server）IP设置为：

二、故障响应服务承诺及完成承诺指标采取的措施

2.1总体方案

针对驻场服务和巡检服务，响应工程师进行双重考核，签到包含现场签到及我方公司签到两套签到体系，保障工程师按时上下班。驻场工程师和巡检工程师每月向客户和项目经理提交当月巡检报告，用于考核相关工程师的工作。

本方案按故障等级提供不同的故障响应服务，力求在最短的时间内恢复业务运行，并排除故障，每季度提交故障排除报告，报告内容包括：故障排除过程描述及故障分析、服务清单等。我方针对故障处理向数据中心提出如下承诺：

相应措施：项目经理深入到工作的每个环节，参与协调并督促相关部门完成故障处理。针对处理结果，项目经理会按季度将完成情况及表现反馈到各部门主管，加入到我方公司的KPI考核。

2.2详细方案规划

存储系统的关键部件采取热备份的形式,单个设备出现故障不会马上影响到系统正常运行,但必须及时发现并加以解决,以免造成系统可靠性的降低.一旦发现故障发生,首先要判别故障类型和故障位置,然后进行处理。

2.2.1单电源故障

故障现象：电源指示灯变红。

影响范围：但电源故障在短时间内不影响系统的正常运行，但长时间可能导致设备供电不稳定，系统可靠性下降。

应急预案：及时联系设备提供商，更换电源模块。

2.2.2温度报警

故障现象：左前面板指示灯亮。

影响范围：温度过高可能造成系统的运行不稳定甚至宕机，影响整个存储系统的使用。

应急预案：及时采取降温手段，检查风扇的运行状况，联系设备提供商判别故障位置，更换风扇或其他故障部件。

2.2.3磁盘故障

故障现象：异常情况下磁盘指示灯显示红色或黄色。如果出现刺耳的报警声说明存储单元有问题，需要登录管理节点查看。可以远程登录10.242.110.159服务器，用

户名：administrator，密码：1！。该服务器上有存储单元管理软件。登录存

储单元管理软件，如果有问题，界面会有红色报警提示。

影响范围：单块磁盘故障不影响系统的运行和使用。

应急预案：及时联系设备提供商技术人员进行磁盘重建。

2.2.4处理器故障

故障现象：指示灯会显示为红色。

影响范围：单处理器故障不影响系统的运行和使用。

应急预案：及时联系设备提供商技术人员进行更换。

2.2.5Windows客户端不能访问

故障现象: windows客户端无法访问存储系统。

影响范围:所有windows客户端无法正常工作。

应急预案：1）网络通信是否正常：使用ping网络其他IP地址是否通信正常来确认，确认windows本地IP地址可用。

2）权限是否正常：vim /etc/samba/smb.conf查看对各共享权限的定义，修改后保存退出，重启smb服务。

3）SMB服务是否正常：以root身份登入协议转换节点，通过service smb

status查看samba服务状态；若没有启动，分别使用service smb start、service

winbind start启动服务。

4）ctdb是否正常：ctdb status、ctdbip检测ctdb状态及各节点分配到的ip；

若ctdb不正常，vim查看各samba服务器上etc/ctdb/sysconfig、

/etc/ctdb/nodes、/etc/ctdb/public_addresses三文件内容，确保其一致；查看

/etc/ctdb/sysconfig中规定的共享目录下的锁文件是否存在；修改后依次重启ctdb、

smb服务。

三、重大节日和重要保障期保障服务

●我方在重大节日和重要保障期内提供24小时驻场服务。

●在重大节日及重要保障期前一周做一次深度巡检服务，保障系统无故障运行。

●在驻场服务期间，每隔6小时做一次常规巡检服务。

●遇到报警或故障，驻场工程师若无法保障短时间解决问题，直接将报警或故障提升

为I级紧急故障，并启动故障响应服务。

四、考勤制度

4.1目的

为了规范运维考勤管理，严肃工作纪律，并使驻场人员的奖惩核算做到有法可依，结合我司实际情况，特制定本规定。

4.2适用范围

本制度适用于所有监管中心运维驻场人员。

4.3管理规定

4.3.1工作制度

工作时间: 周一至周五

8：30---17：30

或9：00—-18：00

4.3.2打卡制度

运维驻场人员实行上、下班指纹录入打卡制度，所有人员都必须自觉遵守工作时间。

●打卡次数：一日两次，即早上上班打卡一次，下午下班打卡一次。

●打卡时间：打卡时间为上班到岗时间和下班离岗时间；

●因公外出不能打卡：

?因公外出不能打卡应填写申请表,注明外出日期、事由、外勤起止时间。

?因公外出需事先申请，如因特殊情况不能事先申请，应在事毕到岗当日完成申请、审批手续，否则按旷工处理。

4.3.3加班管理

●根据合同要求，重保期间实行24小时值班驻场，定义为加班时间。