文档库 最新最全的文档下载
当前位置:文档库 › (完整版)数据中心机房运维方案

(完整版)数据中心机房运维方案

(完整版)数据中心机房运维方案
(完整版)数据中心机房运维方案

数据中心运维外包

2019年8月

数据中心运维外包服务方案

目录

一、运维的重要性 (1)

二、维护范围 (1)

三、提供的服务 (2)

四、服务内容 (3)

(一)UPS供配电系统 (3)

(二)机房空调系统 (5)

(三)服务器运维 (7)

(四)存储系统运维 (9)

(五)虚拟化平台运维 (10)

(六)数据库系统运维 (11)

(七)网络设备运维 (13)

(八)其它有关系统或设备运维 (15)

五、运维报价服务 (16)

一、运维的重要性

数据中心的日常运维工作是至关重要的。设备故障时,应提供快速的备件供应、技术支持、故障处理等服务。通过机房设备维护保养可以提高设备的使用寿命,降低设备出现故障的概率,避免重特大事故发生,避免不必要的经济损失。

数据中心的运维工作专业性很强,通过引入专业的维护公司进行日常运维工作。建设及使用单位相关管理人员可从日常需要完成专业性很强的维护保养工作中解放出来,重点做好管理及协调工作,更好的发挥信息或科技部门的其它职能。

通过专业、系统、全面的维护可以提前发现问题,并解决问题。将故障消灭在萌芽状态,提高系统的安全性,做到为客户排忧解难,减少客户人力、物力投入的成本,为机房内各系统及设备的正常运行提供安全保障。可延迟客户设备的淘汰时间,使可用价值最大化。通过专业的维护,将数据中心机房内各类设备的运行数据进行整理,进行数据分析,给客户的机房基础设施建设、管理和投入提供依据。

二、维护范围

数据中心机房于××年×月建成并投入使用,数据中心有关设备及基础系统清单如下:

三、提供的服务

为更好的服务好客户,确实按质按量的对设备进行维护;我公司根据国家相关标准及厂商维护标准,结合自身经验积累和客户需求,制定以下服务内容:

1.我公司在本地储备相应设备的备品备件,确保在系统出现故障时,及时免费更换新的器件,保障设备使用安全。

2.我公司和客户建立24小时联络机制,同时指定一名负责人与使用方保持沟通,确保7*24小时都可靠联系到工程技术人员,所有节日都照此标准执行。

3.快速进行故障抢修:故障服务响应时间不多于30分钟,2小时内至少2人携带相关工具、仪器到达故障现场现行故障排查处理,直到设备恢复正常运行。

4.我公司对维修维护的设施设备的使用性能负责,在维修维护过程中严格执行技术规范,保证设施设备的性能符合相关技术标准要求。在维修维护间,我方应对设施设备可能存在的故障隐患做出评估,并进行恰当的预防性处理,以保证设施设备的安全运行。若故障隐患超出维修维护范围的,及时书面通知客户,并提出消除隐患建议。

5.维护巡检中我公司提供设备系统图或使用说明书:将机房内设备的整个系统等汇编成资料,由维护人员进行统一放置,便于应急查询。

6.巡检次数每年不少于四次,每次巡检后,由维修维护方提供巡检报告,并由使用方签字确认。每月由我公司客户服务人员定期进行回访,听取客户意见反馈,搭建起双方的沟通渠道。

7.提供系统应急方案:设备在12小时内还无法修复的应有备份应急处理方案。如提供适合负载功率的备机、备用空调等。

8.培训:提供专业理论知识培训和操作培训,维修维护培训,简单故障处理培训,培训文档由我公司整理。

9.人员配置:全年(包括所有的节假日期间)提供不少于2名工程师在常住贵阳本地,确保满足响应时间要求;到现场的维护维修工程师至少一名是能完全解决故障并有丰富从业经验的。

10.我公司每次巡检完毕后提供维护报告,同时还提供全年维护报告、每次维修事故报告等资料,根据事故提出相应的整体解决方案等管理规划层面的内容。

11.数据分析:我公司将每次巡检、维修等数据进行整理,对设备运行的数据变化量进行测数,给客户提供一份报告,系统性的介绍机房发生的变化,给客户后期系统建设、投资提供参考依据。

12.提供系统相关的技术服务:设备搬迁、系统现场保障、突发或特殊应急处置。

13.双方约定的其它相关服务内容。

四、服务内容

(一)UPS供配电系统

1、供配电:

(1) 输入输出配电柜及线缆:测量输入输出开关、线缆载流量的实际值和UPS显示值的区别。线缆外观有无破损,线缆交叉的情况,连接点的温度是否正常。

(2) 线缆是否存在局部过热, 通风是否良好。

2、UPS主机:

(1)全包备件保修方式(保修期内设备的维护保养、故障维修所需的备件均免费维修更换)。

(2)每3个月进行一次保养维护检查,内容如下:

1)外观检查:面板显示、案件、指示灯、风扇运行是否正常;

2)设备内部电感、电解电容和功率线的外观检查;

3)设备内部各功率部件及电路板信号线的物理连接检查;

4)检查模块、电路板、轨导、连接端子的键是否出现氧化;

5)检查设备清洁程度,特别是设备内部的积尘及其他物质;

6)设备绝缘检查;

7)设备运行环境检查:设备通风及散热是否良好、环境温度、设备有无水患

可能;

8)UPS运行参数的检查:整流器、逆变器、静态旁路、负载运行参数是否正

常、检测值与实际测量值是否有偏差(不超过5%)。

9)检查所有的电源保险丝、隔离开关的完好程度及是否安装牢固。

10)每季度定期检测UPS输入线电压、输入频率、输入电流谐波成分、输入功

率因数、效率、输出相电压、输出频率、输出火线-零线波形、蓄电池充电电流等参数,应符合相关国家要求。

11)对每台UPS电池组进行不低于电池容量50%的放电测试,并对每台UPS电池

组电池内阻进行检测,查看直流熔断器和蓄电池连接条的压降或温升是否有异常变化。

(4)每年定期用真空吸尘器清扫UPS主机内的各部件或用提供低压空气流吹风机来清除外来的残渣和灰尘。

(5)对UPS主机风扇定期进行逐步更换,每年更换量不少于总量的20%。运行5年以后逐步更换滤波电容。定期巡检尽量以观察、测量为主,减少停机。

(6)提供《客户现场服务报告》,报告需要客户签字认可。

3、蓄电池维护(不包配件):

(1)电池目检项目

电池外观检查:外观是否变形、渗漏,安全阀周围有无液体;

电池端柱是否有腐蚀、爬酸现象或有过热痕迹;

电池槽和盖的损坏;

电池绝缘检查;

电池寿命:当电池达到使用年限时,提前通知用户;

电池电压测量:检查充电电压是否和电池数量相匹配;

电池端子连接是否稳固。

视情况进行电池表灰尘处理。

(2)仪器测量

测量和记录电池系统的直流浮充电压,此时也可选择测量和记录交流皱波电压

测量每一个电池端柱与接地间的直流电压以发现不正常的接地

测量和记录取样电池的温度

测量和记录每个电池的浮充电压

测量和记录系统均衡充电电压

(3)UPS主机内部进行电池自检

电池接触器闭合;

电池处于浮充状态;

整流、逆变通讯正常;

电池状态正常;

整流器工作正常;

市电电压正常;

逆变器正供电;

负载功率大于指定的电池曲线设定的电池自检功率;

UPS不处于联合供电状态。

以上条件都满足时方可进行电池自检。如果在自检过程中,出现上述允许条件任意一条不满足,系统将退出自检,转入均充状态。

按停止手动自检,可以中止自检过程,电池转均充。电池自检结束转均充。(二)机房空调系统

1.全包备件保修方式(保修期内设备的维护保养、故障维修所需的备件均免费维修更换。包含免费更换过滤网、皮带、风机、压缩机、电路板、室外电机、室外调速器、氟利昂等)。过滤网视情况进行更换,但每年提供不少于更换四次。皮带每年进行一次更换。

2.每3个月进行一次保养维护检查,巡检内容如下:

1)制冷系统:

?检查压缩机工作声音是否正常;油镜油位是否正常;

?检查压缩机吸气排气压力是否正常:

?制冷管路阀门(液管、气管、压缩机吸入及排出口阀门)是否打开;

?热力膨胀阀开启是否正常;

?压缩机转向;供电相序是否反相;

?检查吸气管路、排气管路、回液管路和压缩机机体温度是否正常;

?干燥过滤器前后端有无温差;

?管路(含储液罐)有否漏油痕迹;

?视液镜水分指示是否正常;

?蒸发器盘管是否脏污;

?冷凝器翅片是否脏污;

?检查冷凝器风机工作是否正常;

?检查冷凝器压力开关/风机调速设置是否正确;

2)送风系统:

?检查风机皮带轮和电机皮带轮的平面度;

?检查室内风机皮带张紧度;

?检查室内风机轴承工作是否正常;声音有无异常;

?检查室内风机叶轮转动是否正常;

?检查室内风压开关、过滤网压差开关设定值是否正确;

?清洁风机;

?检查空气过滤网是否脏污;

?检查所有门板是否可靠;

3)电气系统

?每半年紧所有接线端子;

?检查各交流接触器吸合、分断是否正常;

?检查所有过流保护是否正常;整定值是否正常;

?检查主电源线电压、相电压、各相电流;

?手动启动制冷/除湿、加热、加湿功能,检查电流是否正常;4)控制系统:

?检查控制器初始设置是否正常;

?检查温湿度探头是否偏差;

?检查显示器工作是否正常;

?检查所有数据及模拟输入、输出是否正常;

5)加湿系统

?检查加湿器进水电磁阀和排水电磁阀动作;

?检查加湿器的蒸气排出管是否畅通;

?检查蒸汽凝结水排水是否正常;

?检查加湿罐结垢情况,清洗或更换;

?检查加湿器的进水过滤器;

?检查加湿器的溢水、排水盘;

?检查加湿器排水是否泄漏;

?检查冷凝排水是否泄漏;

6)管路系统

?检查制冷管道保温和包扎是否完好;

?检查所有管路定位是否完好;

?检查室内外机连接电缆老化情况是否满足空调运行需要;

?检查空调送风和回风管路/通道是否通畅;

7)给水、排水系统

?检查给水系统是否正常;加湿进水电磁阀的进水过滤网是否脏堵;

?检查排水是否通畅。

最后出具维护报告,记录各项技术数据,并提出意见和建议,提供运行数据分析报告。报告需要客户签字认可。

(三)服务器运维

我公司提供主动服务模式,做好服务规划,提前发现和解决问题,确保系统24*7运行,具体服务内容包括:

●系统故障定位和排错

●Windows、Linux操作系统安装、升级

●操作系统补丁的更新

●服务器微码升级

●系统备份和系统恢复

●数据备份和数据恢复

●CPU、内存升级扩容

●替换故障硬盘、RAID重建

●更换电源、风扇等易损件

●更换主板和其他故障板卡

●更换小型机和磁盘阵列中的各类到期电池

●系统参数的调整优化

●系统日志的检查和清除

●系统盘的镜像检查

●双机软件的状态检测

●系统目录空间状态使用的监测

●系统运行状态的监测

●安装新版本Linux系统

●在新版本Linux系统上调试系统配置

●对已安装的新版本Linux系统进行测

●维保设备(软件)范围内其它软件的升级服务

提供服务器年度维护服务,提供一年24次定期上门设备巡检,提前发现故障隐患,减少故障造成的宕机时间。在服务期间,机器硬件的损坏由我公司提供免费更换,客户不再支付任何其它费用。我公司提供主动服务模式,做好服务规划,提前发现和解决问题,确保系统24*7运行,具体服务内容包括:

●协助客户进行受支持的软件产品的基本的日常维护和管理。

●协助客户对所报告的问题进行定义及指导客户相关技术人员完成解决问题所

需要的相关信息的收集工作。

●我公司将帮助客户对所报告的问题进行问题根源的分析和诊断。

●对于软件本身的问题,我公司将根据需要向客户免费提供相关的修正性软件。

●对客户所报告的有关受支持软件产品的问题,我公司将根据需要使用标准系

统进行记录和跟踪,并根据实际情形对问题的严重程度和优先级别进行设定

和更新。

我公司将在应用软件安装完毕后应进行基本系统测试

(四)存储系统运维

针对上述的中心数据机房存储系统相关设备维保服务,我公司提供主动服务模式,做好服务规划,提前发现和解决问题,确保系统24*7运行,具体服务内容包括:

●设备故障定位和排错

●设备软件版本升级

●配置状态检测

●更换电源、风扇等易损构件

●系统使用状态检测

●系统日志分析和监控

●为信息中心的存储设备产品提供日常维修、维护服务。

●应急保障方案。综合分析xxx客户数据中心服务器的软硬件配置,应用情况,

在第一次巡检后向局方提供安全、可靠、切实可行的应急方案。

●为xxx客户的存储管理软件配置、备份策略审核等提供技术支持服务。

●帮助xxx客户对存储系统进行性能分析:磁盘读写性能、数据存储备份安全

性、I/O性能、解决数据存储性能故障、提高存储系统性能、提升xxx客户

IT系统整体性能。

●根据xxx客户信息系统发展需求,规划新的存储备份系统、容灾系统等,解

决用户IT数据安全、高速增长需要。

●为xxx客户提供存储信息生命周期整体规划,保障用户数据的生命力。

(五)虚拟化平台运维

主要的内容如下:

系统服务备注

(六)数据库系统运维

1、Oracle数据库维保服务

◆健康巡检:提供每季度一次的健康巡检,包括:系统和数据库的可用性、

完整性的检查;系统、数据库和应用性能的检查;系统的结构、恢复步骤、

安装、安全扫描等相关问题的检查;对系统错误日志检查与分析,根据操

作系统及Oracle的报错信息,发现系统潜在问题,尽早采取措施,排除

故障隐患和安全漏洞。要求巡检后提交完整的检查报告和相关的改进建议

报告。

◆备份恢复:根据采购人数据库系统实际情况,规划实施符合采购人工作要

求的完善的备份恢复方案,以确保采购人数据库系统的安全可靠运行。在

进行数据库备份恢复的规划实施过程中,服务方技术人员应对采购人的技

术人员进行现场培训,确保采购人的技术人员可以独立完成相关备份工

作;在数据库出现故障时,服务方应尽快安排技术人员到采购人现场,恢

复客户系统,减少采购人停机时间。

◆故障处理:在数据库出现故障,导致数据库不能正常工作时,服务方安排

技术人员2小时内到现场解决问题并保证问题完全解决。如果不能解决问

题,服务方需自行请专家或其他高级技术人员对采购人系统情况进行分

析,直至解决问题。

◆远程技术支持:服务方在接到采购人通知后的30分钟内响应,确认相关

情况,进行电话、拨号等技术支持,如需现场协调现场进行处理。

◆性能调优:根据客户的需求和操作系统数据库系统的实际情况,定期分析

用户的应用类型和用户行为、评价客户数据库的参数设置、数据分布、硬

件和系统资源的使用情况等,并提出相关调整建议,必要时可以随时在规

定的时间内派技术专家到达客户现场,处理客户系统性能问题,确保客户

系统的高效运转。

◆紧急故障处理:因硬件、软件或人为操作等各种不同原因,引起的采购人

数据库系统完全不能正常工作、严重影响业务系统正常运作的故障时。能

提够全年7×24小时(365*7*24)技术支持,在接到采购人请求后,0.5

小时内安排技术人员给采购人技术人员回电,并在1小时内向用户提供处

理方法。如果远程不能处理的紧急故障,服务方技术人员应在3小时内赶

赴客户现场,搜集各种故障信息,诊断故障发生的原因,在4小时之内排

除故障。

需求响应:当客户有主机及数据库部署、调整、优化等需求时,及时响应客户需求,给出客户最佳解决方案,经客户认可同意后,实施方案

2、Oracle透明网关服务

异构模式下实现Oracle数据库与SQL Server数据库联通,在SQL Server数据库下可以正常查询Oracle数据库数据

(七)网络设备运维

1、网络巡检服务

在维护服务期间,与主机和存储紧密配合,每个月一次现场巡检服务。

2、网络环境与设备物理状况巡检

1)环境检查巡检

UPS电源、地线、空调、散热、物理安全性。

2)物理状况巡检

包括:设备机体、外观、及风扇、风道及过滤器、状态指示灯、电源、VIP模块、广域网端口、局域网端口等。

3、硬件部分巡检检查

?设备连接状况检查;

?设备物理安全(电源冗余、机房环境、线缆);

?设备本身冗余性检查,包括引擎的冗余、电源的冗余;

?设备系统及板卡指示灯状态检查分析;

?端口描述,端口安全性,不使用的端口建议关闭,端口性能检查;

?电源稳定性和线路检查;

?设备有关的软件、硬件和BUG信息收集;

?系统运行状态、性能检查和优化,包括CPU利用率、Mem使用率、Buffer 分配、Crash分析;

?设备扩容服务检查分析与支持;

?设备物理检查(包括机体、风扇、风道及过滤器等)与清洁;

?检查如发现损坏的或有隐患的部件将及时更换;

?系统硬件运行情况综合分析。

4、软件部分巡检检查

?网络架构标准化、可扩展性、可用性、可靠性、高性能性、安全性及可管理性等检查;

?系统的使用管理支持及相关升级服务;

?检查系统日志分析报告(show Log) 以及其他的记录文件;

?安全性配置分析;

?管理性配置分析:设备上SNMP、LOGGING设置,NTP配置;

?网络层:路由分发配置、静态路由配置;

?网络系统通讯状态检查;

?路由协议学习管理、质量服务(QOS);

?检查网络流量、通讯流量控制、网络访问安全、通讯数据类型的转发、VLAN 划分等。

?当前系统配置采集及系统更改信息归档;

?将发现有隐患的系统问题及时排除;

?重要事件现场支持服务(例如割接、设备搬迁、现网测试、组网方案等);

?结合系统软硬件的系统运行状况,进行网络整体拓扑结构化分析。

5、网络设备维护服务

在系统维护期间,根据中心网络设备的情况与需求,与小型机紧密结合,提供7*24小时技术维护服务,服务内容如下:

?7*24小时远程或现场故障诊断和排除服务;

?系统在线连接信息咨询服务;

?系统微码的使用管理支持服务;

?软件补丁升级服务(操作系统);

?配置文档备份与恢复服务;

?7*24热线服务;

?重要事件现场支持服务(例如割接、设备搬迁、现网测试、组网方案等);

?定期的预防性维护;

?现场备件更换服务;

?技术培训服务;

?协助网络结构优化方案设计服务;

?协助网络安全设计及优化系统服务;

?配合中心网络地址空间规划与优化设计服务;

?配合网络系统性能优化设计服务等。

(八)其它有关系统或设备运维

根据数据中心其它系统或设备实际情况提供相应的运维服务。

五、运维服务报价

相关文档