文档库 最新最全的文档下载
当前位置:文档库 › 运营商引入云计算后的运维体系探究(20111026)

运营商引入云计算后的运维体系探究(20111026)

基于云计算技术的运营商运维体系探究

胡平谭志远

摘要:目前,云计算技术的应用不断成熟,云计算平台正在各电信运营商中广泛部署,

相应地,云计算平台上线后的运行维护管理成为大家近期关注的热点。本文聚焦在业务平台云化后的运行维护管理上,从业务平台维护现状出发,对比分析了引入云计算后业务平台维护模式的变化,说明现阶段运营商业务平台云(私有云)运维工作所面临的挑战,结合云计算的技术特点和业务平台维护的实际情况,探究引入云计算后运维体系需要梳理的相关工作内容、制度及流程。

关键词:云计算IaaS 业务平台运维体系故障处理

1引言

云计算通过其高性能、高可靠性、高安全性等特性,正被各行各业竞相追捧。特别是近几年随着云计算技术的不断成熟,各大电信运营商逐步开始从试验阶段走向大规模的商用和内部应用阶段。云计算IaaS层面的技术优势(资源共享、按需分配、快速部署等),很好的解决了现阶段业务平台发展和运维中存在的主要问题,但其技术特点决定了引入云计算后业务平台的运维模式不能照搬现有业务平台的运维模式,因此非常有必要在大规模应用前,结合云计算技术和业务平台的特性,探究引入云计算技术后的业务平台运维体系,从而确保大规模应用后云平台以及其承载的业务平台能高效、安全、稳定的运行。

2引入云计算后业务平台维护模式的变化

下面根据现阶段业务平台维护的实际情况,结合云计算技术的特点,分析引入云计算后运维体系的变化以及面临的挑战。

2.1业务平台维护现状

根据现有业务平台的建设、运营、维护实际情况,目前业务平台的维护形式是垂直、分散的维护模型(平台独立建设,独立维护),主要包括如下几种情况(维护模式如图1所示):

1)、平台分散在多个维护单位(或维护部门),平台集中维护和分散维护方式共存;

2)、硬件(包括服务器、存储、网络设备等)和软件(操作系统、数据库、中间件、应用软件)的维护岗位分设和合设共存。

服服服

图1:垂直、分散维护模式图

2.2业务平台云化后的维护模式演进

业务平台部署在云平台后,因资源池属于统一规划部署,各业务平台共享使用,从原来的垂直、分散维护模式演变为横向、集中的维护模式(资源共享,团队维护)。资源池集中建设后,云平台硬件层面(包括服务器、共享存储、网络设备等)和虚拟化层面(包括虚拟化软件、虚拟化管理软件、云管理平台等)的维护可以做到集中维护;而云平台上所承载的虚拟机(即业务平台,即虚机操作系统及其上安装的数据库、中间件、应用软件等),则可参考现有业务平台维护机制落实相应的维护职责。业务平台云化后的维护模式演变如下图二所示。

图二、横向、集中维护模式

2.3引入云计算后维护体系面临的挑战

随着云计算IaaS层面技术在运营商业务平台领域大规模的应用,传统的业务平台运维体系将面临挑战,主要表现在如下几个方面:

1)维护管理制度上:云平台和传统业务平台的建设、维护、服务模式不同,导致现阶

段缺乏相适应的维护制度以适应这种变化;

2)维护人员经验上:缺乏具备虚拟化技术应用、资源自动化部署、资源综合调度、虚

拟化技术安全保障等方面的专业技术人才,是快速推进云计算技术规模化应用的瓶颈之一;

3) 服务保障要求上:保障难度变大,虚拟化增加了IT 基础架构的复杂性,增加了虚拟

化层、物理与逻辑的脱离,故障排查更为困难;

4) 管理流程适配上:云平台建设特点是资源与项目分离,而传统业务平台的资源是独

立建设独立使用,因此需要适配云平台资源共享的特性,需要引入资源管理和服务管理等流程;

5) 维护管理手段上:现有云计算管理平台商用产品暂未成熟,不能完全满足运营商规

模运营的需求,并且尚未有一套完整的与现有运营支撑系统(如:综合网管系统、资源管理系统、工单系统等)集成的综合解决方案。

3 引入云后的运维体系探究

运营商通过云计算统一资源池统一部署各种业务平台后,在业务平台的运维模式方面,从传统垂直维护模式演变成横向模式;在维护的内容方面,增加了虚拟化层面相关的维护。因此需要根据这些变化,重新梳理现有的运维体系,以适应这种变化的需要,梳理的内容主要包括维护组织架构、维护职责及分工、维护岗位设置及职责分工、维护界面划分、维护管理制度及流程等几个方面的内容。

3.1 业务平台云化后的维护组织架构

云平台属于业务平台的一种,只不过其承载的不是业务,而是其他业务平台,因此云平台的运维工作基本可以参考现有业务平台的维护制度,只是维护的内容及对象有所不同而已。根据上述业务平台云化后的维护模式演进分析,引入云计算后的维护组织架构如下图三所示:

维护责任单位职能管理单位

云平台技术支撑单位

图三:云平台维护组织架构

云平台的维护组织架构包括如下几个层面:职能管理单位(包括运营管理和维护管理)、维护责任单位(根据云平台的硬件设备、虚拟化、虚拟机等三个层面,依次划分维护责任单位)、技术支撑单位(厂家或其他技术支撑单位)。

职能管理单位主要包括:业务平台维护管理单位即省公司网运部,业务运营管理单位即省公司各业务部门;维护责任单位的划分主要根据云平台自身的特点,划分为硬件设备层、虚拟化层、虚拟机等三个层面的维护内容,分别对应不同的维护责任团队,主要包括云平台维护团队,云硬件维护团队,云平台上所承载的业务平台维护责任单位,维护团队的成员包括省NOC 、分公司、或者第三方维护单位等。

3.2云平台维护岗位职责及分工

基于业务平台云化后的维护组织架构图,引入云平台后,与传统业务平台的维护主要差别在于多了虚拟化层的维护,而在云硬件和云平台上承载的业务平台的维护与传统意义上的业务平台维护基本一致,因此本文重点研究云平台层面的岗位设置及其职责分工。

在虚拟化层运营与维护的工作主要内容包括:云资源管理、云服务管理、云统计分析、云安全管理等,详细工作内容如下图所示:

图四:虚拟化层维护工作内容简图

根据上述云平台运维管理功能需求,结合我们实际工作情况,可以把这些工作归纳成如下几种维护岗位:云平台资源管理员(或称云平台管理员)、云平台服务管理员(云平台操作维护员)、云安全管理员、云平台统计分析员,其中云资源管理中的资源监控职责可独立为云平台资源监控员。

3.3云平台维护岗位设置

根据云平台维护岗位及职责分工,结合现有业务平台的维护情况,建议在省网运部设置1名云平台运维管理员,行使云平台维护管理职责。在维护单位内部,对云平台层面的维护岗位设置建议如下图五所示,其中各维护岗位可根据实际需要与传统业务平台的维护岗位合适或者单独设置。

图五、云平台岗位设置

3.4云平台维护界面划分

业务平台维护范围:虚拟机操作系统(客户操作系统)及其以上安装的中间件、数据库、应用系统都属于业务平台维护范畴。

云平台维护范围:服务器、网络、存储等资源池管理(虚拟化层面),以及云管理平台等。

云平台硬件维护范围:物理服务器(包括安装虚拟化软件的服务器、安装虚拟机管理软件及相关辅助软件的物理服务器、云管理平台使用的服务器等)、网络设备(含防火墙、负载均衡器)、共享存储等。

3.5云平台维护管理制度及流程

引入云计算后,与传统业务平台的维护流程相比,云平台的维保管理、软件版本及补丁管理、需求管理(主要是云管理方面的需求)、局数据修改管理、机房管理、值班和交班管理,以及云平台的备品备件等的管理可完全参考现有的维护管理制度及流程。因此本文重点研究引入云后的两个关键流程,即故障处理流程和资源管理流程。

3.5.1故障申告及处理流程

云平台的用户申告及故障处理,建议采取“一点受理、闭环管理”的原则,因云平台之上承载的是业务平台,因此对于云平台故障发起申告的可能者有:业务平台维护人员、云平台监控系统(硬件层面的监控和虚拟化层面的监控)、云平台维护人员(含虚拟化层面和硬件层面)。前两种途径发现的故障,建议统一由云平台故障管控方(建议是云平台监控员承担)进行受理,并做一定的预处理,如果无法解决,由故障管控方通知省NOC云平台维护人员(含虚拟化层面和硬件层面的维护人员),当管控方不能定位是虚拟化层面还是硬件层面的故障时,先把故障报告给负责虚拟化层面的维护人员(建议云平台操作维护员),虚拟化层面的维护人员牵头负责后续故障处理及协调(含协调云资源管理员、云硬件维护人员等)。

由云平台维护人员发现的故障,由云平台维护人员直接做预处理,并判断在故障处理过程中是否需要业务平台配合,如果需要由云平台维护人员或故障管控方通知业务平台配合故障处理,当云平台维护人员无法单独完成故障处理的时候,需及时联系厂家进行故障处理,并在故障处理完成后,需要对故障进行分析并向上级主管部门提交故障处理报告并反馈故障

管控方进行故障归档管理。

详细处理流程如下图六所述:

图六:云平台故障处理流程

3.5.2资源管理流程(申请、变更、维护)

云资源的申请(变更),建议由业务部门根据实际需要向网发部发起(建议配合电子工单流实现)资源申请(变更)需求,业务部门发起的需求至少要包括:业务发展预测(决策冗余资源配置)、忙闲时分布预测(便于维护部门根据业务情况制定错峰填谷的资源调度策略)、申请虚拟资源大小(CPU、内存、存储、带宽等)、SLA要求等。由网发部根据规划情况审核业务部门的需求,并根据实际情况对业务部门提出的资源申请进行核减,网发部审核通过后提交给网运部(网运部批复后转NOC云资源管理员)审核,网运部根据云平台资源情况,充分考虑云平台冗余、安全等因素,判断目前资源池是否满足业务部门的需要,如果资源不够,需要反馈给网发部安排资源池扩容,否则由云资源管理员配置相关资源,转云服务管理员进行开通。

在实际资源运行维护过程中,由云资源管理员根据资源运行统计分析情况负责对资源池的优化,并根据实际情况及时向上级部门提交扩容建议。

详细流程如下图七所示:

图七:资源管理流程

4结束语

引入云计算IaaS技术后,业务平台由原来独立建设,分散维护模式,实现了业务平台的集约化运营管理,在实际运营过程中首先需要理顺维护管理组织架构问题,需要从全局出发实现跨专业室、跨部门、跨单位的维护资源整合,在此基础上明确各部门间的维护职责及分工,落实云平台的各个维护岗位及职责,明确彼此间的维护界面,并结合相应的维护规章制度、维护管理流程来约束,从而实现高效的、规范化的云平台运维管理体系。希望通过本文的分析和研究,希望能对运营商引入云计算后的运维体系梳理起到启发和参考作用。

【参考文献】

1.《云计算给业务平台的发展与运维带来的机遇与挑战》电信科学2011作者谭志远。

【作者简介】

胡平,男,就职于广东电信网运部,一直从事网络运行维护管理工作。联系电话:020-******** 邮箱:hup@https://www.wendangku.net/doc/6c6122896.html,

相关文档