文档库 最新最全的文档下载
当前位置:文档库 › 国泰君安证券IT运维知识库平台案例分享

国泰君安证券IT运维知识库平台案例分享

国泰君安证券IT运维知识库平台案例分享
国泰君安证券IT运维知识库平台案例分享

国泰君安证券IT运维知识库平台案例分享

国泰君安是国内最大综合类证券公司之一,由国泰证券和君安证券于1999年合并新设,历年来经营业绩始终稳居业内前三。

国泰君安是国内规模最大、经营范围最宽、机构分布最广、服务客户最众的证券公司之一。拥有金融证券服务全业务牌照。旗下金融控股有限公司(注册地香港)、期货有限公司、资产管理有限公司、创新投资有限公司、国联安基金管理公司5家子公司,在全国29个省、自治区、直辖市设有26家分公司、193个营业部(含35个直属营业部)。

国泰君安是一家享有盛誉的公司,“中国企业信息化500强”(评选机构:国家信息化测评中心);“金融品牌价值榜年度最佳证券公司”(评选机构:第一财经)。

“中国500最具价值品牌?中国券商品牌价值第一”(评选机构:《世界品牌实验室》2004-2010连获)。“券商分类评价A类AA级”(评选机构:中国证监会,2008-2010年连获)。

“中国最具创新能力投行”(评选机构:《新财富》)。

“2010年度上海金融创新成果一等奖”。

在公司IT战略和整体发展规划的指导下,公司构筑了由网络、交易、营销、风险、管理和运行六大技术平台组成的IT技术架构。

但是,信息技术日趋多样化、规模化和复杂化,信息技术安全风险不断增强,监管部门对信息系统安全运行的要求也在不断提高,同时证券业务交易规模的急剧增大等等,对IT的运营和维护提出了极大的挑战。

我们逐渐的意识到单纯的技术架构建设不足以面对现实的挑战,只有建立一套符合ISO20000的IT服务管理体系才是最佳选择。因此,公司于2009年正式启动ISO20000认证项目,项目借助了咨询方的辅导、认证方的审核和开发方的平台固化。

由于公司是以打造百年企业为目标,更进一步打造全能性投资银行,因此公司的业务在不断创新。虽然,基于ISO20000标准建立起来的IT服务管理体系让运行中心在前瞻性规划、安全运行等方面有了很大的提高。管理无极限的思想和持续改进的机制推动着运行中心于2011年6月启动了ISO20000二期深化项目—知识库优化项目,其目的在于通过建立知识共享的机制和平台,打造学习型组织,从而优化员工知识结构,提升团队(尤其是新员工)的技术和管理能力,提高运行中心整体运维水平。

知识管理深化项目分两期实施:

知识库的流程优化和知识库的落地使用。

由于我们经历过知识库的一期,大家对知识库的开展的深有感触,认为知识库,不仅仅要有完善的流程管理制度,有个符合本部门知识结构的知识库架构体系更为重要。知识库的深化项目初期,我们针对一期出现的问题,做了分析、归纳,把它作为知识库深化管理项目要改进方面。

在项目的访谈阶段,被访谈人员涉及到公司高管,部门领导,部门员工和分支机构的信息技术人员。访谈的内容涉及知识库的流程管理,知识管理要素、知识库的架构,知识库的分级和分类及将来对知识库工具使用上的要求,和他们对知识库开展的看法。通过访谈,项目组收获坡丰,使我们全方面的了解了领导和员工对这次知识库深化项目的的要求和建议,很多正确的观点与合理的建议被纳入了知识库的流程里,国泰君安的知识库管理体系架构,是我部集体智慧的体现。

知识库建设目标和范围:

我们建设和完善知识库管理是为了:

将经验沉淀、提炼,从而形成可借鉴、参考甚至参照执行的“指南”,以帮助新员工加快技能的培养,降低其操作的风险,更快更安全地上岗;为全体信息科技员工提供拓展综合技术的知识储备,提升整体应急处理能力。

形成知识与岗位挂钩的机制,逐步明确岗位所需要的技术能力,为全体信息科技员工技术职业发展和技术能力的提升指出方向和路径,以逐步推动学习型组织的形成。

知识生命周期管理:

围绕以上目标,本项目按照知识管理的生命周期入手,确立每个阶段的管理原则,并按原则定义、测量相关的活动,以确保该阶段的输出能够有效支撑知识管理目标的实现。

首先,在创建知识的环节,遵照:

【原则1】简洁性、实用性:以支撑故障解决为知识建设的重要目标之一,提倡知识描述的简单有效,能够被有相关岗位经验的员工快速引用;

【原则2】针对性、专业性:按工作和岗位的需要来确定收集知识的类型、范围、特性,以确保创建的知识有用武之地。

基于以上原则,定义和规范知识的识别、创建和审核等活动,以引导有实用价值的隐形知识向显性知识的转变。

其次,在管理知识的环节,遵照:

【原则3】时效性、准确性:加强对知识有效性的关注,通过与事件管理、变更管理、问题管理等流程的关联和回顾机制的注入,增强对知识有效性的主动管理;

【原则4】系统性、关联性:加强对知识与IT服务、岗位工作等管理视角的关联,促进知识的分类管理,使知识可以从服务条线(如:集中交易系统支持服务)、职能管理条线(如:网络管理岗)进行贴合式管理,促进知识审核、维护、废止等管理活动的有效性,为“岗位必备知识”的建设打下基础。

基于以上原则,定义和规范知识的录入、验证、更新、废止和统计等活动,以确保知识的构成能够被合适的人、在合适的时机专业化地管理。

最后,在使用知识的环节,遵照:

【原则5】易用性:关注知识查找的必要手段(即:知识库工具)的易用性,能够快速有效地帮助使用人找到合适的知识,而非大海捞针,是知识能否被应用到实际工作中的一个重要因素;

【原则6】可交互:加强对知识使用效果的跟踪,知识的“好”与“不好”,最有发言权的是往往是使用人,这将对知识的形成和更新注入动力,是知识能够“活起来”的关键要素。

基于以上原则,定义和规范知识的应用、学习、培训、考核等活动,以促进知识实现其价值,进而提升知识分享和创建的动力。

知识库机制保障和文化氛围:

在以上原则的指导下,知识管理需要实现管理目标,还需要组织、机制和工具的支撑。

组织保障:“无规矩不成方圆”,知识的管理同样需要在各个环节明确职责,尤其是专人的跟踪、监测和改进是推动知识管理能够不断深入的有效组织保障手段。

机制保障:“众人拾柴火焰高”是知识管理的源头,而如何促进“分享”和“互动”,必要的意识、激励、考核等机制是一项重要的保障力。

工具支撑:随着知识数量的增长,缺乏了有效的工具,知识库就逐渐成为一堆数据和记录,对于使用人来说,要找到自己需要的信息,无疑将是大海捞针。而优秀的知识库工具,将大大提升知识的使用效率,促进知识的互动。

只有在各项原则的指导下,在各项机制和工具的保障下,才能逐渐“破冰”,促进知识的交流和学习,以实现学习型组织的形成。

经过流程优化、知识体系架构的建立、知识分级分类、知识模板建设等、知识深化管理工具选型。深蓝海域以专业的知识库软件,强大快速的搜索引擎功能,完善的知识管理功能和多维数据库结构的特点,从众多参与我们国泰君安知识库落地建设的软件中脱颖而出。

深蓝海域kmpro知识库软件,最符合国泰君安知识库管理流程,是一款前瞻性的,具有独立知识产权的、可再开发的、开放性的,易操作的、可交互的、便于查找的、多维结构的专业知识库软件。

国泰君安的知识库体系架构在深蓝海域kmpro知识库软件的得到了充分的展现,达到了知识库深化管理当初项目设计的预期。

经过流程优化、知识要素分析、体系架构建设、工具选型、建设、上线等过程,2012年3月,知识库建设进入全面试运行阶段,试运行期间,运行中心全体员工投入知识库的建设工作中,以应用系统为主要知识维度,将相关资料和运维经验按照技术架构类、安装部署类、业务常识类、应急处置类、故障解决类和性能调优类的分类和基础、高级、专家的难易程度的分级整理后,纳入到平台中。

深蓝海域携手国泰君安打造知识库平台,共创美好未来

1.为了满足我们国泰君安知识库生命周期的需求,定制开发了kmpro知识库与IT运维平台remedy的数据关联需求

通过与事件管理、变更管理、问题管理等流程的关联和回顾机制的注入,增强对知识有效性的主动管理; 2.为国泰君安知识库定制开发了知识库知识标准(知识模板),达到了知识文档的规范体系的要求。

国泰君安知识库简报

XXX系统运维项目服务计划方案 Xxxxxx公司 日期:xxxxxx

目录 XXX系统运维项目服务计划方案 (1) 第1章运维服务计划方案 (3) 1.1运维服务准备 (3) 1.1.1签定必要的协议和约定 (3) 1.1.2人员准备 (3) 1.1.3工具准备 (3) 1.2项目人员组织 (4) 1.2.1人员结构 (4) 1.2.2人员职责与岗位要求 (6) 1.3服务计划 (6) 1.3.1服务时间 (6) 1.3.2进场初始阶段 (7) 1.3.3第一个服务阶段 (8) 1.3.4第二个服务阶段 (8) 1.3.5服务总结和延续阶段 (9)

第1章运维服务计划方案 1.1 运维服务准备 做好运维服务项目的准备工作是项目顺利完成的前提条件。在运维服务项目开始前,xxx将积极做好前期准备工作,在这个阶段,有三个主要步骤: 1.1.1签定必要的协议和约定 我们将配合XX企业,考虑服务外包可能产生的信息安全风险,并签署信息保密协议;同时对项目中涉及的各类软硬件资产、工具的知识产权做出明确规定与声明。 1.1.2人员准备 xxx依据服务方案,培训相应数量、具备相应技术资质的专业服务人员,并向越秀工商提供这些服务人员的: ●身份证明; ●健康证明; ●劳动关系证明; ●保险证明; ●学历和技术专业资质证明; 1.1.3工具准备 依据服务方案,针对企业的IT资产类别、数量等为服务外包项目准备相应

的备机、备件以及工具。 服务工具包括软性工具和硬性工具,软性工具包括服务商开发的各类服务管理软件系统、知识库系统、针对客户方IT资产的文档和驱动程序库等;硬件工具指维修、保养、检测工具及调测仪器等。 1.2 项目人员组织 1.2.1人员结构 根据xxxx信息系统运维要求,xxx派出长期驻场服务人员2人,项目驻场服务组按工作类型分为服务台人员(由硬件维护人员兼任),硬件维护人员。 服务台人员:负责项目服务中客户服务申请受理,已知故障/问题快速解决,客户回访,客户情绪安抚,资产标签制作,数据统计整理,运维项目文档管理以及运维场地整理工作。 硬件软件维护人员日常工作包括硬件设备维护及软件维护。 ?硬件维护管理日常任务: 1)运维服务中的定期硬件巡检、日常维护与保养、定期输入设备消毒除尘、 资产标签张贴、硬件维修、终端网络维护、第三方设备维修管理,备品 备件管理工作。 2)对越秀工商终端用户的设备进行病毒查杀工作,且按照越秀工商要求每 月末提交病毒处理服务统计分析报告。 3)对越秀工商不同处室部门终端人员使用的终端设备,以及各业务系统数

点击文章中飘蓝词可直接进入官网查看 大数据运维管理平台 随着大数据技术的发展,在安全领域中信息系统的建设、规划、投资等决策将日益基于数据和分析而做出判断,而并非过去基于经验和直觉的模式。大数据运维管理平台能够更容易的采集、分析数据,提供定期的报表统计,直观展现信息系统的实时安全态势、为安全决策提供数据,大数据运维管理平台哪家好? 大数据运维管理平台,能够有效的安全事件监控和预警措施,能够在信息系统即将遭到攻击或已经遭到攻击时,快速、准确地发现攻击行为,并迅速启动处置和应急机制。同时可以对信息系统的安全事件进行综合分析,了解当前整体系统的安全态势,为整体网络与信息安全规划提供有效的数据支持。 南京风城云码软件公司(简称:风城云码)南京风城云码软件技术有限公司是获得国家工信部认定的“双软”企业,具有专业的软件开发与生产资质。多年来专业从事IT运维监控产品及大数据平台下网络安全审计产品研发。开发团队主要由留学归国软件开发人员及管理专家领衔组成,聚集了一批软件专家、技术专家和行业专家,依托海外技术优势,使开发的软件产品在技术创新及应用领域始终保持在领域上向前发展。 目前公司软件研发部门绝大部分为大学本科及以上学历;团队中拥有系统架构师、软件工程师、中级软件工程师、专业测试人员;服务项目覆盖用户需求分析、系统设计、代码开发、测试、系统实施、人员培训、运维整个信息化过程,并具有多个项目并行开发的能力。 自公司成立已来,本团队一直从事IT系统运维管理以及网络信息安全审计产品的开发,同时在电力、制造行业及政府部门的信息化、智能化系统的开发及信息安全系统的开发中有所建树;在企事业协同办公管理、各类异构系统的数据交换与集成(企业总线ESB)、电力行业软件系统架构设计、电网大数据量采集和数据分析、电能质量PQDF算法解析等应用方面拥有丰富开发的经验。特别在网络信息安全、IT应用系统的智能化安全监控领域具有独特的技术优势和深厚的技术储备。近年来随着企业的不断发展和技术的不断更新,公司的开发团队正在拓展更多业务范围和更新的技术应用。

第1章信息系统运行保障方案? 1.1 统一服务台建设 提供统一报障电话,统一报障、统一维修接口,XX企业可以通过统一得报障电话申请服务、查询服务处理进程,跟踪处理进度,确保服务时效、控服务质量、调查用户满意度.这个统一得服务接口,在国际上有个标准得称呼:服务台(Service Desk).我们将为XX企业建立统一服务台,提供优质、专业得报障受理、跟进服务; 服务台总体架构如下: 服务台(服务台)在服务支持中扮演着一个极其重要得角色。完整意义上得服务台可以理解为其她IT 部门与服务流程得“前台”,它可以在不需要联系特定技术人员得情况下处理大量得客户请求.对用户而言,服务台就是她们与IT 部门得唯一连接点,确保她们找到帮助其解决问题与请求得相关人员。 服务台不仅负责处理事故、问题与客户得询问,同时还为其它活动与流程提供接口. 这些活动与流程包括客户变更请求、维护合同、服务级别管理、配置管理、

可用性管理与持续性管理等,服务台还负责事件快速响应,使用已知问题、已知事件知识库对终端用户得突发事件予以快速恢复或规避事故发生。 1.2 建立文档管理制度 文档管理得目标就是通过对运维服务过程中使用得文档进行统一管理,达到充分利用文档提升服务质量得目得,确保运维资源符合运维服务得要求。文档资源包括运维体系文档、项目(软硬件)文档资料、服务质量管理文档以及服务报告文档等. 双方得职责为:XX企业:负责批准运维文档得更改、删除与发布.XX企业运维部组织编写及更改运维文档;批准文档得借阅申请。运维服务商负责更新文件目录清单;负责保管文档资料;负责备份文档资料;检查各类在用文件得有效性,防止使用无效版本;负责定期提交服务质量管理文档以及服务报告文档等。 文档资源管理流程图

文件编号: 受控状态:■受控□非受控 保密级别:□公司级□部门级■项目级□普通级 采纳标准:GB/T 19001-2000 idt ISO 9001:2000标准 质量记录编号: 分发编号: 电子运维知识库管理系统 建设方案 Version 1。0 2007。12 Written By Creator 湖南科创信息技术股份有限公司 All Rights Reserved

目录 1. 概述 ...................................................... 错误!未定义书签。 . 建设背景 ............................................ 错误!未定义书签。 . 建设原则 ............................................ 错误!未定义书签。 . 建设内容 ............................................ 错误!未定义书签。 2. 系统体系结构 .............................................. 错误!未定义书签。 3. 系统功能 .................................................. 错误!未定义书签。 . 现有知识库功能....................................... 错误!未定义书签。 知识维护....................................... 错误!未定义书签。 知识审核....................................... 错误!未定义书签。 知识发布....................................... 错误!未定义书签。 模板维护....................................... 错误!未定义书签。 知识检索....................................... 错误!未定义书签。 公告管理....................................... 错误!未定义书签。 . 新增数据节点说明..................................... 错误!未定义书签。 项目管理知识库................................. 错误!未定义书签。 专家服务知识库................................. 错误!未定义书签。 技术资料知识库................................. 错误!未定义书签。 故障案例知识库................................. 错误!未定义书签。 技术经验知识库................................. 错误!未定义书签。 . 搜索引擎改造说明..................................... 错误!未定义书签。 . 新增接口 ............................................ 错误!未定义书签。 总部EOMS故障工单转入接口...................... 错误!未定义书签。 省EOMS系统故障案例库导入接口.................. 错误!未定义书签。 知识库查询接口................................. 错误!未定义书签。 专业类型自动检索接口........................... 错误!未定义书签。 4. 系统软硬件平台方案......................................... 错误!未定义书签。 . 系统现状 ............................................ 错误!未定义书签。 服务器部署及网络拓扑........................... 错误!未定义书签。 设备部署....................................... 错误!未定义书签。

大数据时代应运而生的智能运维管理平台 序言:信息化建设至今,网络运维管理已经上升到一个全新的阶段,不仅仅局限于对服务器、设备的管理,更需要从设备到链路、从机房环境到应用服务直至网络全局的管理,智能运维大数据应运而生。 随着网络功能体系的完善与业务系统的不断增加,经常会出现业务系统运行太缓慢或影响工作效率,究竟是系统、操作、网络、服务器还是应用系统导致的问题呢,这个黑匣子里的数据、流向和峰值是否可以一目了然?而网络出现故障时,运维人员只能各个环节逐一排查,繁琐且耗时,且不符大数据时代的智能化趋势。 以上场景,国产运维厂商豪越创始人汪兆伟建议,可以引进一套智能运维大数据管理平台,帮助运维人员方便快捷地进行分析和管理,实时监控网络及设备性能,及时预警告警,在线查询数据报表,全面保障网络系统的稳定运行。智能运维大数据平台,至少需要满以下基本指标: 指标1:数据采集能力和设备兼容性 对于SNMP的支持程度可以体现平台的技术优良性,应支持市面上绝大多数设备的采集监控需求,无论面对怎样的网络环境,都能快速获取设备性能参数,进而有效管理;否则若数据采集都无法实现,管理就更无从下手。 指标2:故障及时告警及面板图可操作 当网络系统发生故障时,需第一时间发出告警,并通过性能分析发现当前异常设备,进而关联设备的物理拓扑图,并在物理拓扑图上确定其告警的重要等级;可直接对设备面板图进行操作,节省处理故障时间。

指标3:统一管理、智能运维 将所有网络管理要素纳入统一平台进行管理,可进行网络架构、设备、性能及应用的智能关联管理,避免出现分离、孤立的信息,帮助运维人员迅速定位问题根源。 目前以豪越HYDO为代表的智能运维大数据平台,采用国际工业标准,遵循IETF RFC 规范与被管对象进行标准化的、开放化的通信管理。 ●64位体系架构 采用主流的64 位CPU 架构,软件按照64 位操作系统特性进行专门设计,充分满足当前IT 环境需求。例如,网口流量数据指标采集支持64 位、存储,避免32位计数形式下,短时间内出现边界溢出的情况。 CPU 采用64 位架构时,操作系统可以直接管理更大的内存。进程地址空间更大,应用程序在进行大量数据采集,数据加工分析时,不会出现32 位计算时常见的内存空间不足情况。 ●采用Linux操作系统 采用工业界稳定的Linux 操作系统,相比Windows 操作系统具备高安全性、高稳定性、高性能、少病毒、少漏洞等特点,充分满足网管系统长时间连续性监控管理需求。 ●统一门户管理 统一门户(Portal)是一种Web应用,通常用来提供个性化、单点登录、聚集

大数据平台运维手册

目录 1.简介 (1) 1.1.大数据平台介绍 (1) 1.2.大数据平台Manager介绍 (2) 2.使用前的准备 (3) 2.1.客户端硬件配置 (3) 2.2.软件环境要求 (3) 2.3.支持的浏览器 (3) 3.系统检查 (4) 3.1.管理员服务器IP,端口及账号权限检查 (4) 3.2.管理员服务器空间检查 (4) 4.开始集群管理 (5) 4.1.TDH Manager的基本操作 (5) 4.1.1.启动和停止TDH Manager (5) 4.1.2.终止TDH Manager进程 (6) 4.1.3.重启大数据平台-manager和agent (6) 4.1.4.TDH Manager登入和登出 (6) 4.1.5.TDH Manager语言选择 (7) 4.1.6.TDH Manager用户信息登记和更新 (8) 5.创建集群服务 (10) 5.1.创建集群 (10) 5.2.集群服务的添加、删除 (13) 6.管理菜单 (17) 6.1.节点管理 (17) 6.1.1.添加节点 (18) 6.2.用户管理 (22) 6.2.1.管理用户 (23) 6.2.2.管理用户组 (33) 6.2.3.管理用户角色 (35) 6.3.日志查询 (43) 6.4.审计查询 (44) 6.5.NTP管理 (45) 6.6.许可证管理 (46) 6.7.Guardian服务监控 (48) 6.7.1.Guardian服务的角色 (49) 6.7.2.Guardian服务的配置 (50) 6.7.3.Guardian服务操作的监控 (51) 6.8.备份与恢复 (51) 7.Zookeeper的运维 (53) 7.1.ZooKeeper服务的管理 (53) 7.1.1.启动、停止、删除Zookeeper服务 (53) 7.1.2.配置服务 (54) 7.2.ZooKeeper服务的监控 (54) 7.2.1.CPU使用监控 (54)

第1章信息系统运行保障方案 1.1统一服务台建设 提供统一报障电话,统一报障、统一维修接口,XX企业可以通过统一的报障电话申请服务、查询服务处理进程,跟踪处理进度,确保服务时效、控服务质量、调查用户满意度。这个统一的服务接口,在国际上有个标准的称呼:服务台(Service Desk)。我们将为XX企业建立统一服务台,提供优质、专业的报障受理、跟进服务; 服务台总体架构如下: 服务台(服务台)在服务支持中扮演着一个极其重要的角色。完整意义上的服务台可以理解为其他IT 部门和服务流程的“前台”,它可以在不需要联系特定技术人员的情况下处理大量的客户请求。对用户而言,服务台是他们与IT 部门的唯一连接点,确保他们找到帮助其解决问题和请求的相关人员。 服务台不仅负责处理事故、问题和客户的询问,同时还为其它活动和流程提供接口。 这些活动和流程包括客户变更请求、维护合同、服务级别管理、配置管理、可用性管理和持续性管理等,服务台还负责事件快速响应,使用已知问题、已知事件知识库对终端用户的突发事件予以快速恢复或规避事故发生。 1.2建立文档管理制度 文档管理的目标是通过对运维服务过程中使用的文档进行统一管理,达到充分利用文档提升服务质量的目的,确保运维资源符合运维服务的要求。文档资源包括运维体系文档、项目(软硬件)文档资料、服务质量管理文档以及服务报告文档等。 双方的职责为:XX企业:负责批准运维文档的更改、删除和发布。XX企业运维部组织编写及更改运维文档;批准文档的借阅申请。运维服务商负责更新文件目录清单;负责保管文档资料; 负责备份文档资料;检查各类在用文件的有效性,防止使用无效版本;负责定期提交服务质量管理文档以及服务报告文档等。 文档资源管理流程图 文档资源管理的工作程序 文档资源管理包括对以下五类文档进行管理: ●运维文档:指运维体系文档,包括运维手册、程序文件、相关支持文件及表单格式等。 ●项目文档:指交付运维的软硬件系统相关的文档。 ●质量管理文档 ●服务报告文档 ●其他文件资料:指文件、传真、外来资料等。

大数据运维管理平台主要有两个作用,一个是批量部署;另一个是集群配置。 一、大数据运维管理平台批量部署 我们都知道大数据本身是一个分布式的系统,因此在安装时,需要对每一个节点进行组件的安装,并且由于是开源软件,其安装过程相对比较复杂,大数据每个组件都需要做很多的配置工作,这一点相信各位深有体会。DKH 提供了DKM 来自动化安装部署大数据。大大缩短了大数据的安装时间,同时也简化了安装大数据的过程。 自动化安装的过程如下: 1.安装环境准备,下载DKM 以及DKH 的安装文件,安装JDK,yum 等基本软件。 2.挑选一台节点,安装DKM ,用户只需要启动安装脚本即可,通常情况下几分钟就能够完成。 3.DKM 是一个web 应用,提供了基于浏览器的界面,用户可以通过浏览器可视化的进行DKH的安装部署。 4.通过DKM 界面,添加其他需要的安装的节点,选择要安装的大数据组件,以及每个节点承担的角色,选择安装,DKM 会自动地将需要安装的软件分发到对应的节点,并完成安装。 5.当所有节点的软件都安装完成之后,DKM 会启动所有的服务。从上述的安装过程可以看出DKH 的安装主要体现两个特点,批量化以及自动化。只需要在其中一个节点完成,

其他节点都可以进行批量化的自动安装。 二、大数据运维管理平台集群配置 1.可视化参数配置界面。大数据包含许多的组件,不同的组件都包含各种各样的配置,并且分布于不同的主机之上。DKM 针对这种情况提供了界面化的参数配置功能,并且能够自动的部署到每个节点。 2.高可靠配置。DKM 对关键的组件使用HA部署方案,避免单点失效的发生,同时DKH 对于组件的异常错误提供了自动恢复处理,最大限度的保证服务的可靠性。

第1章信息系统运行保障方案 1.1 统一服务台建设 提供统一报障电话,统一报障、统一维修接口,XX企业可以通过统一的报障电话申请服务、查询服务处理进程,跟踪处理进度,确保服务时效、控服务质量、调查用户满意度。这个统一的服务接口,在国际上有个标准的称呼:服务台(Service Desk)。我们将为XX企业建立统一服务台,提供优质、专业的报障受理、跟进服务; 服务台总体架构如下: 服务台(服务台)在服务支持中扮演着一个极其重要的角色。完整意义上的服务台可以理解为其他IT 部门和服务流程的“前台”,它可以在不需要联系特定技术人员的情况下处理大量的客户请求。对用户而言,服务台是他们与IT 部门的唯一连接点,确保他们找到帮助其解决问题和请求的相关人员。 服务台不仅负责处理事故、问题和客户的询问,同时还为其它活动和流程提供接口。 这些活动和流程包括客户变更请求、维护合同、服务级别管理、配置管理、可用性管理和持续性管理等,服务台还负责事件快速响应,使用已知问题、已知事件知识库对终端用户的突发事件予以快速恢复或规避事故发生。 1.2 建立文档管理制度 文档管理的目标是通过对运维服务过程中使用的文档进行统一管理,达到充分利用文档提升服务质量的目的,确保运维资源符合运维服务的要求。文档资源包括运维体系文档、项目(软硬件)文档资料、服务质量管理文档以及服务报告文档等。 双方的职责为:XX企业:负责批准运维文档的更改、删除和发布。XX企业运维部组织编写及更改运维文档;批准文档的借阅申请。运维服务商负责更新文件目录清单;负责保管文档资料;负责备份文档资料;检查各类在用文件的有效性,防止使用无效版本; 负责定期提交服务质量管理文档以及服务报告文档等。 文档资源管理流程图

2017年第11期 信息通信2017 (总第 179 期)INFORMATION&COMMUNICATIONS(Sum.No 179)基于大数据的智能运维管理系统研究与实现 花爱 (普夭信息工程设计服务有限公司,北京100088) 摘要:随着企业r r架构的不断扩展,服务器、存储设备的数量越来越多,网络也变得更加复杂,特别是分支机构众多的大 型企业或垂直层级较多的政府单位,这种情况更加突出明显。为了保障良好的用户体验和数据时效性,运维工作变得越 来越艰巨。虽然运维工作已经借助相应的自动化监控工具,但IT监控系统每分钟要进行上万个數据采集,对采集的海 量数据进行处理和分析才是对IT运维工作最大的挑战。 关键词:智能运维;大数据;自动化运维 中图分类号:TM76 文献标识码:A文章编号:1673-1131(2017 )11-0239^2 0引言 金融行业IT信息化建设领先于国内其它行业,随着IT信 息化的高速发展,国内金融行业IT己经成为重资产,更成为金 融行业经营命脉的重要保障。业务持续性无中断要求对IT管 理提出了更高的诉求?随着大数据概念的提出,I T的运维管 理己经从系统化、集约化、数据化向智能化发展?基于大数据 的一体化智能运维平台提供了从基础设施、数据库中间件、系 统应用进程到业务交易系统的一整套运维管理解决方案。布式结构部署,适用于大型网络环境下的系统监控。系统监 控软件简单易用,通过该系统可以监控数据中心各种资源的 使用情况,提供资源的性能数据,有效地帮助企业解决各种基 础设施的监视与管理难题。不但提供了丰富灵活的报表功能,帮助企业分析资源运行状况,预测系统性能瓶颈;同时提供多 种通知方式,当被监控资源出现异常,保证管理人员能随时、随地了解整个系统的运行状况;确保企业信息系统髙效稳定 的运行,从而保证了信息系统对业务的支撑,使企业良好运转。系统架构: 1传统运维与大数据运维优缺点 运维管理的主要目的是保障基础设施的可用性及降低风 险,提高资产的利用率,降低能耗消耗和运维成本,提高服务 水平以及数据中心的效率和效益。 (1) 传统运维存在的问题:日益增长的人力成本;运维标准 的管理诉求;运维服务效率低下;故障发现不及时、处理不到 位、事后无诊断。 (2) 大数据运维系统特点?海量存储:可以高效地存储、检 索、调用任一时间采集的IT资源数据和告螫;关联分析:可以 针对设备、指标、阈值等不同维度的数据进行关联性分析;阈 值分析:可以指定对任意指标进行阈值分析,査看我们设置的 管理策略是否合理,以及这些指标引起设备异常的概率;根源 分析:可以针对不同资源进行异常犾态的根源分析,査看引起 异常的指标类型及概率;健康评分:可以对海量数据进行综合 分析,给出每个资源的任一指标对于我们业务影响大小的量 化参考值,并对资源进行健康度评分。 (3) 运维管理发展趋势。经济性:资源如何有效利用,包 括网络、空间、动环资源:如何缩减运行费用,包括能源、维护 人员。灵活性:如何识别及降低过度部署和冗余;如何灵活扩 展容量(空间、制冷和供电);如何更快响应业务。可用性:如 何实现精细化管理;如何及时排除隐患,处理复杂故障;如何 实现动态资源管理和电子流管理。管理性:需要有效的数据 分析支撑决策和规划:如何实现系统一体化,统一协作、快速 响应;如何满足大客户服务等级协议和自服务管理。 建设“集中化运维、一体化管理、智能化分析、流程化控制” 的it支撑系统,才能实现智能化运维的管理目标,减少运维人■E歸襌涛H n n l n l n l C S29 ■QgglQggl CS3B tU 4^系统实现了对客户IT系统的使用状况进行统一综合的管 控和分析,将复杂化的运维管理工作变得简单化、人性化,规 范化、自动化。其强大的技术实力和严格的开发管理机制保 证了系统运行的稳定性、功能的全面性和扩展性,真正打造了 满足客户需求的I T运维管理平台。对客户的I T系统进行 7*24小时的全面监控,提供了 r r系统的性能监控、性能分析、 故障监控、故障分析及定位、资产及配置文件的管理、强大的 报表分析等功能,保证了客户日常运维工作的顺利开展,提升 了运维工程师的网络管控水平,降低了管理层的日常工作量, 为决策层提供了可靠的数据依据。 3系统功能架构 系统采用多层架构、模块化的设计模式,系统功能全面, 模块功能独立,可根据不同客户需求自由组合,同时服务运营 支撑系统具备良好的扩展性,通过第三方数据整合接口和数 据总线以及门户Protal,与第三方产品可进行无缝集成。 员和维护成本,优化资源管理,提升运维效率。4系统技术架构 2系统组织架构 —体化智能运维管理系统能够实现对数据中心IT基础设 施进行集中监控,包括存储、主机系统、网络服务、数据库、应 用服务器、中间件以及应用软件等。系统监控软件可采用分 采用J2EE架构,全图形化B/S模式,可移植性强,可运行 于不同操作系统(Windows、Red Hat Linux等),真正实现了跨 平台部署。统一开放的监控管理平台支持多数据库(MySql、Oracle等)、多操作系统,为第三方系统提供多种集成接口。 239

HYDO智能运维大数据管理平台 产品介绍 目录序列 关于豪越 七十载披荆斩棘,四十年翻天覆地。新时代的中国,在各行各业所取得的巨大创新成就,正深刻改变着社会,影响着世界。党的十九大报告指出,创新是引领发展的第一动力。 以“创新、品质、诚信、共赢”为经营理念的豪越科技有限公司,在万物互联、资源整合的大数据时代中应运而生,紧随国家发展战略,勇于创新、锐意进取,已取得50多项荣誉资质和120多项技术专利,立足中国,服务全球。豪越已在多个国家和地区开设有分公司和办事处,为政府、教育、军工、金融、医疗、电力等行业的信息化发展做出了卓越贡献。 秉承“让运维更简单,数据更安全”的初心,豪越在IT智能运维、视频运维、动力环境、IT资产管理、IT流程管理、3D可视化、数据资源池等领域,研发出了诸多引领行业发展的核心产品,并陆续推出数据中心建设与扩容、智慧园区、智慧校园、智慧营院、智慧城市等信息化整体解决方案。 以HYDO为代表的豪越自主研发的智能运维大数据管理平台,开创性实现了大规模数据中心的统一集中管理、实时监控、安全高效运行和自动化运维。HYDO涵盖网络、动力环境、IT基础设施、IT硬件、软件、业务系统、视频、云服务等;可实现多类型指标的精准管理和可视化呈现;具有故障自愈功能,开启全天候无人值守模式;开创移动运维解决

方案,大幅降低运维成本;基于大数据平台的分析与挖掘,构建Al平台助力用户实现智能化运维。 “为客户创造价值、助员工成就梦想”,600多位豪越人始终不忘初心、牢记使命,用艰苦奋斗与持续创新为全球65个国家16000多位客户创造了非凡的价值,也为自己的人生书写了绚烂的华章。面向未来,九万里风鹏正举、豪越人砥砺前行,用创新驱动发展、用匠心做好产品、用恒心做好服务,豪越将努力为广大客户创造更多的价值、为中华民族伟大复兴的中国梦做出更大的贡献、为人类社会的科技进步做出更高的成就! 护航大数据时代,引领全智能未来----豪越! HYDO产品系列 豪越陆续推出IT智能运维、视频运维、动力环境、IT资产管理、IT流程管理、3D可视化等核心产品, 各产品系列既可作为独立模块与豪越HYDO智能运维大数据管理平台相互耦合,又可作为独立系统单独运行。 1、HYDO智能运维大数据管理平台 2、视频监控运维系统 3、动力环境系统 4、IT资产管理系统 5、IT流程管理系统 6、3D可视化管理系统 产品技术架构

知识库 网络故障时 排除故障的流程 ?首先确认是不是名称解析出了问题 #dig hostname ?是不是IP或者网卡的问题 #ifconfig #查看网卡的设置和网卡的IP地址 ?若网卡正常 还有正确获取IP地址 则可能是Default gateway 网关 不正确 #route –n #列出系统里所有的路由记录 ?如果以上设置都正确 则看看内核里是否载入了网卡驱动 #cat /etc/modprobe.conf #查看是否载入网卡驱动 在这个文档中 可以确定是否载入了正确的网卡驱动 并确认网卡有没有对应到eth开头的别 名 ?如果以上都不是 则重新启动网卡 看看有没有错误提示 #ifdown eth0 #停用网卡 #ifup eth0 #启动网卡 在正常情况下 无论是停用或是启动 系统都不会提示任何信息 软件包类故障——rpm数据库损坏 故障原因;非正常关机、误删除运行中的程序文件 RPM数据文件被误写或删除 故障现象: 不能正常查询rpm包信息rpm -ql ; rpm -qa ..... 无法安装、升级或卸载软件包等rpm -U ; rpm -i...... 解决方案 重建RPM数据库 重建命令 rpm --rebuilddb 或rpm --initdb

磁盘资源耗尽故障 故障原因: one :磁盘空间已被大量的数据占满 空间耗尽 two :虽然还有可用空间 但文件数i节点耗尽 故障现象: one :无法写入新的文件 提示―…: 设备上没有空间‖two : 部分程序无法运行 甚至系统无法启动 解决方案 1. 清理磁盘空间 删除无用、冗余的文件 2 .转移或删除占用大量i节点的琐碎文件 3. 进入单用户模式、急救模式进行修复 4.用户设置磁盘配额---系统管理中必做的

IT信息系统运行维护管理制度

第一章总则 第一条.为规范信息系统的运行维护管理工作,确保信息系统的 安全可靠运行,切实提高生产效率和服务质量,使信息系统更好地服务于 生产运营和管理,特制订本管理办法。 第二条.本管理办法适用于及其分支机构的信息系统,各分支机 构和各部室可根据本办法制定相应的实施细则。 第三条.信息系统的维护内容在生产操作层面又分为机房环境维 护、计算机硬件平台维护、配套网络维护、基础软件维护、应用软件维护 五部分: 1、计算机硬件平台指计算机主机硬件及存储设备; 2、配套网络指保证信息系统相互通信和正常运行的网络组织,包括联网所需的交换机、路由器、防火墙等网络设备和局域 网内连接网络设备的网线、传输、光纤线路等。 3、基础软件指运行于计算机主机之上的操作系统、数据库软件、中间件等公共软件; 4、应用软件指运行于计算机系统之上,直接提供服务或业务的专用软件; 5、机房环境指保证计算机系统正常稳定运行的基础设施,包含机房建筑、电力供应、空气调节、灰尘过滤、静电防护、消 防设施、网络布线、维护工具等子系统。 第四条.运行维护管理的基本任务: 1、进行信息系统的日常运行和维护管理,实时监控系统运行状

态,保证系统各类运行指标符合相关规定; 2、迅速而准确地定位和排除各类故障,保证信息系统正常运行,确保所承载的各类应用和业务正常; 3、进行系统安全管理,保证信息系统的运行安全和信息的完整、准确; 4、在保证系统运行质量的情况下,提高维护效率,降低维护成本。 第五条.本办法的解释和修改权属于。

第二章运行维护组织架构 第一节运行维护组织 第六条.信息系统的运行维护管理遵循在统一的领导下,分级管理和维护的模式。作为信息系统维护管理部门,牵头组织分支机构实施信息系统的维护管理工作。原则上信息系统的维护工作应逐步集中。 第七条.信息系统的维护管理分两个层面:管理层面和生产操作层面。 1、在管理层面,为信息系统维护管理部门,负责全行范围内信息系统的维护管理和考核。 2、在生产操作层面,信息系统维护部门是运行中心和分支机构设置的实体或虚拟的维护部门(或维护人员)。信息系统维护部门直接对信息系统维护管理部门负责,并接受信息系统维护管理部门的业务指导和归口管理。 第八条.分支机构信息系统维护部门(或维护人员)可根据维护工作需要,向申请抽调技术人员和业务人员临时组成虚拟团队,参加分支机构设备巡检,制定技术规范、作业计划、应急预案,编制技术方案、培训教材等,各单位应积极配合。 第二节职责分工 第九条.信息系统维护管理部门职责 1.贯彻国家、行业及监管部门关于银行信息系统技术、设备及质量管理等方面 的方针、政策和规定,组织制定信息系统的维护规程、维护管理办法和维护

目录 1、Orca-SCMDB (2) 1.1产品简介 (2) 1.2功能特点 (2) 1.3功能说明 (3) 2、ORCA-Radar (4) 2.1 产品简介 (4) 2.2隐患扫描指标 (5) 2.3扫描范围 (5) 2.4产品优势 (6) 2.5设备监控 (6) 2.6性能监控 (7) 3、IT运维大数据分析 (7) 3.1性能Top N (10) 3.2系统安全评测 (10) 3.3性能预测 (11) 3.4容量预测 (11) 3.5可靠性预测 (12)

智能维保Orca包括Orca-SCMDB(信息管理),Orca-Radar(隐患扫描),Orca-HHM (大数据分析),Orca-BSM(业务监控),Orca-ITSM(服务管理)等产品。 1、Orca-SCMDB 1.1产品简介 Orca-SCMDB(Super Configuration Management Database),IT运维管理系统是北京合力思腾结合近十余年的IT运维经验,以解决用户实际问题为根本目标,从实用性、易用性的角度出发,收集、索引和利用整个IT基础架构(服务器、存储、网络、数据库和中间件等)的所有数据,为运维和业务支撑提供精确的数据分析。 1.2功能特点 采用“动态建模”技术,支持资源库模型的自定义和灵活扩展,可统一管理各类IT资源目标 多维度、多视角管理整个IT架构,有效反映IT资源之间复杂的关联关系,帮助用户梳

理IT架构内部关联和相互影响 通过自主开发的数据采集引擎(Shell命令集库),经Telnet/SSH协议,完全实现IT 配置信息的自动采集和动态更新 提供精细的IT性能分析和趋势预测,为业务系统的优化、升级、扩容提供数据基础和理论依据 1.3功能说明 动态建模与数据采集 从用户自己的管理思路和管理流程出发,自定义资源库动态模型。从业务角度建立“业务部门>业务系统>基础架构”的业务数据模型,从维护角度建立“网络(或机房)>设备类型>设备>关联业务”的运维数据模型,以及其他任意角度建立数据模型。独立的数据采集引擎,支持Agent和非Agent两种采集方式,支持格式化数据的批量导入。 多视角视图

运维服务体系 1

运维服务体系 整理编辑: 一、运维服务体系建设原则 运维服务体系建设的原则有以下几个方面。 一是以完善的运维服务制度、流程为基础。为保障运行维护工作的质量和效率,应制定相对完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度和流程的规范和约束下协同操作。 二是以先进、成熟的运维管理平台为手段。经过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效率。 三是以高素质的运维服务队伍为保障。运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作二、运维服务体系的总体架构

运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素。制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。 三、运维服务体系建设内容 1.运维管理制度建设 总结现有的运维管理经验,相关运维标准,结合当前的实际情况,统一制定运维管理制度和规范。经过定期和不定期的检查,促进各项制度规范在数据中心的贯彻落实,从而建立起全辖统一、规范的运行维护管理工作方式。同时,随着信息化建设的不断发展,也要确保各项制度的及时更新。制度体系内容要涵盖机房管理、网络管理、资产管理、主机和应用管理、存储和备份管理、技术服务管理、安全管理、文档管理以及人员管理等类别。各类制度具体内容因需要而 定,如网络管理制度需覆盖网络的接入管理、用户管理、配置管理及网络日常运行管理和应急处理等。安全管理制度需覆盖包括机房设施、网络、主机、数据库、中间件、应用软件、数据信息的安全管理、其它机密资源和人员的安全管理以及安全事件的应急处理等。

技术 Special Technology D I G I T C W 专题 58DIGITCW 2019.09 整体而言,我国互联网金融的发展起步较晚,运维体系有很大的改进空间,将大数据技术融合到智能运维体系中,可以挖掘数据的潜在价值,并且实时进行监控,做好事前预测和事故处理工作。针对传统运维方式的不足之处,本文从新的角度对智能运维体系进行了研究,具有一定的积极意义。 1 大数据分析技术智能运维体系的构建 目前,IT 运维环境日益复杂,需要管控的对象日益庞大,传统的运维体系在应用过程中显得捉襟见肘,所以需要应用大数据分析技术构建智能运维体系。1.1 采集 本文以某工商银行的管理系统为例,并且采访了相关的专家,根据专家的意见,确定了模型的数据范围,比如登录日志、交易日志等,以2017年1~12月的数据为主要参考对象,在此基础上进行了加工处理,并且分为登录、登出、失败、交易和异常五大指标,然后对这些指标进行汇总,建立了相关的时间序列。1.2 探索 在对数据进行探索时,需要将数据进行分类,比如分为训练集、验证集等,并且对五大指标进行观察,可以选择10分钟为一个时间粒度。经过探索发现,工作日的上午和下午都会有两个波峰,趋势相似,但是幅度有所区别,而非工作日,比如周末、法定假日等,交易量明显减少。如果系统出现故障,那么交易量会急速下降,而当故障解除后,交易量会逐渐回到正常水平。因为系统日志记录存在一定的误差,也没有对出现异常的原因进行分析,加上登录失败可能是由于密码错误引起的,所以本文以登录、登出和交易这三大指标为主要研究对象。 2 大数据分析技术智能运维体系的拓展 2.1 开发 首先,要对数据进行预处理和预分析,可以通过数据的集合,观察系统亚健康状态时变量的情况和特征,找到规律。一般而言,系统发生故障时,系统变量会有所降低,而且在故障发生之前,这种降低已经出现,只是比较缓慢,需要经过多个周期。 其次,要建立参考区间,对历史数据进行全面的分析,确定不同时间段内变量的波动区间。为了保证序列能够进行对比,我们需要将数据进行统一的处理,形成标准数据。公式为Vit=Iit/ηit ,其中Iit 指的是t 时刻第i 个变量的输入值,而ηit 指的是标准化系数,也就是均值,而Vit 指的是经过处理后的变量值,也是频数相对率。 再次,因为变量标准化需要获取当日均值,而在进行实时监控时,要引入因子指标,计算出不同时刻频数占总频数的比值。一般而言,上班时间开始时,系统的变异系数相对较低,约等于0.2。 最后,在预警信号的产生方面,需要对变量的相对值和边界值进行加权计算,这样能够提高信号的准确性。对于一些突发式的故障或者是黑客的攻击等,该系统并不适用,所以在应用的过 程中,还要具体情况具体分析。2.2 检验 在对智能运维体系模型进行检验时,需要做好概念的分析工作,比如系统故障,假设15个工作日,其中有8次波形异常,而系统亚健康状态发生时间在波形异常之前,如果缺乏记录,就会影响频数最低点记录的真实性,而且会产生较大的误差。至于波形异常,包括波形显著上升、显著下降和平稳时间过长三类。经过检验,发现故障点共有13个,有10次识别成功并且进行了预警,而波形异常情况共有20次,有18次成功识别。在对信号进行统计后,发现智能运维体系的准确率为77%,漏报率为23%,而且预报的平均时间比故障时间提前了将近半小时,能够很好地保证系统运行的效果,并且为故障的及时解决争取到了宝贵的时间[1]。2.3 应用 大数据分析技术智能运维体系的流程如图1所示,在模型应用过程中,发现能够准确预测和判断系统的亚健康状态,尤其是在2017年10月份,系统运行出现高峰,在这一期间运维体系发挥了得天独厚的优势,对故障进行了多次预警,帮助和协调工作 人员顺利完成维护工作,减少了可能出现的损失。 图1 大数据分析技术智能运维体系 3 大数据分析技术智能运维体系的优化 为了保证智能运维体系达到最佳效果,对所有故障都能够进行准确的判断和预警,需要从以下三方面入手: 第一方面,扩大数据来源。在数据采集方面,要打破纵向和横向的局限,扩大数据的周期,比如选择十一五期间某银行的数据,这样可以减少系统用户行为受到季节或者是特殊日期的影响,从而保证结果的真实性。另外,可以对数据进行分类,分为管控数据、配置数据、作业数据、容器数据以及集成数据等,同时还要做好故障的定位工作。 第二方面,丰富算法规则。可以引入新的变量,然后结合关键指标的变化情况,建立决策树或者是使用神经网络算法,提高预测结果的精度,降低外界因素的干扰。如果输入和输出存在正相关的关系,那么就可以对向量进行分解,然后调节各个分量之和的参数,让最终结果能够接近真实结果,如图2所示。 第三方面,结合专业经验。在对数据进行定量分析和定性分析时,不能停留在表面,而是需要与大数据领域的专家进行沟通和交流,并且根据故障发生的场景,总结出故障的特点,然后形成模型,这样能够保证当再次发生同样的故障时,可以及时采取 探索基于大数据分析技术的智能运维体系 钟茂年 (中兴通信股份有限公司,深圳 518057) 摘要:新的时代背景下,大数据分析技术的价值日益凸显,在社会各领域发挥着积极的作用。本文以银行为例,探讨了基于大数据分析技术的智能运维体系,从构建、拓展、优化和保障四方面进行了分析,希望能够为相关的工作提供一定的参考,促进智能运维体系的良好发展。 关键词:大数据;智能运维;故障;信号doi :10.3969/J.ISSN.1672-7274.2019.09.039中图分类号:F832.2 文献标示码:A 文章编码:1672-7274(2019)09-0058-02

中国人民银行省级数据中心IT运维服务体系建设,应包含运维服务制度、流程、组织、队伍、技术和对象等方面的内容。同时结合人民银行的业务特色,整合运维服务资源,规范运维行为,确保服务质效,形成统一管理、集约高效的一体化运维体系,从而保障人民银行数据集中条件下网络和应用系统安全、稳定、高效、持续运行。 一、运维服务体系建设原则 运维服务体系建设的原则有以下几个方面。 一是以完善的运维服务制度、流程为基础。为保障运行维护工作的质量和效率,应制定相对完善、切实可行的运行维护管理制度和规范,确定各项运维活动的标准流程和相关岗位设置等,使运维人员在制度和流程的规范和约束下协同操作。 二是以先进、成熟的运维管理平台为手段。通过建立统一、集成、开放并可扩展的运维管理平台,实现对各类运维事件的全面采集、及时处理与合理分析,实现运行维护工作的智能化和高效率。 三是以高素质的运维服务队伍为保障。运维服务的顺利实施离不开高素质的运维服务人员,因此必须不断提高运维服务队伍的专业化水平,才能有效利用技术手段和工具,做好各项运维工作。 图1 运维服务体系架构

二、运维服务体系的总体架构 运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素,其总体架构如图1所示。制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。 1.运维服务制度和流程 为确保运维服务工作正常、有序、高效、协调地进行,需要根据管理内容和要求制定一系列管理制度,覆盖各类运维对象,包括从投产管理、日常运维管理到下线管理以及应急处理的各个方面。此外,为实现运维服务工作流程的规范化和标准化,还需要制定流程规范,确定各流程中的岗位设置、职责分工以及流程执行过程中的相关约束。 2.运维服务组织和队伍 人民银行科技部门根据其运维服务工作的内容和流程确定各项工作中的岗位设置和职责分工,并按照相应岗位的要求配备所需不同专业、不同层次的人员,组成专业分工下高效协作的运维队伍。分行科技处负责数据省级集中处理的应用系统和本机构开发的应用系统部署和运行维护,承担辖内网络的运行管理。辖内各中支和支行科技人员承担本行系统运行维护和故障处理。 3.运维服务工作流程 为保障运行维护体系的高效、协调运行,应依据管理环节、管理内容、管理要求制定统一的运行维护工作流程,实现运行维护工作的标准化、规范化。其环节包括事件管理、问题管理、变更管理和配置管理。 4.运维技术服务平台 运维技术服务平台包含实施运行维护和技术服务的各种手段和工具,通过技术手段固化标准化的流程、积累和管理运维知识并开展主动性运维工作。 三、运维的范围 1.全国集中的核心应用系统 全国集中的核心应用系统的运维由总行负责,分行中心负责业务咨询工作和向总行反馈使用情况等。 2.分行部署的核心应用系统 分行部署的核心应用系统的运维由分行中心负责,分行中心负责技术性维护,业务维护由分行业务部门负责。 3.分行自建系统

相关文档
相关文档 最新文档