当前位置：文档库 › 杭州正非科技视频监控系统整体运维解决方案

杭州正非科技视频监控系统整体运维解决方案

视频监控系统整体运维解决方案

杭州正非科技有限公司

联系人：涂经理

手机：189********

1、背景 (4)

2、解决方案概述 (5)

3、总体架构设计 (5)

4、功能方案 (7)

4.1、数据采集层 (7)

4.1.1、网络监测 (7)

4.1.2、应用与存储监测 (10)

4.1.3、视频图像质量诊断 (13)

4.1.4、传输设备监测 (14)

4.1.5、分布式采集、集中管理 (14)

4.1.6、统一事件平台 (15)

4.1.7、告警监控台 (16)

4.1.8、综合监控展示 (17)

4.2、资源数据库 (19)

4.2.1、数据库建模 (19)

4.2.2、配置变更控制 (19)

4.2.3、配置可视化浏览器 (19)

4.2.4、分区化、独立管理模式支撑 (20)

4.2.5、高性能、大容量系统设计 (20)

4.3、运维服务管理层 (20)

4.3.1、值班服务台 (20)

4.3.2、事件管理 (21)

4.3.3、巡检管理 (21)

4.3.4、值班和值班日志管理 (21)

4.4、综合管理层 (22)

4.4.1、统一报表管理 (22)

4.4.2、统一访问 (22)

5、部署方案 (22)

5.1、部署模式 (22)

5.2、运行环境配置 (22)

1、背景

随着IT系统和安防系统日趋庞大和复杂，整体运维管理工作面临着越来越大的压力和挑战。信息技术部门和运维部门总是被动的管理网络、服务器、硬件，无法快速定位故障，重复维修，运维成本高而效率低下。随着监控系统的加入，加剧了以上这些问题的严重性，所以监狱/公安/交警部门需要高效、专业的IT运维管理系统和安防监控运维系统相结合的大运维管理系统。

正非科技多年致力于大运维系统的研究与实践，自主研发IT运维系统和安防监控运维系统相结合的大运维系统，可以有效的帮助监狱/公安/交警部门的管理人员对监狱/公安/交警部门的设备进行管理和控制，大大提高监狱/公安/交警部门的设施的安全性。

大运维管理平台主要包括以下四部分内容：

创建资源数据库，理清资源。

1、理清资源是实施有效运维的前提。创建资源信息数据库，实现对外场设备（包括摄像头、视频编解码设备、立杆、取电方式等）、传输设备（光纤收发器/光端机、GPON/EPON 等）、内场设备（网络设备、主机/虚拟机、存储设备、安全设备、内场维护人员、设备生产厂家和集成商技术支持人员、最终用户等）、虚拟资源（IP地址、文档资料等）等的统一管理。

资源数据库管理包括从设备登记、设备变更、设备维修、设备报废的整个过程，以便更好地跟踪和管理用户所有的资产。

2、集中监控，实现全网自动化巡检管理。

建立集中监控，自动巡检，及时向值班人员报告结果。

通过集中监控，定期对视频前端设备（摄像头、卡口、编解码器），传输设备（光纤收发器、EPON等），内场设备（网络与安全设备、主机/虚拟机、存储设备）、机房动力环境等进行可用性和健康度检查，及时发现故障并快速定位故障设备，显著降低运维人员的工作量，提高管理效率。

3、建设符合监狱/公安/交警部门的特点的运维管理系统的设计，规范日常值班与维护工作。

结合监狱/公安/交警部门的的业务特点，根据运维管理体系的设计，规划日常值班与巡检管理、故障修复管理、视频资源配置管理等运维标准化流程，实现日常运行维护工作的规

范化、标准化，并沉淀运维知识与经验。

4、自动考核统计，量化运行维护质量。

基于运维管理平台基础数据进行统计分析，量化前端设备的在线率、量化运维人员的工作量、量化各类设备的综合可用率等，从宏观上综合分析所有监测对象的运维状况，并研判系统运维发展趋势，为业务系统优化、运维规划提供依据，为领导层进行系统升级、改造、扩容提供更加有效的工具，为业主单位对承接单位或者维护单位团队的运维服务考核提供数据支撑。

2、解决方案概述

?全面解决方案

产品可按照用户需求和维护特点进行选配，满足用户在不同阶段的运维特点。

?开放性接口设计

产品提供了丰富的API开放接口，可以方便的实现与第三方管理产品的集成和整合，符合国际/国内的标准。

?跨平台系统部署

纯B/S架构，具有良好的跨系统性。

?组件式平台搭建

可以更具自身业务特点，选择部署一个或多个系统功能模块。同时可以根据业务需求变化，通过部署新模块的方式对系统功能进行扩展。

3、总体架构设计

产品构架分四层：数据采集层、资源数据库、运维服务管理层、综合管理层。

图1、总体架构

?数据采集层

主要实现对生产环境中I基础设施的集中监控管理，包括了对视频前段设备、传输设备、网络设备、主机/虚拟机、存储设备、安全设备、视频质量等性能采集和时间处理，并利用监控可视化平台提供可视化展现，同时支持与第三方系统（如机房动力环境系统、第三方网管系统等）集成，方式可以是数据集成和界面集成。

?资源数据库

帮助用户建立统一的资源数据库。通过一系列业务建模、自动采集、调和、变更控制等手段，保证生产环境中配置项的完整性和精准性，为上层服务流程提供数据支撑。

?运维服务管理层

通过规范服务流程和技术服务工作，建立一套标准的运维服务流程，围绕值班管理、服务台、事件管理、巡检管理等ITIL最佳实践，进行运维服务的流程化、规范化管理。通过完善知识库建设，实现知识库共享，从而提高信息服务效率，提高用户的满意度。

?综合管理层

包括了统一运维门户、报表平台、全文检索、权限管理等主要模块，目的是保证平台不同角色的运维人员可以通过浏览器访问到跟自身职责对应的功能和视图，是信息的集中呈现窗口和日常工作的平台。

4、功能方案

4.1、数据采集层

4.1.1、网络监测

能够持续自动地发现、识别和跟踪被管范围内的网络设备，自动计算出网络拓扑连接，采集网络设备的运行状态和性能参数，全面、直观地反映出网络设备和线路的整体状态。网络监控管理系统功能模块主要包括网络故障监控模块、网络性能监控模块、网络拓扑管理模块等。

网络故障监控

网络故障监控模块实现对网络故障事件的监测和定位，实时采集故障信息，实时发现那些可能导致网络运行不正常的事件，并通过告警阀值设置、实时告警显示等，准确预警和定位网络中的故障。

网络故障事件可分为网络设备故障事件、重要网络链路故障事件、网络协议故障事件等。网络设备故障事件包括网络设备出现物理宕机（如停电等）、逻辑宕机（如误操作或负载引起宕机等）、网络设备硬件故障等事件。

对网络设备故障事件的监控手段支持主动和被动两种方式，一种是主动采集方式，使用snmp、ping、rping等协议采集网络设备重启后连续运行时间、网络设备可达性等信息，通过设定连续运行时间、设备响应时间等阀值，在超过阀值后产生网络故障事件报警；另一种是被动收集方式，通过采集网络设备syslog/trap发出的故障日志信息（网络交换机设备、路由器设备发出的故障日志、防火墙切换日志等），设定信息告警级别，产生网络故障事件监控报警。

重要网络链路故障事件包括网络设备连接重要网络链路的端口物理宕（端口物理故障等）、逻辑宕（误操作shutdown端口等）、重要网络物理线路中断等事件。对重要网络链路故障的监控手段主要有两种，一种是使用ping、rping等协议测试线路的联通情况；另一种是通过采集网络设备syslog/trap发出的设备端口故障日志信息，设定信息告警级别，发出重要网络链路故障的告警。

网络协议故障事件包括网络协议运行过程中，产生的运行故障（如ospf协议运行无法

到达full状态等），从而可能导致网络运行不正常的事件。对网络协议故障事件的监控手段主要是通过采集网络设备syslog/trap发出的网络协议故障日志信息，设定信息告警级别，发出重要网络链路故障的告警，或通过其他专门网络协议监控工具监控网络协议的运行情况，并通过对网络协议监控工具告警事件的处理、过滤、整合，将告警事件显示在统一的网络监控管理系统界面上。

网络性能监控

网络性能监控模块实现对网络基础设施环境性能的监控，定时采集网络性能信息，及时发现那些可能会导致网络服务质量出现明显下降的情况及故障隐患，并通过告警阀值设置、实时显示告警等，主动预警网络隐患；通过报表等工具，进行网络环境性能统计、性能趋势分析，为网络排错、网络优化、网络改造等提供依据。

根据网络监控对象，网络性能可分为网络设备性能、重要网络链路性能、网络协议性能等，网络性能主要指网络设备的CPU利用率、内存利用率、防火墙等网络安全设备的连接数、网络负载均衡设备的流量、重要网络链路的带宽利用率、Drop包率、Error包率、CRC 校验错误包率、网络协议的运行性能等。

对网络设备性能的监控手段，主要是通过snmp协议采集网络设备性能，设定性能阀值，产生网络设备性能监控报警，对网络整体运行环境进行预警。

网络拓扑管理

能够自动发现网络设备间的拓扑连接，并实时跟踪和更新网络拓扑变更信息，将网络拓扑重大变更，以告警事件方式发送给统一的运维监控系统予以展现。

拓扑发现

网络拓扑管理模块主要实现如下功能：

1、发现网络拓扑结构中所包含的主要网络设备的厂商的设备型号；

2、实时显示骨干网络的连通性；

3、发现和建立真实的网络连接关系，使网管系统能够真实的反映网络的实际连接状况，反映设备之间物理及逻辑的连接情况；

4、具备自动发现网络拓扑图和定制视图的功能；

5、支持灵活的拓扑视图定制功能，能够根据网络管理需要，通过过滤条件，灵活建立拓扑的逻辑图和子图；

6、网络拓扑管理模块生成的网络拓扑图中能够及时反映网络设备运行状态的变化，将设备产生的告警事件信息展现在网络拓扑图中；

7、自动网络拓扑的呈现能够根据用户的权限进行定制，不同的用户只能监控自己权限范围内的网络拓扑图；

8、网络拓扑管理模块能够建立网络资源数据库，对网络资源进行统一的管理。

协议分析

网络协议分析模块实现对网络流量状况的监控，通过专门的网络流量管理工具，根据源ip地址、目的ip、协议号、服务号、自治域号等采集重要网络链路流量、网络整体流量等信息，从业务、地域、用户多角度协助管理员分析用户网络流量行为，为网络排错、网络优化、

网络改造等提供参考依据。

4.1.2、应用与存储监测

实现了对主机（虚拟机）、数据库、中间件、实战应用、存储系统的故障监控和性能分析。

操作系统/虚拟机监控

支持广泛的操作系统类型，如HP-UX、IBM AIX、Solaris、Linux、Windows 2000/2003/2008、AS400等多种系统平台，同时支持ESX等虚拟化平台。

1、Windows和Unix系统的监控：

(1) CPU利用率，显示系统、用户、空闲时间的百分比；

(2) 虚拟内存(Virtual memory)利用率；

(3) 文件系统使用情况，显示磁盘空间使用情况；

(4) 监视文件系统的使用率(空间使用率及I节点使用率等)，当使用率超过特定阈值时向系统管理员报警；

(5) 日志文件的变化情况，可跟踪操作系统、数据库及用户应用系统的日志文件，根据日志中出现的特定信息进行报警或自动执行用户预定义的动作；

(6) 进程的运行情况，如进程多个实例、子进程、进程对CPU/内存的占用情况等等。当重要进程因意外原因终止时，可根据需要自动重启，并将报警信息写入事件日志。

(7) 监控服务器网卡的运行状态和网络传输情况，如网卡是否DISABLE，网络是否中断或丢包等。

(8) 可通过开发接口监视业务系统或指定业务进程的运行状态。

2、虚拟机系统的监控：

由于服务器虚拟化具有节省电力、空间、管理成本，并能充分利用服务器计算资源和快速部署新业务的特点，虚拟化技术已经逐渐成为主流的计算解决方案。

支持对Vmware ESX/ESXi的深度监控。

(1) 系统发现的物理服务器和虚拟服务器及其相互之间的映射关系；

(2) 监控虚拟服务器配置、磁盘、网络、性能等指标，对可用性进行自动评估；

(3) 对虚拟服务器上部署的VM虚拟进行监测。

针对Vmware ESX/ESXi的监控有以下特点：

(1) 对从统一控制台即可监控虚拟机的所有物理和虚拟组件；

(2) 保证VMware ESX/ESXi主机服务器以及其中的虚拟机正常运行；

(2) 在影响到最终用户前，及时发现和排除问题；

(4) 采用无代理监控模式，易于配置和管理实现。

数据库系统监控

支持对包括Oracle、DB2、Sybase、Informix、MS SQL Server等在内的业界主流数据库。

数据库可用性监控：能够监控数据库引擎的关键参数，例如：数据库系统设计的文件存储空间、系统资源的使用率、配置情况、数据库当前的各种锁资源情况、监控数据库进程的状态等。在参数到达门限值时通过事件管理机制发出警告，通过短信、邮件报告给数据库管理员，以便及时采取措施。

数据库文件系统监控：对数据库设备或其敏感文件所在的文件系统进行监控。

空间使用情况：对数据库中的表空间进行监控，包括该表空间的分配空间、已用空间，和表记录数的情况。

数据库死锁：为避免死锁的发生，要求自动监控可用的锁资源，同时也对多个应用企图修改同一信息引起的锁冲突进行监控。

数据库进程的监控：监控数据库进程的状态，在数据库进程关闭时，给出严重警告。

中间件系统监控

支持对WebSphere、WebLogic等J2EE中间件系统的监控。

监控J2EE服务器的运行状况和资源消耗情况；包括服务器的连接数、服务器连接端口数、客户端的平均连接时间、客户端查询服务器状态的平均时间；

监控J2EE各部件（如JSP、Servlet、Java Bean、EJB）的性能和资源消耗情况；包括：Servlet、Java Bean、EJB中每个部件的平均执行时间、提交的交易请求情况等；

EJB、Servlet的多种统计数据，包括被分配的Beans、在使用的Beans、空闲的Beans、超时的Beans数、等待的Beans、Servlet响应时间；TOP N Servlet和JSP的详细信息；TOP N EJB的详细信息；TOP N EJB方法的详细信息。

监控Java虚拟机的运行情况，如：垃圾回收平均的持续时间、垃圾回收的次数、垃圾回收的累积时间、JVM堆栈中的可用内存、JVM使用的CPU时间、JVM线程使用的CPU时间、使用最多CPU时间的JVM线程使用的CPU时间等；

监控JDBC的运行情况，如可用的数据库连接数、连接上执行的SQL语句的效率等；

监控JMX的运行情况；

JMS服务器的状态及其详细信息，如消息大小、发送消息的数量、成功情况。

支持对WebSphere MQ的监控。

检查MQ通道运行状态；

检查MQ死信、错误队列深度变化情况；

队列的最大字节数，当前队列的字节数，当前队列的处理速度，队列管理器状态，错误日志。

存储监控

（1）支持的被监控的存储设备类型：

支持对业界主流厂家的SAN、磁盘阵列、磁带库等存储对象的监控。也支持通过与自带监控软件的接口进行设备监控。

（2）磁盘阵列监控主要功能：

支持符合SMI-S1.1规范的主流厂家（IBM、HP、EMC等）的磁盘阵列的集中监控和管理；

监控物理磁盘及磁盘控制器；

监控环境参数，如温度、风扇、电源电压等；

监控内部和外部的光纤连接；

监控逻辑磁盘、卷。

（3）SAN监控主要功能：

监控SAN的环境参数，如温度、风扇、电压电源等；

监控光纤交换机的连接情况，包括端口状态、light、连接情况和速率等；

报告每个光纤连接的利用情况，包括每小时或每天的数据流、带宽利用率等；

监控物理磁盘和逻辑磁盘。

服务可用性监控

实时监控各类实战应用和网络基础服务的可用性（如DNS、HTTP、HTTPS、TCP、FTP等），系统通过实时抽取业务系统用户访问次数，访问失败次数，访问超时次数等访问信息，支持阀值告警，当各业务系统的访问情况超出阀值时，在应用视图上通过颜色变化进行告警。

同时对应用系统模拟业务操作（如WEB模式的应用系统，通过模拟用户进行WEB登录的方式对系统运行是否正常、能否正常响应等进行测试），进行服务可用性和客户感受分析。

4.1.3、视频图像质量诊断

系统支持多种诊断检测项目，包括：

?清晰度检测由于镜头聚焦不当、镜头老化导致的视频模糊

?亮度检测视频画面过暗、过亮

?色彩检测由于摄像头故障导致视频画面大面积偏色

?对比度检测视频对比度异常

?噪声检测由于各种干扰引起的噪声

?叠加性干扰检测视频画面出现叠加线条干扰

?强横纹检测视频画面出现强横纹干扰

?稳定条纹检测视频画面出现滚动条纹干扰

?视频编码检测视频画面出现的马赛克（块）效应

?信号丢失检测由于摄像头故障、线路故障等引起的视频信号丢失

?冻结检测视频画面出现冻结异常

?抖动检测由于不稳定、外部强烈震动等引起的摄像头持续性抖动

?视频剧变检测视频由于受到强干扰而发生剧烈变化

?视频遮挡检测画面被恶意遮挡

?PTZ

检测球机的PTZ功能是

否正常

?流媒体/网络状况检测网络传输视频数据是否正常

支持全部的全球眼监控平台包括中兴，华为，科达、互信互通、中星电子、公众等。此外也支持主流的监控平台厂商，包括华三、中兴力维、贝尔、先进视讯、声迅电子、蛙视、中盛益华等等；

4.1.4、传输设备监测

SBI实现对光纤收发器、EPON（以太网无源光网络传输设备）设备进行监控，实时轮询和采集设备的在线状态和性能指标。

4.1.5、分布式采集、集中管理

分布式采集、集中管理技术是相对集中式管理而言的。在分布式管理模式下，集中管理服务器把采集指令下发到采集探针，完成分管区域的数据收集处理，有效的分担了集中管理服务器的负载，尤其适合有物理隔离的大型数据中心或分布在不同地理位置的大型行业客户。

探针自带了存储功能，在网络临时中断或服务端临时关闭的情况下，探针会临时保存监测数据，待网络和服务端恢复后再向服务端传输数据，保证监测数据的完整性。探针支持在常见的操作系统下如Windows、类Unix下运行，并以服务方式自动启动，当采集探针由于某些原因无法正确运行时，探针会自动重启并迅速执行监测任务，保证监测数据的连续性。

分布式采集示意图

4.1.6、统一事件平台

利用实时数据总线和高速事件处理算法，系统每分钟能处理几千条告警事件，事件经过标准化、过滤、归并、关联分析、丰富等过程最后形成准确的告警信息。当网络发生故障风暴时，系统提供了队列机制保证事件处理高效稳定，满足大型网络的实时告警监视的需要。

对于有一定技术能力的运维技术人员，可利用系统提供的事件规则处理语言，以实现更灵活的事件处理规则及扩展。通过告警的规则定义的可视化界面，帮助技术人员优化统一事件平台告警处理规则，提高告警的自动化识别和关联分析能力。

事件分析处理原理

4.1.7、告警监控台

大量的事件经过处理，形成了最终需用户关注的告警，直观的呈现在告警台上，随后可对告警进行生命周期管理。在告警台上，可对告警进行确认、清除、删除或者派发工单操作，可查看告警资源当前的性能情况，分析故障根源，并利用CMDB关系对故障影响做初步判断，还可查看告警资源历史故障及工单派发、短信通知情况。独特的告警导航，可即时显示当前告警分类是否有新的未处理告警，帮助运维人员运筹帷幄，掌控全局。

图1.告警监控台

系统对企业IT环境实施全天候的实时监测，一旦发现运行故障或者监测指标超过预定的告警阈值时，系统就会根据预先配置的动作策略内的告警通知方式立即通知运维人员，通知方式包括触发紧急事件工单、声音告警、邮件通知、短信通知等。

4.1.8、综合监控展示

系统提供了电信级的数据中心可视化利器——灵动可视化平台，它具备实时响应、快速设计、所见即所得的特点，可用来直观展现业务、网络、机房、机房环境等多种视图，方便管理员实时掌握整体运行情况。此外，还可以利用其独具特色的幻灯片功能，把各类视图投影在网络运营中心大屏上。

图2.机房与机柜视图

4.2、资源数据库

4.2.1、数据库建模

考虑到实施数据库项目的复杂性，提供最佳实践模型，可帮助用户快速落地数据库建设，有效缩短时间周期。

采用了面向对象的建模思想，提供配置项的类别、属性、关系、字典以及表单的继承和派生，并支持通过建立和应用规则来触发管理动作，扩展管理行为，如某些配置项发生变更时，可根据规则定义是否生成新的配置项版本等。数据库建模过程相当容易，全面操作都是基于可视化的界面，最大限度的适应不断变化的业务场景的管理要求。

4.2.2、配置变更控制

提供了多样化的配置变更管理方法，在管理的便捷性和严谨性取得平衡。系统支持对配置项的变更审核模式有三种：一种是走配置变更流程的审核方式，一种是简单审核模式、还有一种是通过设定规则自动审核。三种方式适合不同的场景。

对于核心业务的配置项信息，可以选择走配置变更流程的审核方式，管理员用户选中变更区中的待审核配置项记录后，系统自动生成配置变更工单，工单审批通过后，系统自动执行审核操作。

对于简单审核模式，就是由具有配置项审核权限的管理员用户选中变更区中的待审核配置项记录后，执行配置审核操作。系统自动记录下配置审核的操作记录（如审核时间、审核人等）。该种审核方式比较适用于非核心业务的配置项信息。

对于设定规则自动审核模式，适用于变更频繁但不重要的配置信息，可保证数据准确性和合法性的基础上，大幅减少了人工审核的工作量。

4.2.3、配置可视化浏览器

资源配置项的可视化是及其重要的功能，提供了集编辑和展现一体的纯web化的CI浏览器，独特的“画布”功能，不仅能够帮助用户全面直观地查看配置项之间的关系，还能通过连线操作所见即所得的方式维护配置项关系。“画布”也支持完全的定制化，可通过勾选关系类型、显示层次数、切换布局模式、隐藏等实用功能过滤不必要的CI，方便得到更精简

的视图。

4.2.4、分区化、独立管理模式支撑

支持对配置项进行分区化管理，可对数据库建立不同的管理域，为地域跨度较大、各分支机构有自治管理诉求的企业或组织提供了便捷的解决方案。使用一个平台即可实现资产配置数据大集中，既满足了上级对下级的管理要求，又不失管理上的变通性。

4.2.5、高性能、大容量系统设计

数据库的设计充分考虑了大容量环境的管理需求，在功能的全面性、用户体验以及性能吞吐、容量方面相比竞争者具备明显的优势，目前可支持40用户并发数情况下管理100万配置项的能力，单条数据查询调用达到毫秒级，绝大部分界面操作从发起到呈现小于3秒。

4.3、运维服务管理层

运维服务管理子系统是IT运维工作及对外服务接口的平台，它遵循ITIL管理框架，提供可视化的BPM流程引擎，实现流程定义、流程相关角色权限和流程跟踪控制、审计与统计以及流程关联等功能。系统基于流程引擎内置了服务台和事件等常用流程，并涵盖了巡检作业、运行值班、值班日志等实用功能。

4.3.1、值班服务台

值班服务台主要承担以下职责：

故障监控和接收用户服务请求；

故障与用户服务请求的初步支持；

确认故障，并创建和派发工单；

跟踪工单的执行，确定故障恢复并关闭工单。

值班服务台可支持IT服务水平、能力、效率和质量的提高，改善服务部门和业务用户之间的关系。同时值班服务台能够制定和执行排班计划以及日常机房、设备巡检计划，并通过监控视图对相关设备进行巡检。