当前位置：文档库 › 商业银行基于VMAX3完成数据迁移及同城容灾技术手册

商业银行基于VMAX3完成数据迁移及同城容灾技术手册

1 VMAX3硬件结构与技术概述 (3)

2 VMAX3运维管理 (15)

3 利用VMAX3及SRDF/S完成数据迁移及同城容灾搭建案例 (24)

【摘要】本文从商业银行运维管理角度出发，结合VMAX3技术要点，以

VMAX100k/200k为例介绍存储管理工具，逻辑配置，及利用SRDF/S进行数据迁移及同城容灾搭建案例。从硬件架构和软件特点出发，使读者了解与熟悉VMAX3存储产品的运维要点：如物理架构新特性与冗余性、实施配置、SRDF及容灾架构、SRDF/Metro技术要点、监控维护等。希望读者能通过本文熟练掌握VMAX3管理和运维工具，能提高存储采购选型、运行维护效率，提升具体项目场景中关键技术的实际运用灵活性与准确性，在符合监管部门容灾架构要求的基础上，提升商业银行关键业务系统可靠性和连续性。

1 VMAX3硬件结构与技术概述

Dell EMC VMAX3 是Dell EMC公司在2014年问世的第三代高端VMAX存储系统，型号包括VMAX100/200K/400K，积淀两代VMAX产品VMAX/e和VMAX2之后，Firmware Code和体系结构都表现得更加成熟与稳定。在此基础之上，随着全闪和

NVM/e技术成熟，Dell EMC发布了VMAX ALL FLASH和 PowerMAX产品系列高端存储。本文将以VMAX3中VMAX100K/200K为例，着重介绍实际运维管理中涉及到的技术，并分享利用SRDF为关键技术，完成数据迁移和保护的实施案例。

1.1 VMAX3高可用硬件架构

VMAX100k/200k/400k的硬件结构按部署方式分为紧凑排列、分布排列和这两种的混合排列三种方式。分布排列和混合排列是当机房的空间有限、列头用电到达上限或者地板集中承重能力不足时才考虑的部署方式，本文以常用的紧凑排列部署方式为例介绍VMAX3各型号的物理组成情况。

图1：VMAX100k/200k/400k 单引擎物理部署图

如图1所示，物理架构图中可以看出VMAX3的物理架构中各组件为冗余设计，每个系统机柜（System Bay）的引擎由两个控制器（Director）组成，机柜的物理磁盘单元（DAE）由双PDU供电。发生紧急掉电时，控制器由双备用电源（SPS）保护，系统柜1下面的一组备用电源是为用于控制器互联的一对MIBE和以太网交换机做掉电保护用的。

图2：VMAX3引擎逻辑配置图

与VMAX2（VMAX10K/20K/40K）产品不同，二代产品的DAE还是需要备用电源进行掉电保护的，而VMAX3则改将紧急掉电前CACHE中的数据，写入引擎中的冗余的FLASH 盘中（图2中引擎slot0/1/6/7的位置），而不再写入到DAE中。

图3：VMAX100k/200k/400k 双引擎物理部署图

为增配更多引擎，VMAX3配置了双引擎系统柜，当然每个柜中会减少两个物理磁盘单元的位置，增加两个控制器，构成双引擎模式，最大扩展部署分布如图3所示。选择双引擎架构来承载关键业务，想必是出于业务对存储处理能力、缓存数量、业务端口数量有最低限制的要求，而对于容量的极限扩展能力相对要求不高。用于采购和技术方案的详细参数指标详见《VMAX3-系列产品指南》，项目实施初期的物理安装要求详见《VMAX3-系列站点规划指南》。

1.2 VMAX3基本逻辑配置

讲起大多数VMAX3的逻辑对象配置工作，很多客户购买了该产品后，实施厂商已经按照具体使用需求，完成了大多数的配置选型、设备下单、运输安装、初始化、存储映射、以及操作系统多路径软件部署、逻辑卷识别和参数调整等逻辑配置工作。如果采购多台存储用于多地多中心的容灾环境，针对各地系统的容灾规划，存储间的逻辑部署工作也会由原厂来完成，主要包括存储SRDF端口的逻辑配对，生产容灾主从SRDF存储组配置，SRDF远端、目标端存储pair配置，以及数据同步关系的初始化、启停和查询的一系列逻辑操作等。1.2.1 存储映射配置

大多用户都是从存储映射开始的，VMAX3在映射关系中的概念，大部分可以从其他存储厂商的概念移植过来，了解VMAX3存储系统实际硬件配置和初始化信息的基础上，就可以整理出存储映射所需要的信息了。

存储初始化基本配置信息：

? 存储系统硬件信息：序列号、引擎及/Cache、VaultFlash，前端口数量/速率、磁盘类型/容量/数量以及热备盘情况

? 初始化信息：设备微码版本、可用引擎数、可用内存数、是否DARE加密、是否需要大机支持、开放平台支持、RDF模式等

? 主机信息：业务主机名称、系统版本、集群关系、HBA卡名称、PN号、WWN号

? 空间需求：空间RAID保护类型、主机卷组名、所需容量、存储卷名称与数量等

? 端口分配：按不同的业务系统分配不同的前端口，存储端形成对应的端口组，并确保端口所在不同Fabric冗余

掌握上述信息，按部就班进行主机磁盘分配与映射，确认与配置步骤如下：查看存储资源池（SRP）-查看磁盘池（Thin Pool)-根据业务IO类型选择服务级别（自动FAST配置）-存

储端口组(Port Group)-主机端口组(Initiator Group)-逻辑卷组成的存储组（Storage Group）-存储与主机映射关系（Masking Views)，具体的配置在后面web界面中会介绍，详见《Dell EMC Unisphere for VMAX Online Help》

1.2.2多路径软件部署

路径（Path）是指主机与存储系统逻辑单元之间的物理链路，包括主机总线适配器（HBA）端口，电缆，交换机，存储系统接口和端口，以及逻辑单元（LU）。逻辑单元指可作为单一存储卷被寻址的物理或虚拟设备。对于iSCSI标准，路径指Initiator-Target-LU。

图4：是否有PowerPath的IO分布对比图

Dell EMC的存储多路径软件为PowerPath（这里简称PP），PP对不同操作系统会有对应版本，其作用是基于主机系统管理各主机至存储路径，聚合冗余路径提高可用性，并动态均衡路径IO负载功能。PP可以管理Dell EMC主流存储产品（Symmetrix、Unity、VNX 等）以及其他厂商设备。选择性的安装PP，取决于实际使用场景和个人习惯，由操作系统工具、集群管理工具或数据库存储管理工具来管理逻辑单元未尝不可，但PP比较各操作系统自带的多路径软件，在故障切换、负载均衡和其他特性上具备一定优势，具体的安装配置方法，可以参考PP的Readme文件。

1.2.3 主机逻辑卷识别

如果需要PP多路径软件，个人习惯于安装好多路经软件（包括License的导入）后，再进行主机端的磁盘扫描，实际部署时会规避掉一些多路径软件设置和操作系统中路径聚合定义

管理混乱的情况发生。主机端进行SCAN逻辑卷操作，新部署的系统常用重启操作完成主机对逻辑卷扫描（Scan）动作，已有业务运行的操作系统，当存储系统对逻辑卷或端口进行过配置变更之后，也可以通过系统本身或Solution Enabler配置管理工具进行扫描，具体的方法可以参考《Host-Connectivity-Guide-for-Linux/VMware ESX SERVER》等主机连接手册。

逻辑卷被识别后，由PowerPath相关命令进行管理。相信每位存储管理员都会有一份主机逻辑卷名称（或PowerPath的伪磁盘名称）、容量、存储LUN ID的对应关系，后续的容量变更、TimeFinder实施、容灾切换等变更维护工作和故障监控、故障影响范围确认、性能监控，都会以此信息为准，即使有自动化运维工具的，也需要将这些信息导出留存。1.3 SRDF技术

Symmetrix ? Remote Data Facility (SRDF)是一种基于Symmetrix的用于保障业务连续性和远程灾备的解决方案，通过对多台 Symmetrix进行配置，在不同地点实现多点、实时的数据备份。Symmetrix从最早的DMX系列，到配置Enginuity VMAX10k、20k、40k 阵列，再到运行HYPERMAX VMAX100k、200k、400k、全闪250F/450F/850F/950F，发展到运行PowerMaxOS的PowerMAX2000、8000系列，SRDF也在不断迭代，适应硬件架构的改进。但典型的拓扑结构和操作模式变化不大，只是结合TimeFinder等技术，与集群软件的配合，衍生出众多应用不同场景的方案。自HYPERMAX以来，SRDF/Metro 的双活技术出现，使存储阵列本身脱离了存储虚拟化网关制约，为双活数据中心提供了新的技术手段。

1.3.1 SRDF典型拓扑

银行业根据人民银行对数据中心要求，以及自身实际的建设需求，可以采用同一数据中心的两站点保护拓扑，和数据中心间的多站点SRDF拓扑结构。根据业务级别以及容灾容错具体要求，选择恰当的拓扑结构，配合SRDF操作模式完成数据保护与容灾切换等应用场景。

表1：SRDF适用场景双站点拓扑

表2：SRDF适用场景多站点拓扑

1.3.2 SRDF/Metro

在传统SRDF配置中，双站点SRDF架构中业务主机应用程序主机只能对 R1 设备进行读/写访问。R2设备为只读，禁止写入。但是在SRDF/Metro配置中，应用程序主机对R1和R2设备均可进行读/写访问，可以同时写入到设备对的R1和R2端，R2设备使用与R1设备相同的外部设备标识。标识包括设备结构和设备WWN。这一共享标识意味着R1和R2设备跨越两个阵列对应用程序主机显示为一个虚拟设备。

SRDF/Metro可以部署在单个多路径主机环境中，也可以部署在群集式主机环境中。

图5：SRDF/Metro部署环境

每个群集节点都有专用途径来访问单独的存储阵列。在这两种配置中，对R1和R2设备的写入都将同步拷贝到另一个阵列中的配对设备，磁盘锁和写时序逻辑由SRDF/Metro 软件协调处理，使SRDF两端设备保持一致的镜像。

SRDF/Metro配置中发生单侧设备不可用或设备间连接中断，SRDF/Metro 通过可靠稳定的第三方阵列或虚机见证者（vWitness）确认故障点，参考PowerMaxOS code版本、RDF连接架构（是否具有SRDF/A DR分支）及端口使用情况、bias设置作为判断依据，选择出提供服务的一端存储，避免单侧主机不可访问或“裂脑”情况发生。阵列和虚机两种witness可以并行使用，但生效的仅有一个，当所有witness均失效时，SRDF/Metro会变由active/active模式变为active/bias模式，按照预设，保护性地使一端变为bias可读写而非bias的另一端不可访问。

在同城异地三中心或四中心的灾备架构中，可以将按下图中方法将Metro的任意一端或者两端复制到不同的第三、第四中心或者共同的第三中心。

图6：SRDF/Metro多站点部署

2 VMAX3运维管理

2.1 VMAX3支持的典型管理工具及版本

这些组件为HYPERMAX提供的管理工具，选择典型介绍：

?Unisphere for VMAX V8.4

Unisphere for VMAX是一款基于Web的应用程序，便于快速调配、管理和监视阵列，具备存储性能与配置的REST API接口。

?Solutions Enabler V8.4

Solutions Enabler 提供管理存储的综合命令行界面 (SYMCLI)，SYMCLI命令可以在主机上交互运行或者在脚本中调用，可配置TimeFinder、SRDF等存储软件，监控设备配置与状态，执行部分设备控制操作，具备REST API接口。

?Mainframe Enablers V8.1

以大型机为主要支持对象的存储命令行监视、管理软件组件。

?GDDR V5.0

地理位置分散的灾难重启软件本身不提供复制和恢复业务，而是在计划性与灾难性宕机发生时，或者容灾切换演练情况，监视执行管理配置好的事件定制步骤，快速且无人为干预的完成业务切换。

?SMI-S V8.4

支持SNIA存储管理计划（SMI）的ANSI存储管理标准，使不同厂商存储管理技术可以相互操作，便于监控异构存储资源。

?VASA 提供程序 V8.4

支持vCenter更好的管理VMFS存储（包括VVol）的配置与保护情况，给vSphere管理员提供更多存储信息，补充插件和工具的使用，满足虚拟化的性能和可用性需求。

?其他软件

eNAS, SRDF/CE Migrator等针对VMAX FILE、SRDF和数据迁移工具的管理软件如果有兴趣也可以单独了解

2.1.1 WEB界面

WEB界面可以通过存储自身的虚拟控制台进行登录，也可以连接到安装了Unisphere for VMAX的主机上进行管理。存储自身虚拟控制台管理IP需要在设备初始化时，由工程师配置进存储；而管理主机进行Web管理前，需要与存储在SAN网络通讯，识别到管理GK 盘，部署过SE和Unisphere for VMAX软件，开通8443端口等，当然管理机视图和可执行的操作会比存储自身控制台丰富和全面。

访问地址：https://:8443/univmax/，访问后可针对存储逻辑卷，存储端口、主机端口、映射关系、数据保护等进行管理，管理界面如下：

图7：Unisphere for VMAX Web管理界面

2.1.2 SYMCLI命令

命令行管理工具常部署在管理机上作为日常管理的使用场景，也常部署在TimeFinder或者SRDF执行的业务系统中，配合业务需求，将配合查询或备份的场景命令脚本化。Solutions-Enabler的安装配置、存储控制管理、TimeFinder操作和SRDF用户手册，均有详细的使用手册。

2.1.3集成存储监控工具

集成存储监控管理工具通过存储的REST API接口，有针对性地进行性能数据收集分析、事件监控处理、容灾切换等场景的集成统一管理。用户常采用成熟软件产品或者定制化开发，实现存储设备自动化运维、统计报告生成和前瞻性分析等。此类软件有IBM Spectrum Control，DELL EMC ViPR，开源软件XoruX STOR2RRD以及利用开源Zabbix监控数据采集和Grafana监控界面展示实现针对自身存储定制开发产品。

图8：STOR2RRD监控管理工具

2.2 性能与监控

2.2.1 性能分析与报表

Web中Performance-EMC View中可查看存储整体、存储组及热点情况，选择观察统计

时间之内的前、后端口IO、吞吐量、存储缓存落盘延迟情况以及主机读写请求。

图15：性能与监控整体视图

整体观察性能数据后，可针对存储进行实时分析、本源分析和趋势分析：

图16：性能分析视图

需要生成性能报告时，选择Chart，时间段、均值峰值和相关参数指标，在右侧形成图表。

图17：性能报告视图

2.2.2 日常故障监控

?自动远程监控

如果用户的网络条件允许存储设备通过加密互联网配置Dell EMC远程监控及支持系统，（包括call home，Webex、ESRS等多种模式），会自动报修设备异常并由远程工程师处理解决，需要现场维护的时候，自动通知现场工程师进行现场维护。但出于行业监管和安全的要求，金融行业普遍需要采用本地监控方式自行监控处理故障。

?WEB查看存储状态及告警

在Unisphere for VMAX中System-System Dashboard中查看存储各硬件部件状态及健康检查，运行健康检查HealthCheck之后刷新检查当前Status系统状态：