一、存储
1、媒资存储网络的存储架构
在线存储(OnStore)是工作级的存储,在线存储的最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。其中最主要的在线存储是磁盘存储。早期的在线存储设备主要是服务器内置硬盘,随着对存储的发展,现在在线存储设备还包括光纤磁盘阵列或SCSI磁盘阵列等磁盘设备。在线存储价格相对昂贵,但性能最好。大多数情况下,系统的核心应用都是采用这种存储形式的。
所谓的近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。但同时对这些的设备要求是寻址迅速、传输率高。(因此,近线存储对性能要求相对来说并不高,但又要求相对较好的访问性能。同时多数情况下由于不常用的数据要占总数据量的比较大的比重,这也就要求近线存储设备在需要容量相对较大。传统定义的近线存储设备主要为DVD-RAM 光盘塔和光盘库设备。但随着存储设·备的不断发展,现在常用的近线设备为磁带设备。
离线存储(OffStore)主要是目前来讲主要使用磁带存储。大多数情况下主要用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写
入的数据进行修改时,很多情况下数据都需要全部进行改写。因此,离线存储的主要用于数据的备份和恢复。在大多数的情况下,磁带上的数据会尽量少的进行访问操作。磁带存储价格相对最低,但容量价格比最好。
3 数据保护:RAID
RAID(Redundant Arrays of Independent Disks)冗余磁盘阵列,是一种将多块磁盘形成一个整体,使之能够在硬盘故障时提供数据保护的技术,可以提高存储系统性能。
3-1 RAID的实现方式
●软件RAID是由基于主机的软件来提供RAID的功能,通常在
操作系统层次上实现对RAID阵列的管理,而不需要专门的硬
件控制器。
●硬件RAID是通过集成在主机或存储阵列上的专用硬件控制
器来实现的,不同的实现在存储阵列与主机的交互形式上有很
大的不同。
3-2 RAID阵列的组成
RAID阵列是指一个由多个硬盘以及支撑RAID功能的相关软硬件所组成的封闭模块。RAID阵列中若干个硬盘组成的子集可以构成逻辑上的联合,成为逻辑阵列,也叫RAID集或RAID组。
3-3RAID技术
一、分条
●分条(striping)是将数据分布在多块磁盘以实现磁盘的并
行使用技术,分条技术能让所有的读写头同时工作,提升
性能。
●条带(strip):磁盘上一块由若干地址连续的磁盘块构成的,
大小固定的区域。条带尺寸(分条深度)描述了构成条带
的磁盘块数目。
●位于RAID集所有磁盘上相同位置的条带构成分条(stripe),
分条尺寸是条带尺寸与RAID集中影片的乘积,分条宽度
是一个分条所包含的数据条带的数目。条带尺寸=64KB,5
块磁盘构成RAID,分条尺寸=5*64KB=320KB
●分条本身不提供数据保护功能
二、数据镜像
●镜像技术将同一数据存储在2块不同的磁盘上,从而产生
该数据的2个副本。一个数据盘发生故障时,控制器仍能
利用幸存磁盘上的数据镜像对主机的请求进行响应。
●用新磁盘替换下损坏磁盘,控制器会自动将幸存磁盘数据
的副本拷贝回去,此过程对主机是透明的。
●镜像不是备份,由于2个磁盘上可以同时响应一个读请求,
读性能提高,但一个数据要写2次,写性能下降。
三、奇偶校验
●奇偶校验是一种既能为分条RAID提供数据保护,又能避
免镜像开销的方法,往分条中增加一个磁盘来存储校验值,
通过数学方法(位异或)构造的校验值能够重建丢失数据。
●校验RAID,分条尺寸不包含校验分条。如一个由4个磁
盘(4+1)组成,条带大小为64KB的RAID,分条大小为
4*64=256KB。
3-4 RAID级别
一、RAID0
图3-5:
无容错性的分条阵列适合对I/O带宽需求很大的应用程序二、RAID1
图3-6
磁盘镜像适合用于那些对高可靠性有需求切没成本限制的应用
三、嵌套RAID
图3-7
1、分条的镜像:RAID 1+0或RAID10或RAID1/0,适合用于
写密集、随机访问、数据量小的I/O负载,如
●高事务率的在线事务处理,如订票系统等
●大型消息服务
●负载多为写密集型和随机访问的数据库应用
注意:整个阵列最多可以有3块不在同一镜像集的磁盘失
效而不影响工作
2、镜像的分条:RAID 0+1或RAID 01或RAID 0/1,分条集
后再镜像,有一个磁盘失效,镜像磁盘中所有数据都将复制,负载加大。
四、RAID3
图3-8
带专用校验磁盘的并行访问的分条阵列适合数据备份及视频流服务等涉及大量顺序流数据访问的应用,可以提供良好的性能。
五、RAID4
带独立磁盘访问和专用校验磁盘的分条阵列,数据单元可以从单块磁盘中读写,无需访问整个分条,读写吞吐率提高。
六、RAID5
图3-9
带独立磁盘访问和分布式校验的分条阵列客服专用校验磁盘的瓶颈,而将校验值是分布在所有磁盘上,适合较多随机读写及写密集型的应用,在消息系统、数据挖掘、中等性能的媒体服务器以及数据库管理等方面得到应用。
一、RAID6
图3-10
引入第二个校验元素,解决RAID组中2块磁盘失效问题,但
写和重构效率不如RAID5
3-4RAID对磁盘性能的影响
IOPS:I/O Operations Per Second
写代价:对于基于镜像和校验的RAID系统,每次写操作都会对磁盘产生额外的I/O开销。
RAID5的写代价:Ep=E1+E2+E3+E4(异或),Ep new=Ep old-E4 old+ E4 new,
写操作包含对Ep old、E4 old的读和Ep new、E4 new的写,代价为4
RAID6代价为6
应用程序的IOPS和RAID配置
例子分析:
应用程序的I/O吞吐量为5200IOPS,60%为读访问
RAID5磁盘负载=5200*0.6+4*0.4*5200=11440 IOPS
RAID1磁盘负载=5200*0.6+2*0.4*5200=7280 IOPS
若硬盘的最大吞吐量为180 IOPS
RAID5的磁盘数=11440/180=64块
RAID1的磁盘数=7280/180=42块(最接近的偶数)
3-6 各种RAID的比较
3-7 热备用
热备用是指RAID阵列中用于临时替代RAID阵列中故障硬盘的备用硬盘。热备用硬盘从存货硬盘或通过校验回复数据,新硬盘加入再将数据复制到新硬盘上。热备用硬盘可以自动启动或用户启动。
二、编目系统
1、编目的概念
媒资数据的编目:是根据视音频数据的特征,对其外显或内隐的属性进行提炼或归纳,在相关编目标准的指导下对视音频数据进行著录、标引,并组织、制作各种检索目录或检索途径和工具的工作。2、编目软件的基本功能
编目软件是媒资系统中重要的组成部分,能够进行视频结构切分、输入编目信息、抽取关键帧等。
3、编目模块在系统中的位置
1)清楚编目模块在系统中的位置和作用:上载、转码、导入
之后,编目过的节目才可以查询
2)编目需要视频的低码副本
4、元数据相关内容
1)元数据(Meta Data)概念,在内容管理系统中的作用:元数据是关于数据的数据、元数据的著录贯穿整个流程
2)元数据标准:都柏林DC、MPEG-7、广播电视音像资料编目规范,他们之间的关系
我国的编目规范参照了都柏林DC和MPEG-7
3)MPEG-7:多媒体内容描述接口、目标、MPEG-7标准内容的抽象描述、MPEG-7标准的组成部分、MPEG-7多媒体描述方案
MPEG-7:多媒体内容描述接口(Multimedia Content Description Interface)不是信息压缩标准,而是一种多媒体内同描述的标准,定义了描述符、描述语言和描述方案,便于处理多媒体内容,其主要目标:对多媒体信息内容进行各种标准化的描述和有效的检索。
4)广播电视音像资料编目规范:我国视频节目的四层结构、主要著录项
电视音像资料编目元数据的层次结构及元数据项
一组概念
?节目(program):具有独立主题意义的,已经制作完成的完整
的视音频资料。相对于节目而言,具有使用价值的、可用于制作节目的视音频资料称为素材(material)。视频文件以节目或素材为单位。一般受限于拍摄用的磁带的长短、主题内容等。
?片段(sequence):节目或素材中一段连续的视音频,由一个以上
相互关联的场景构成。
?场景(scene):节目或素材中背景或场面不变的一段连续的视音
频部分,有时间或空间上相关的多个镜头构成
?镜头(shot):同一摄像机一次摄录的连续画面。
?关键帧(keyframe):来源于计算机动画,相当于二维动画中的
原画。指角色或者物体运动或变化中的关键动作所处的那一帧。
在视频中一般指能代表视频内容的那一帧。
?视频结构切分:视频结构切分后的元数据:入点和出点(或者
是入点和时长),表达的形式为:hh:mm:ss:ff(时分秒帧,PAL
制的25帧/s,NTSC制30帧/s),或者是用帧号表达。
如PAL制的视频文件,入点为00:03:48:12,
其帧号为(3*60+48)*25+12=5712;
编目方案:
●简要说明切分方案
●说明关键帧抽取方法
●说明各层主要著录项
5)元数据交换和传输标准
6)可扩展标记语言:XML——结构化文档
5、结构化文档:是内容管理系统中的重要媒体类型,与一般文档
格式相比,结构化文档使用标记语言并链接到扩展文本和信息。
其主要相关标准是SGML、HTML和XML。
6、Xml、SGML、HTML之间的关系、概念等
HTML是SGML的一个子集。SGML使用标签来标志文档中的文本或图形之类的元素,并告诉Web浏览器该如何向用户显示这些元素,以及应该如何响应用户的行为,例如当用户通过按键或鼠标单击某个链接时该如何响应。
XML实际上是Web上表示结构化信息的一种标准文本格式。XML同HTML一样,都来自SGML(标准通用标记语言)。
xml和html最大区别:
a)XML是用来存放数据的;
b)XML是被设计用来描述数据的,重点是:什么是数据,如何
存放数据。
c)HTML是被设计用来显示数据的,重点是:显示数据以及如何
更好显示数据。
三、检索
1、素材处理:基本原理和方法
素材处理过程的基础构成:特征提取、特征解析、查询引擎
2素材管理系统对一个素材对象管理的多重版本
原始磁带拷贝:传统的模拟格式或者数字视频磁带,必须存在
一个该拷贝的引用参照。
●高品质文件拷贝:原始拷贝的文件版本。信号质量同原磁带拷
贝,一般在上载时编码产生;数字带视频上载文件将保留原格式。
●EDL浏览副本:中等品质文件拷贝,用于剪辑和离线编辑(EDL:
编辑决策列表)
●内容浏览副本:低品质文件拷贝,用于网络环境的浏览和编目
时视频。
●关键帧:静态帧,从素材内自动或手动提取。
4光纤通道存储区域网络
SAN:存储区域网络(Storage Area Network)是一个高速的、专用的服务器网络以及共享存储设备,实现了存储资源的整合和数据的集中管理。其主要形式有光纤通道FC SAN和IP SAN。
5-1 光纤通道:概览
●FC架构是FC SAN的基本元素,最初的实现提供100MB/s的
吞吐率,最新的16G FC提供3200MB/s的吞吐率,理论上可
以容纳1500万各设备。
5-2 SAN及其演化
一、SAN通过光纤通道在服务器和存储设备之间交换数据。实现
了存储整合,允许多个服务器共享存储设备。
图5-1
二、FC网络设备从集线器到现在的FC交换机
5-3 FC SAN组件
组件:节点端口、线缆、连接器、互联设备以及SAN管理软件
5-4 FC连接
一、点对点
两个设备直接相连,如DAS,提供有限的互联能力
二、光纤通道仲裁环FC-AL
令牌环网或星型拓扑结构,通过仲裁获取环的控制权,扩展性有限,只能有126个节点在环上。
三、光纤通道交换FC-SW(fabric连接)
FC-SW提供专用数据通道,具有可扩展性
交换机间链路、fabric层数
FC-SW传输
5-5 交换fabric端口
N端口:末端端口
E端口:SW间的端口
F端口:fabric端口,SW上的与N端口连接的端口
G端口:SW上的通用端口,可初始化成E或F端口
5-6 光纤通道架构
FC SAN使用光纤通道协议FCP为基本框架,是串行SCIC在FC 网络上的实现。
FCP的关键优势:长距离、多设备可扩展、高速(16G FC)
●光纤通道编址:24位N端口FC地址
●万维网名称
FC环境中每个设备被分配一个64位的ID号,称之为万维网名称(WWN)
HBA:即主机总线适配器英文“Host Bus Adapter”缩写
5-7 光纤通道登录类型
●Fabric登录:在N端口和F端口之间进行。
●端口登录:端端间建立一个会话
●程序注册:端端之间进行,是与FC-4高层协议相关
5-8 区分
FC交换机的功能,使得节点在一个Fabric里可以被逻辑分为不同的组,且在组间互相通信
分区类型:端口分区、WWN分区、混合分区
作业分析:p85
1)什么是分区:FC交换机的功能,使得节点在一个Fabric里可以被逻辑分为不同的组,且在组间互相通信。当名字服务器数据库有变化,fabric控制器会向所有受影响的节点发送注册状态变更通知(RSCN),没有分区会向所有节点发送,增加管理流量,有分区则只向分区节点送RSCN。
2)WWN分区比端口分区好:因为使用的是静态地址,所以灵活性好,更换交换机端口不需要重新配置分区信息。
3)端口比WWN好的地方:因为是按交换机端口的物理地址(FC 地址)来分区的,设备失效只需更换设备,无需更改分区
分区和LUN(LUN:逻辑单元编号,RAID集被划分成较小的逻辑单元,被分配唯一的标识)掩码结合,用于控制服务器对存储器的访问。