文档库 最新最全的文档下载
当前位置:文档库 › metadata的初步设计 - 中文元数据标准框架及其应用

metadata的初步设计 - 中文元数据标准框架及其应用

metadata的初步设计 - 中文元数据标准框架及其应用
metadata的初步设计 - 中文元数据标准框架及其应用

中文元数据标准框架及其应用

北京大学数字图书馆研究所中文元数据标准研究项目组

肖珑? 陈凌 冯项云 冯英文摘本文通过对北京大学数字图书馆中文元数据标准框架的主要内容及应用实例的介绍阐述了中文元数据标准制定的原则方法和工作流程关键词元数据 元数据标准 元数据标准框架 中文元数据一概述

元数据的广泛应用是因现代信息资源处理上的两大挑战而发展起来的一是数字资源

逐渐成为信息资源的主流而这些资源从产生存档管理到使用都远远不同于传统的纸

介质文献

二是网络和数字化技术使信息的发表既快又便捷由此而来的海量信息要求有能与现代计算机技术和网络环境相适应的方便快捷有效的数据发现和获取方法

针对各种信息资源

包括传统型信息和其数字复制品

或天生的数字信息分别制定

适当的元数据标准为它的管理

发现和获取提供一种实际而简便的方法是数字图书馆建设中首先要开展的工作

为了既能兼顾不同资源的特性又能最大程度地实现各类资源

在发现和获取方法上的一致性

体现数字图书馆的整体性各元数据标准应当从功能数据结构格式语义语法等诸多方面保持一致这种一致性和整体性也便于在更大范围内实现不同数字图书馆或说不同系统间的互操作和数据共享

国外在元数据方面的研究工作开展较早已有许多元数据标准被广泛采用我国的元数据研究与应用也取得不少成果

对一些具备中国文化特色的信息资源或是直接采用现成的元数据标准通过制订详细著录规则的方法来处理

或是借鉴其它元数据的成功经验制订相应的新的元数据标准

北京大学数字图书馆的元数据研究项目中

视具体资源对象特点的不同分别采用这两种方法来开展工作

为了实现前面所说的各元数据标准间的一致性和整体性我们在对

大量现行元数据标准和相关研究成果的分析吸收的基础上

通过实践总结出一套规范和指导各类元数据标准的设计制定规则和方法称为

中文元数据标准框架以下简称标

准框架该标准框架初稿完成于2001年1

月7月又作了进一步修订现已成为北京大学数字图书馆后续一系列元数据标准制定工作的规范性文件下图简要揭示了元数据标准框架元数据标准元数据间的关系与作用

图1元数据标准框架元数据标准与元数据关系图

?本文系北京大学数字图书馆研究所中文元数据标准研究项目系列成果之二

主要研究人员肖珑

陈凌冯项云冯英廖三三姚晓霞执笔人肖珑陈凌

本文将对标准框架的主要内容及其实践应用逐一简要介绍为避免发生歧义在

介绍标准框架的内容之前先对本文涉及的几个术语作一定义

元数据的一般定义是元数据是关于数据的数据(data about data)本文对元数据定义是元数据是描述一个具体的资源对象并能对这个对象进行定位

管理且有助于它的发现与获取的数据一个元数据由许多完成不同功能的具体数据描述

项构成具体的数据描述项又称元数据项元素项或元素

元数据标准是描述某类资源的具体对象时所有规则的集合不同类型的资源可能会有不同的元数据标准它一般包括了完整描述一个具体对象时所需要的数据项集合各数据项语义定义著录规则和计算机应用时的语法规定

中文元数据标准指基于具有中国文化特点的信息资源而产生的元数据标准

元数据标准框架是规范设计定制某类特定资源所用的元数据标准时需要遵照的规则

和方法它是抽象化的元数据它从更高层次上规定了元数据的功能数据结构格式

设计方法语义语法规则等多方面的内容二 元数据标准的设计原则制定元数据标准应当从三个方面的调查分析入手即著录者包括专业和非专业编

目人员以及管理者使用者指数字图书馆的用户著录对象即被描述的资源在标

准制定过程中要充分考虑前两者的需求和后者的特性并在其间做一最佳平衡和组配在此基础上要遵循的几组最基本的设计原则是简单性与准确性原则简单性主要指设计的元数据标准在著录实践时应较为简单易

于掌握尤其要考虑到著录人员除编目员外更多的是相关专业人士如古籍专家地理

学家甚至研究生等但一味追求简单性易导致标引不够精确会降低检索结果的准确度和

精度因此同时要考虑到简单化可能导致的不准确需在二者中作一权衡专指度与通用性原则由于元数据应用的各类资源的各自特性不尽相同著录深度如书目内容和插图等和广度指相关联的一组文献作总体著录不尽相同因此无法

只使用一种元数据标准需要根据具体的资源实体来确定相应的元数据标准另一方面

也必须考虑到确定的某种标准应尽可能覆盖多种相似或有相近特性的对象以减少专业

或非专业编目人员在选用适当元数据标准时的人为误差即必须考虑元数据标准在一定

范围内的通用性互操作性与易转换性原则元数据的互操作性体现在对异构系统间互操作能力的支持

即在北京大学数字图书馆设计的各种元数据标准下建立的元数据不仅能方便地为自己建

立的各相关应用系统所操作还应尽可能地为其它组织或机构所建立的应用系统所操作

在具体应用上互操作性表现为易转换性即在所携信息损失最小的前提下可方便地转

换为其它系统常用的元数据这要求在设计元数据标准时要非常慎重地考虑元数据标准定义的元素的语义定义和元数据结构两个重要的方面其中与目前较为通行的被广泛支持

的元数据标准如Dublin Core 等的语义定义一致更为重要可扩展性原则由于数字图书馆将要处理的数字资源非常广泛而各类应用背景更为

复杂元数据标准只能提供最广泛意义上的描述一些特殊应用背景的性质内容并不纳入但一些具体应用可能会要求更为细致精确的描述应允许使用者在不破坏已规定的标准内

容如元素的语义定义的条件下扩充一些元素子元素或属性值元数据标准中应为

这种应用提供指导性原则用户需求原则制定元数据标准的目的是想向用户更好和更充分地揭示信息资源因

此用户需求应作为最终的权衡标准特别是在结构与格式的设计元素的增加与取舍语义规则的制定等方面要尽可能地从用户的角度出发增加系统与用户间的交互渠道如

开放式的词表系统的使用增加提供用户反馈的元素等为用户提供多层次的检索体系如GIS技术的采用

三元数据的功能

元数据标准设计首要的问题是要利用元数据实现哪些功能根据对8种国外常用元数据及台湾地区已有较成熟的中文元数据标准进行的研究和比较分析?并结合我们对数字图

书馆功能的认识提出元数据应考虑实现的功能有如下几个方面

描述对信息对象的内容属性等的描述能力是元数据最基本的功能应当能比较

完整地反映出信息对象的全貌衡量描述能力最重要的一点是它能否准确地区别不同的

具体信息对象这是元数据标准制订工作中最困难的一部分针对每一类具体的资源对象需分别研制

检索支持用户发现资源的能力即利用元数据来更好地组织信息对象建立它们之

间的关系为用户提供多层次多途径的检索体系从而有利于用户便捷快速地发现其

真正需要的信息资源

选择 支持用户在不必浏览信息对象本身的情况下能够对信息对象有基本的了解和认识从而决定对检出信息的取舍

定位提供信息资源本身的位置方面的信息如DOI URL URN等信息由此可准确获知信息对象之所在便于信息的获取

管理保存信息资源的加工存档结构使用管理等方面的相关信息以及权限管理

版权所有权使用权防伪措施电子水印电子签名等

评估保存资源被使用和被评价的相关信息通过对这些信息的统计分析方便资源

的建立与管理者更好地组织资源并在一定程度上帮助用户确定该信息资源在同类资源中

的重要性

交互有些信息资源的元素内容需经过专家考据才能确定尤其是在描述比较复杂的

对象例如古籍的时候对使用元数据的专家学者提供专门的元素允许他们对某些数

据项的内容进行反馈有利于建立更为准确的元数据提供更为良好的服务功能以上功能的实现反映在具体元数据项的设立定义和语法结构上本文的第四五部

分将作进一步的深入讨论

四元数据的结构与元素组成

元数据的结构指一个完整的元数据标准通常由哪几部分的数据项元素组成各有

什么特点

一个将被元数据描述的资源对象往往是一个较为复杂的复合对象是一个抽象的对象

集合体包括原始对象对象复制品数字复制品以古籍为例在数字图书馆中一本

古籍还会有若干个数字图像如书影书中的若干页那么该古籍对应的复合对象就是复

合了古籍本身和若干个数字图像的对象

是对复合对象进行著录还是对某个具体的对象著录关系到元数据的结构和具体元素

的设计我们在标准框架中定义的著录对象是一个复合式的对象该对象复合了实物

如古籍拓片拓片原器物以及相关的数字化对象

根据前面所述我们将元数据的结构划分为描述型元数据管理型元数据应用型

元数据如GIS元数据

不同类型的资源由于内容和外观特征的差异在元数据的应用上主要表现在描述型元

?详见大学图书馆学报2001年第4期国外常用元数据比较研究

数据的不同

因此

标准框架

侧重强调了描述型元数据的结构及其元素组成而对于管理型元数据则参照OAIS 模型仅规定了其基本结构

限于篇幅

在此不作详细描述应用型元数据主要视其具体应用而定

1. 描述型元数据

descriptive metadata 用于描述或标识对象内容和外观特征的元数据

在本

标准框架

目前以文献

document

或类文献

document-like 为基础的资源对象所使用的描述性元数据是基于Dublin Core 发展的由以下三个层次组成– 核心元素core element 采用了Dublin Core 的大部分元素在各类资源对象中通用

拟在该层上与其它系统进行交换

支持通用的检索工具

故应用时凡支持该标准框架的系统须严格遵守其元素语义定义

– 本馆核心元素

local core element 根据本地资源对象特点参照其它元数据标准制

定在本地数字图书馆系统的各类对象中通用应用时要求在本地系统内部遵守其元素定义不同的系统可有不同的元素设置及其语义定义

个别元素

unique element

以某种类型的资源对象为基础制定

仅适用这类对象不用于交换应用时仅要求该对象遵守其定义

2-1描述型元数据的结构

Core element 个别元素

unique element

图2-2描述型元数据不同资源对象的元数据的结构关系

这三个层次的划分目的是为了在保证各标准的一致性与整体性的基础上最大限度地体现不同系统和不同资源的特征给予使用标准框架的标准制订者以最大的自由度有利于标准的推广使用

描述型元数据由以下元素组成

核心元素14个

本馆核心元素3个个别元素元素名称

与Dublin Core 的对映名称

Title 版本Edition 主要责任者

Creator 物理特征Physical description 主题/关键词

Subject and Keywords 出版项Publication 资源描述

Description 其它责任者Contributor 根据资源对象情况制订

日期Date

资源类型Resource Type

资源形式Format

资源标识Resource Identifier

来源Source

语种Language

相关资源Relation

时空范围Coverage

权限管理Rights Management

标准框架中关于核心元数据集的说明

(1)核心元素集中元素的语义不允许有交叉

(2)对采用的Dublin Core元素应用时不修改其语义

(3)不同的元数据标准可以根据对象特点制定各自所需的子元素或限定词但必须与本框

架中核心元数据集的语义定义保持严格一致

标准框架中给出的本馆核心元素定义

(1)版本关于版刻版本影印的说明及相关信息

(2)物理特征物理外观信息如数量尺寸载体形式装订等

(3)出版项出版信息包括出版地出版者出版时间等

2.管理型元数据administrative metadata

用于管理复合对象的元数据其分类借鉴OAIS的分类机制主要由以下4方面元素组成

1上下文信息context information指对象内容信息同所在环境的关系包括创建

内容的理由与其它相关资源对象的关系

2出处信息provenance information指数字对象的历史包括出处如原始技术

环境变更历史保管历史等

3验证信息fixity information提供验证机制

4评价信息remark/comments用户对现有元数据的元素项内容进行修改建议或

评述

由于管理型元数据主要与数字对象的类型相关而与具体的资源类型相关性较弱因

此可以根据数字图书馆系统建立情况统一制定适合于同一应用系统中的各种对象类型详细的内容将在另一篇文章中介绍

3.应用型元数据application metadata

属于比较特殊的为特定的应用而设立的元数据项

例如为了便于通过地理信息系统来访问那些时空属性很重要的数字对象如拓片

古籍等我们特别设立地理信息系统Geographical Information System元数据GIS

metadata项用来描述资源对象的地理时空属性

地理信息元数据包括2个元素空间项spatial数字对象所涉及的空间信息时间

项temporal数字对象所涉及的时间信息

不同于描述型元数据的地方是描述型元数据中的日期时空范围采用自然著录的方

式而地理信息元数据则需经专门加工成特殊格式

地理信息元数据与描述型元数据中的日期时空范围等元素衔接即数据值从这些描

述型元数据的元素值发展出来

五元数据的语义定义规则semantic rules及语法结构syntax structure

在确定了元数据的结构和元素组成之后需要对制定元数据项定义时应遵循的一般性

规则和具体的定义方法作更为细致的规范称为元数据的语义定义规则

元数据在计算机应用系统中的表示方法和相应的描述规则称为元数据的描述语言和

语法结构

1元数据语义定义规则

–各元数据标准应最大可能采用标准框架推荐的元数据项并在语义上保持严格一

–对推荐的元素不能描述的特性可以增加元素但新增加元素不能与已有元素有任何语

义上的重复并经本框架的维护者确认后加入框架的推荐元素列表

–为了更为准确地描述对象允许向下再设一层子元素子元素间语义是不重叠的合

起来不能超过元素定义的内涵

–子元素不可再分

2元数据定义方法

元数据标准的元素定义方法即元素哪些方面的属性应该被定义采用与Dublin Core 一致的方法即采用ISO/IEC 11179标准按以下10个方面定义元素

–名称Name元素名称

–标识Identifier元素唯一标识

–版本Version产生该元素的元数据版本

–注册机构Registration Authority注册元素的授权机构

–语言Language元素说明语言

–定义Definition对元素概念与内涵的说明

–选项Obligation说明元素是限定必须使用的还是可选择的必备性

–数据类型Datatype元素值中所表现的数据类型

–最大使用频率Maximum Occurrence元素的最大使用频次可重复性

–注释Comment元素应用注释用于说明子元素情况

子元素也参照这个方法定义并在注释项说明其父元素

3元数据的描述语言与语法结构syntax structure

由于前面设计原则中所提元数据的互操作性是体现在多个层次上的不仅依赖于元数

据本身对被描述对象的描述方法定义也依赖于异构系统间所交换或操作的数据的具体描

述语言及相关语法因此标准框架对此做了相应规定

–采用XML语言及其相关语法结构作为元数据描述的元语言并作为相关应用系统必

备的对外数据接口

–RDF作为一个资源描述的标准框架能方便地容纳各类元数据标准建立一种复合的面向异构系统的数据交换格式本标准框架建议各应用系统应支持对RDF格式数据的解析

–元数据的XML格式语法定义方法采用XML Schema或DTD

六中文元数据标准制订过程的一些重要问题

前面较为详细地介绍了标准框架的主要内容在将该标准框架应用到中文元

数据标准的制订中还有一些需要特别关注的问题在此提出来供大家参考著录单位的确定元数据标准的设计要以基本著录单位为基础在设计中文元数据标准时由于具中国历史文化特点的资源对象情况比较复杂这方面的分析尤其要仔细认真

要与相关专业人员反复斟酌

例如古籍

其基本著录单位不同于普通图书要表现其不同抄本同一刻本下的不同印本的特点就必须以每一个单本即复本为著录单位著录对象关系的分析

要认真分析不同对象之间的各类复杂的关联因为这些关系影

响着著录对象的确定进而涉及到元数据标准的设计

例如拓片就存在着丛拓和子目丛刻和子目

原刻与摹刻

翻刻

拓片与影印

单张拓片与拓本原刻与附刻碑阳

与碑阴等复杂的关系

只有对这些关系进行仔细分析

确定是单独还是复合著录才能最终确定某些元素的设计和拓片元数据标准的内容个别元素的设计

即充分考虑具体类型对象的特殊需求

例如拓片在著录时要表现其中文的书法特点就要设立书法特征元素

拼音问题

这是只有中文资源才具备的特点在设计元数据标准时可以考虑在某些元素下以设立拼音子元素的方式解决

相关规则的建立如著录规则朝代与人名规范档

查重标准等的建立这些内容在

很大程度上体现了中文资源的特征

虽然对元数据标准的总体结构没有很大的影响但与某些具体元素的设立却是至关重要的七中文元数据标准框架的应用实现

1 已有元数据标准目前北京大学数字图书馆在标准框架

下已经设计并应用的元数据标准有

– 拓片元数据标准

– 古籍元数据标准下表为拓片古籍元数据的描述型元数据部分

拓片

古籍

1 题名 1. 题名

2 责任者 2. 主要责任者3. 其他责任者3

主题/关键词 4. 主题词4

内容及注释 5. 附注说明5

金石刻制时间6

金石类型7

资源形式 6. 资源形式8

拓片标识7. 古籍标识9

语种8. 语种10

相关资源9. 相关文献11

时空范围10. 时空范围核

素12

馆藏信息11. 馆藏信息1.

版刻/版本 1. 版本2.

外观特征 2. 外观形态本馆核心元素 3.

出版项 3. 出版项1.

收藏历史Collection history 1. 收藏历史2.

书法特征Handwriting 3.

金石刻立/出土地点Location 4.

金石材质Materials and techniques 个别元素

5. 原器物标识Original Object

Identifier 正在设计并接近完成的元数据标准有

– 舆图元数据标准

–学位论文元数据标准

–网络资源元数据标准

其中拓片古籍舆图三种元数据标准符合本文第一部分所说中文元数据标准的定义

将在标准框架下指导设计完成学位论文和网络资源元数据主要采用国外已有较为成

熟的元数据格式但要和标准框架中的核心元素集建立映射关系

管理型元数据采用同样的结构模型

应用型元数据拓片古籍舆图采用GIS元数据

2元数据标准的设计流程

我们各元数据标准的设计均遵循以下工作流程规范包括下列8个步骤

1)资源分析

完成对资源对象各方面进行的详细调查分析包括对资源本身的分析调查对资源管

理者使用者的需求调查等

需要强调的是在这里所说的资源对象是一个复合对象即一个抽象的对象集合体

包括原始对象对象复制品数字复制品这些不同的载体形态称为一个对象实例等例

如对拓片对象而言包括原刻拓片本身数字拓片它们都是一些具体的对象实例

可以按 元数据功能一节中提出的几个方面来进行分析

该步骤结束时应完成资源分析报告其内容应包括

–该资源对象的定义和特点对象间及对象实例间的关系分析

–著录单位著录范围著录内容项目的确定

–使用和检索需求即用户希望从哪些方面什么途径去检索第一步最希望获得什么

等这部分内容的搜集分析直接影响检索点的设置和检索结果的反馈

2)元数据标准的初步设计

提出针对某具体资源对象的元数据标准草案,其出发点包括以下几个方面

–资源分析报告

–其它国内外机构对相似资源制定的元数据标准分析

–标准框架中元数据的结构与元素组成对元数据标准的规范性描述及其已使用

和推荐的元素集

–标准框架中元数据标准的设计原则

元数据标准草案内容应包括所有元数据项及相关定义一般说来需要慎重设计的

主要是描述型元数据和个别与该类资源联系紧密的管理或其他类型元数据一般通用的管理型元数据在第一次设计时即已完成

元数据标准草案也可能是等同采用某个其它机构制订的成熟的元数据标准在这

个情况下需要与标准框架中规定的元素集建立映射关系

3)手工著录检验

组织专业和非专业编目人员进行试验著录以检验元数据标准草案设计的合理与

否该步骤以手工著录方式进行完成后形成手工检验报告

4) 修改元数据标准草案

完成元数据标准草案修订版可能会有多个版本

5)应用规则建立

在元数据标准草案修订版和资源分析报告基础上提交相应文档形成元

数据应用相关文档汇编作为建立实用系统的依据主要内容包括

–著录细则

–检索点索引与查重定义

– 规范档的使用说明

– 元数据和数字对象的权限管理

– 元数据标准的XML 定义

– 元数据标准DTD

– 与标准框架中规定的元素集和其它元数据标准元素集之间的映射表

6)

建立试验著录系统根据元数据标准草案修订版和元数据应用相关文档汇编建立试验著录系统

和网络试验著录环境

7) 联机试验著录邀请其他单位的同行参加网络环境下的著录实践以充分收集意见各意见汇总成联机试验报告该报告应包括3方面的内容即对元数据本身的意见对相关应用规则的意

见和对系统的意见

8) 元数据标准推荐稿根据联机试验报告对元数据标准草案修订版元数据应用相关文档汇编

和系统多次修改实践后形成较为正式的元数据标准推荐稿作为正式标准的第一

图3元数据标准制订工作流程图

3元数据标准应用的相关规则

在元数据标准在应用过程中尚需根据具体情况提出元数据使用相关的规则

1)著录规则在不破坏元素语义前提下不同类型的信息资源可以有自己的元数据标准

及相应的著录规则即要给出针对某类信息资源时各元素应著录哪些内容取值范围

数据类型在元素定义中已规定如何处理各类特殊事项有何著录范例等本框架

强调客观著录

2)是否采用及采用何种规范档常见的包括人名地名如古今地名对照表时代如

中国历史纪年与公元纪年对照表规范档主题词表分类法

3)检索说明查重标准是否生成拼音检索排序原则索引抽取原则是否是单独的

检索入口是否采用其它相关应用技术如词表技术GIS技术等

八结语

元数据标准是实现良好的互操作性的基础之一其选择与制订对构建数字图书馆是一项非常重要而意义深远的工作没有统一的规划和较为全面的考虑将会给以后的工作造

成障碍和浪费

北京大学数字图书馆中文元数据标准框架正是从上述角度出发进行设计和实现的鉴于国内目前较少有关于研制元数据标准的方法论方面的文章本文希望通过对标准框

架的介绍在中文元数据标准的制定方面与国内同行进行探讨和交流以推动我国元数

据标准的整体化建设为以后各不同数字图书馆系统间资源的交换共享和互操作打下基础

参考文献

1,California Digital Library, https://www.wendangku.net/doc/aa4401765.html,

2,Dublin Core Metadata Initiative,https://www.wendangku.net/doc/aa4401765.html,/

3,OAI: https://www.wendangku.net/doc/aa4401765.html,

4,OAIS https://www.wendangku.net/doc/aa4401765.html,/nost/isoas/overview.html

5,W3C metadata主页https://www.wendangku.net/doc/aa4401765.html,/Metadata/

6,W3C RDF XML XML Schema XSL主页均见W3C主页https://www.wendangku.net/doc/aa4401765.html,

7,Xiao Long, Chen Ling. Designing and Implementation of Chinese Metadata Standards: A Case Study on Metadata Applications in Peking University Rare Book Digital Library. Global Digital Library Development in the New Millennium—Fertile Ground for Distributed Cross-Disciplinary Collaboration: Proceedings of the 12th International Conference on New Information Technology. Beijing: Tsinghua University Library, May 29-31, 2001. Beijing: Tsinghua University Press, 2001.

8,北京大学数字图书馆研究所主页https://www.wendangku.net/doc/aa4401765.html,

9,陈昭珍一个XML/Metadata管理系统设计经验浅谈—Metalogy之架构与功能简介. 在

中国科学院文献情报中心中华图书资讯学教育学会主办. 海峡两岸第五届图书资讯学术研讨会论文集2000年8月28-30日成都. 台北中华图书资讯学教育学会2000年. p. 209-231

10,刘嘉. 元数据之研究博士论文. 2000年

11,吴建中等. DC元数据. 上海上海科学技术文献出版社2000年

12,谢清俊主编. 数位博物馆专案计划技术汇编. 台北国科会企划处1999年

13,张晓林. 元数据开发应用的标准化框架. 在中国科学院文献情报中心中华图书资

讯学教育学会主办. 海峡两岸第五届图书资讯学学术研讨会论文集2000年8月28-30日成都. 北京中国科学院文献情报中心2000年. p. 69-74

14,陈昭珍主编. 中文诠释资料metadata格式汇编. 台北国家图书馆2000年

中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6

中文数字化期刊的DC 元数据标准设计实例 刘廷元 (西南石油学院图书馆,成都610500) 摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论 述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的 DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据 标准实例。 关键词 元数据 标准 数字化期刊 中文期刊 设计 中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204 An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls L iu T ingyuan (L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500) Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces among vari ou s differen t digital j ou rnalw arehou ses .O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and H TM L 4.0syn tax . Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign 收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的 检索,是数字化图书馆与商业数据库共同面临的一个问题。由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。 因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。 1 数字化期刊采用DC 元数据标 准的必要性 大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。 具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。 (1)元数据描述能够为数字化期刊建立一种计算机普遍 可以理解的框架体系,使数字化期刊资源得以透明、公开。因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。 (2)元数据的描述、标识和语法能够融入因特网通用的 语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语 第21卷第6期 2003年6月     情 报 科 学   V o l 121,N o 16June, 2003

元数据_基础知识

元数据 一、定义 元数据(Metadata)是关于数据的数据。它是用于描述信息资源的高度结构化数据。 元数据在数据生产过程中或完成后建立的。 二、功能 元数据是数据与数据用户之间的桥梁 1.支持资源发现 2.组织数字信息资源 3.支持资源的互操作 4.支持数字识别 5.支持存档和保存 三、分类 1. 按功能分 描述性元数据:与事物本质有关的元数据。 管理性元数据:与事物处理方式有关的元数据。包括权限管理、防伪管理、存储和使用管理。 技术性元数据

保存性元数据 使用性元数据 2.按复杂程度分 采用简单的记录格式 结构化的格式 复杂格式 3.按描述的资源类型分 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 四、结构 1.内容结构(数据元/字段/数据项) 定义元数据的构成元素,可包括描述性元素、技术性元素、管理性元素和结构性元素。 这些构成元素要满足元数据的功能要求,因此,往往与元数据的功能相对应。 当某个元素来自某个外部标准时,要在内容结构中对此说明。 2.句法结构(元数据实体/数据表/数据结构) 定义元数据内元素之间的相互关系(例如,树状结构)。 定义元数据的格式及其描述方式。包括: (1)元素的分区分段组织 (2)元素选取使用规则 (3)元素描述方法(如Dublin Core采用ISO/IEC 11179标准)

CELTS-42基础教育教学资源元数据规范1

基础教育教学资源元数据应用规范 (CELTS-41) 教 育信息化技术标准 CELTS-42 基础教育教学资源元数据规范 CELTS-42 CD1.6 教育部教育信息化技术标准委员会 发布

目录 1 概述 (2) 1.1 目的 (2) 1.2 范围 (2) 2 规范性引用文件 (2) 3 术语定义与缩略语 (3) 3.1 本应用规范使用的基础术语 (3) 3.2 缩略语 (5) 4 元数据元素属性定义 (6) 4.1 元数据元素的属性描述 (6) 4.2 数据元素定义的规定 (7) 5 元数据结构 (7) 5.1 元数据的基本结构 (7) 5.2 元数据元素及定义 (7) 6 限定词汇与编目词汇表 (11) 6.1 限定词汇 (11) 6.2 本规范的限定词与编目方式定义 (14) 6.3 受控词汇和编目方案 (22) 6.4 一致性 (29) 7 参考文献 (31) 附录 A 供参考的部分教育学科课程分类第三级词汇表(课程内容) (33) A.1 语文课程内容分类 (33) A.2 数学课程内容分类 (34) A.3 英语课程内容分类 (37) A.4 地理课程内容分类 (38) A.5 历史课程内容分类 (39) A.6 化学课程内容分类 (40) A.7 物理课程内容分类 (43) A.8 生物课程内容分类 (48) A.9 信息技术课程内容分类 (49) A.10 音乐课程内容分类 (50) A.11 美术课程内容分类 (50)

CELTS-42基础教育教学资源元数据规范 1 概述 1.1 目的 本规范提供一个面向基础教育的教学资源数据模型。制定本规范旨在对希望在学校、企业、其他机构和个人的教学资源中使用元数据的用户提供一套资源编目准则,以使读者能快速、有效地在国家基础教育资源库及门户网站中检索到所需的教学资源,广泛地实现资源共享。 1.2 范围 本规范在《CELTS-3学习对象元数据:信息模型规范》(以下简称《学习对象元数据规范》)的基础上,结合我国基础教育的实际,定义了一组面向基础教育的教学资源元数据元素。 本规范依照教育部颁布的《义务教育课程设置实验方案》、《义务教育各学科课程标准(实验稿)》以及《学习对象元数据规范》,同时参考《都柏林核心集元数据(DCMES)》、《中国图书馆图书分类法》、美国GEM项目及澳大利亚EdNA项目的词汇分类方法,定义了一组用于元数据元素编目的受控词汇及相应的词汇表。 本规范通过与《学习对象元数据规范》的元素间映射来实现与CELTS的一致性。 本规范包括﹕ ?概述 ?规范性引用文件 ?术语定义与缩略语 ?元数据元素属性定义 ?元数据结构 ?限定词汇及编目词汇表 ?一致性 ?参考文献 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本应用规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本应用规范。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本应用规范。 ?ISO 639:规定人类语言表示方法的国际标准。 ?ISO 646:规定ASCII字符集的国际标准。 ?ISO 8601:规定日期和时间表示方法的国际标准。 ?ISO 3166:规定国家名称表示方法的国际标准。

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

元数据与元数据标准现状

元数据与元数据标准现状 福建省空间工程研究中心黄瑞垠 目前国内外研究领域对元数据含义的理解虽然存在认识深浅的区别,但总体上达成了共识[[i]]。学者们大都认可“元数据是关于数据的数据”或“描述数据的数据”的观点,但对于其具体含义,又有不同阐述。张晓林等[[ii]]认为“元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源、评价资源、追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理”。肖珑[[iii]]认为元数据“是用于提供某种资料的有关信息的结构化数据(Structured data)”。张智雄[[iv]]将元数据定义为“描述任何Internet数据和资源,促进Internet信息资源的组织和发现的数据”。李郎达[[v]]引用国际图联对元数据的定义:“Metadata即描述资料的资料,可用来协助对网络电子资源的辨识、描述、指示其位置的任何资料”。 根据以上定义,参考其他学者的观点,关于元数据,可小结如下: (1)元数据的目标:元数据的根本目标是使数据库更易于使用,或为计算机辅助软件工程(CASE)服务。 (2)元数据的内容:元数据包括对数据集的描述;对数据集中各数据项(来源、数据所有者、数据生产历史)等的说明;数据质量的描述,如:数据精度、分辨率、源数据的比例尺等;数据处理信息,如量纲的转换等;数据转换方法;数据库更新、集成的方法等等。 (3)元数据的性质:元数据是数据的描述性数据;对不同领域的数据库,元数据的内容有很大差异;元数据应尽可能反映数据的特征及规律。 (4)元数据的作用:通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。 在此基础上,我们将元数据概括为以数据高效利用和交换为目的的数据集说明性数据,它主要包括对数据集、与数据集相关信息、数据集各数据项说明以及数据用户访问、检索、更新数据库的方法,同时元数据也包括基于不同数据领域,如何尽可能全面反映基本数据的信息。

国家基础地理信息系统元数据标准(草案)

国家基础地理信息系统(NFGIS)元数据标准草案(初稿) 1. 主题内容与适用范围 本标准提供国家基础地理信息系统(NFGIS)元数据的内容,包括NFGIS数据的标识、内容、质量、状况及其他有关特征。本标准可用于对NFGIS数据集的全面描述、数据集编目及信息交换网络服务。 2. 参考标准 ISO 15046-15地理信息--元数据(CD 2.0) FGDC 地理空间数据元数据内容标准(CSDGM)v.2.0 3. 术语 3.1 元数据 是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 3.2 元数据元素(元数据Element) 元数据最基本的信息单元。 3.3 元数据实体(元数据Entity) 同类元数据元素的集合。 3.4 元数据子集(元数据Section) 相互关联的元数据实体和元素的集合。 3.5 信息交换网络(Clearinghouse) 数据生产者、管理者和用户之间的分布式、电子连接的网络。 3.6 数据志(Lineage) 数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等。 3.7 引用文献(Citation) 数据集引用或参考使用的资料、数据集、模型、文献等。 4. NFGIS 元数据层次结构和性质 4.1 元数据层次结构 本标准规定NFGIS元数据分为三层:元数据子集、元数据实体和元数据元素。 元数据元素是元数据的最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子

集是相互关联的元数据实体和元素的集合。在同一个子集中,实体可以有两类即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系。 4.2 元数据性质 本标准定义三种性质的元数据子集、实体和元素: 必选(Mandatory)──元数据的核心内容,适用于各种被描述对象,是元数据文件必须包含的子集、实体或元素。 一定条件下必选(Conditional )──针对不同的被描述对象特征元数据文件所必须提供的子集、实体或元素。 可选(Optional)──该子集、实体或元素是可选的,由用户决定是否将其包含在元数据文件中。 5. NFGIS 元数据分级和特征 5.1 元数据分级 本标准规定元数据分为两级,即: 基本元数据──提供地理数据源基本文档所需要的最少的元数据元素集。它包括回答下列问题的元数据元素: "是否有特定主题的数据集('什么')?"、"是否有特定地区的数据集('何处')?"、"是否有特定时段的数据集('何时')?" 以及"订购或了解数据集更多情况的联系人('谁')? 完全元数据──提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。 5.2 元数据特征 本元数据标准定义了8种特征: 5.2.1 名称 赋给元数据实体或元素的标记。 5.2.2 标识码 计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为: xx xx xx 前两位为元数据子集,两位数字码 中间两位为元数据实体/独立元素,两位数字码 后两位为元数据实体包含的元素,两位数字码

科学数据规范化分析与管理

科学数据规范化分析与管理
中国科学院计算机网络信息中心 胡良霖 2008年05月

提纲
1. 2. 3.
基本概念 科学数据的特点 科学数据规范化
规范化分析 3.2 规范化管理
3.1
4. 5.
示例模型 科学数据规范化工作模式

1. 基本概念
数据(data) 对事实、概念或指令的一种形式化表示,适用于以人 工或自动方式进行通信、解释或处理。 数据集(dataset) 可以标识的数据集合。 注:数据集可以是一个数据库或一个或多个数据文件。 元数据 (metadata)
定义和描述其他数据的数据。
数据模型(data model) 以反应信息结构的某种方式对数据组织的描述。 描述数据、数据关系、数据语义以及一致性约束的概 念工具的集合。[《数据库系统概念》(第三版)]
注:以上概念除特殊注明外均摘自GB/T18391.1-2002《信息技术的规范化与标准化 第一部分:数据 元的规范化与标准化框架》

1. 基本概念
数据元(data element)
用一组属性描述其定义、标识、表示和允许值的数据单元,在 一定语境下,通常用于构建一个语义正确、独立且无歧义的特 定概念语义的信息单元。
注:数据元也是构建元数据和元数据实体的基本单元。
数据元目录(data element directory)
列出并定义了全部相关数据元的一种信息资源。
注:数据元目录可有不同层级,例如,ISO/IEC委员会级、国际协会 级、行业部门级、公司级、应用系统级。
数据元值(data element value)
数据元允许值集合中的一个值。
数据元值的长度(data element value length)
数据元值中字符的数目。
注:按ASCII字符数目计算数据元值的长度,一个汉字相当于2个字符。
注:以上概念释义均出自GB/T18391.1-2002。

数据元与元数据、数据项区别

1、数据元与元数据的关系 首先肯定一点是:数据元本身也是数据单元,即也是数据。它就是一个用来对各行业的数据进行自身规范化的一个方法或一套指导的理论。用这一套方法对行业数据进行统一的名、型、值规范及分类。可以说数据元是组成数据的最小单元,是基本的。就像化学元素一样,化学元素本身并不多,即几十种,但由这几十种元素构成的物质可是形形色色。所以对于一个行业来讲数据元应该是有限的,而不是无限的。理解数据元应该从它的几个性质来认识: (1)原子性:即说明数据元具有原子特征,即是组成数据最小单元。例如“金额”本身就是一个基本数据元,“产量”,“重量”、“密度”等等 (2)集成性:按照数据本身自然联系建立数据间的关联关系,体现出了数据的集成性。同时,通过对数据元的分析,对数据的分类具有重要的指导作用。 (3)演绎性:说明可由基本数据元演绎或派生出许许多多的应用数据元,继上面的实例: 煤产量、原油产量、钢产量等,或更细致地可以演绎出:煤年产量/煤月产量/煤季产量/煤累计产量等。 从上面的讨论,我们可以看出,实际上数据元由基本数据元与应用数据元之分,所以一般来讲,我们就是指基本数据元。 可以看出,行业数据元应该是有限的,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础,同时它也为数据交换奠定基础。更重要的是在逻辑层上为我们提供了一个统的“参考模型”。以前存在的一些模型中的数据与其它模型进行共享时,可以在这个逻辑的“参考模型”一层上得到统一。 而元数据,我个人认为理解这个元数据也应有几个层面的问题,首先,从它的定义上讲,所谓的元数据是“描述数据的数据”。单从这个定义上来看,元数据的定义是相当宽泛的。例如,描述数据元有二十几个属性,即这二十几个属性(例如数据元名称、定义、类型等),我们就称为是描述数据元的元数据。这只是单纯地从它的定义上来理解,其实,一般我们所指的元数据,通常都与具体的应用挂钩的。例如,我们保存到DBMS中的表结构、索引、字典、报表格式等等均为元数据,所以可以看出,元数据(Metadata)与数据元(Data Element)不是一个层面上的概念。 二者的关系:数据元规划好了,可以为企业提供高效的,而非冗余的元数据。元数据与软件及数据仓库紧密相关。另外,数据元之后才能谈元数据,元数据更接近于应用,而数据元仅仅是从数据名、型、值以及分类的角度对数据进行规划。数据元设计是为数据集成,即数据模型构建奠定基础,它更面向数据模型,而数据元更接近实际应用。 2.信息系统基本(通用)数据元怎样划分与提取? (1)按照行业中的关键业务活动,即工作流程,从源头出发来初步地提取出数据项,即业备流中蕴涵着数据流,这样可以保障所提取的数据元能够满足多学科的应用需求;这个过程也是分专业进行分析的过程。 (2)将多专业的数据进行统一考虑,一般来讲,我国行业信息建设发展到今天数据已经有了很大程度上的积累,这样为我们提取数据项提供了更方便的条件。这样可以按照数据元的方法对数据元本身进行分类,这种分类一般有按照“对象”、“特性”以及“表示”等进行分类,这是最基本的分类。也有的可以按照自行业和特点按照应用主题或其它进行分类。 相似类别的数据分类到一起,这样可以统一考虑该类数据的名、型及值等问题。数据元的提取是一个逐步求精的过程,不可能一次就完成,它要有一个反复的过程。 上面所说的按照对象来分类,是指该数据元是描述什么对象的,例如,在石油行业,井号,这个数据元本身就是描述“井”这个对象的,所以如果按照对象来分类,那么它将被分到“井”这个对象。可以看出,按照对象来分类时,可以为下一步建模奠定一个好的基础。 按照特性与表示也可以从不同的角度来对这些数据元进行分类。对基本数据元的分析,最后可能会得到一个层次关系,有的人问,这个基本数据元到底要分解到何时为止呢?回答是:具体抽象为哪一层与行业应用有关系,这不是死规定。一般来讲,数据元如果越基本,那么它的抽象度应越高,而距离实际应用主题就越远。这就要根据实际而定了。

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

林业科学数据元数据标准

林业科学数据元数据标准(V3.10版) 1 主题容与适应围 本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、容、分发、数据质量、数据表现、参照系和元数据参考信息等容。 本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。 本标准的元数据分为两级,即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息容。在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。用户可以在核心元数据的基础上,根据具体需求和数据的实际情况选用、扩充详细元数据容,建立相应级别的元数据库。 2 规性引用文件 下列规性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的容)或修订版均不适用于本标准。但是,鼓励根据本标准达成协议的各方,研究是否可使用这些文件的最新版本。但是不注日期的引用文件,其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。 科学数据共享工程技术标准—科学数据共享元数据标准容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 2260-2002 中华人民国行政区划代码 GB/T 7156-1987 文献等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic information—Metadata) 3 术语和定义 3.1 数据集dataset 数据集是可以表示的数据集合,数据集可以是数据库,也可以是数据库中的一个(逻辑组成)部分。本标准所指的数据集是指不可再细分的数据集,即可以用一个数据字典能够唯一描述的数据集合。3.2 数据集系列dataset series 数据集系列是同一主题的多个数据集的组合,都符合相同产品规。 3.3 元数据metadata 元数据是关于数据的数据,用来描述数据的容、覆盖围、质量、管理方式、数据的所有者、数据的提供方式等有关信息。 3.4 元数据元素 metadata element

元数据管理解决方案-2018.3.27

元数据解决方案 随着报价系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。 一、什么是元数据 元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 1. 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存 取控制)。 2. 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型,业务概念模型与物理数据的依赖, 二、元数据的作用 元数据可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;元数据清晰的描述了数据的来龙去脉,描述了数据抽取转换规则,是保证数据质量的关键;元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理,可以支持需求变化,从而提高系统的可扩展性;打通数据孤岛,统一数据定义,形成企业级知识传承平台,元数据管理使得数据变的更有价值。三、元数据管理 在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。 1. 元数据采集 技术元数据的采集,根据现有元数据设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的,ETL等产生的元数据,对于元数据管理工具支持的格式可直接进行导入,对于一些自定义的规则,需要进行格式转换并导入。

数据元的规范与标准化框架

数据元的规范与标准化框架 数据表示和管理的基本概念 .数据元 数据元是称之为数据的一个广义概念的特殊成员。总而言之,数据是事实、想法或命令的一种表示数据被收集、组织、记录、处理和存放在一个可检索的表中。数据还必须适用于以人工或自动方式进行交换、解释及加工处理。 有许多结构用于数据组织与管理,如数据合成、实体、文件、对象类、对象、记录、关联、关系、行、段、主体域、表以及元组。它们与数据元并不具有相似性,但可以包括或通过一些数据库实现或逻辑建模来等同于数据元的支持。 字节和位也是数据的构件,尽管它们被用于电子媒体中数据元的注册,但并不等同于数据元。在数据库中,数据元可以作为信息组(符号组、域)或字符列来处理。在的数据模型中,它是一个属性(见图)。在某特定的相关环境中被视为不可分割时,一个数据元则被作为一个单独的数据单位在自然界中,它是数据的单位,表示关于对象类的单独事实。(如:一个被赋值“”和“”的字符码表示了“雇员”这一对象类的婚姻状态的属性)。在其使用范围内,它不可能被分解为更多且具有有用含义的基本信息组。因而,数据元可被定义为在用户论述领域内是与用户相关的。数据元是自然界中对象类特性以电子或书面形式的表示。 表示 一个特性可由能够被人们解释的某一符号集来体现。一个单独的特性可由几个交替的数据元甚至数据元组(通常称之为数据合成,有时也称之为数据元集或数据元链)来表示。这样,一个特性可以由数据元组构成的数据合成或一个单独的数据元表征。 常用法 所有数据从业者和理论家都会涉及数据元的概念。无论用什么方法或技术,数据元都是整个软件开发生命周期()的公用纽带。在的早期阶段,它们曾被视为实体(或对象类)的属性在的后期,具体的数据值被赋予它们的实例作为符号组或字符列。在的任一阶段,对于软件的生产者和用户来说,数据元是可识别的数据元是数据共享和共同持有的最小单元。一些数据元得以共享的信息系统成分有)企业信息模型)数据模型)数据流程图)数据库设计(模式、文件、表格))接口规范)计算机程序 1.2.1数据模型中的数据元 在数据建模出现之前,“数据元”这个术语已被普遍使用。用于表示指导企业商务信息的数据单元传统上被称之为数据元。数据建模的演进就是为捕捉这些数据表示的语义提供一种有效的方法。图描述了用于中的数据元结构和术语与一些更为传统数据建模术语的关联在一个

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

电子文件元数据规范

电子文件元数据规范 1 范围 本规范适用于九省区各级国家档案馆、各级党政机关、社会团体、企事业单位对电子文件进行以保证凭证性为目的的管理活动。其他社会组织可参照执行 在电子文件管理过程中使用元数据可实现以下目的: ——确保并证明归档电子文件的真实性、完整性与有效性,从而保证其凭证价值; ——有利于归档电子文件的保护,实现长期保存; ——在异构的信息系统中对归档电子文件进行规范、有效的管理,保证归档电子文件的可捕获、可收集、查长期利用; ——对归档电子文件及馆(室)藏档案数字化资源进行集成管理,实现有效、方便地查询、检索与利用。 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注明日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励根据本规范达成协议的各方研究是否可使用这些文件的最新版本。 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 3760-1995 文献叙词标引规则 GB/T 3792.1-1983 文献著录总则 GB/T 7156-2003 文献保密等级代码 GB/T 7408-2005 数据元和交换格式信息交换日期和时间表示法 GB/T 9704-1999 国家行政机关公文格式 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 11821-2002 照片档案管理规范 GB/T 13959-1992 文件格式与代码编制方法 GB/T 13967-1992 全宗单 GB/T 15418-1994 档案分类标引规则 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 DA/T 1-2000 档案工作基本术语 DA/T 12-1994 全宗卷规范 DA/T 13-1994 档号编制规则 DA/T 18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 31-2005 纸质档案数字化技术规范 《中华人民共和国电子签名法》 中办发[1996]14号中国共产党机关公文处理条例 国发﹝2000﹞23号关于发布《国家行政机关公文处理办法》的通知 国档发[1987]4号关于颁发《编制全国档案馆名称代码实施细则》的通知 国家档案局第6号令《电子公文归档管理暂行办法》,2003年7月28日 国家档案局第8号令《机关文件材料归档范围和文书档案保管期限规定》,2006年12月19日ISO 15489 Information and documentation—Records management ISO 23081-1 Information and documentation – Records Management Processes – Metadata for Records—Part 1: Principles

相关文档