文档库 最新最全的文档下载
当前位置:文档库 › 科学数据库核心元数据标准

科学数据库核心元数据标准

项目编号INFO-115-C01

文档编号TR-REC-014中国科学院数据应用环境建设和服务

科学数据库核心元数据标准

(版本号2.2)

中国科学院数据应用环境建设和服务项目组

2009年10月

目 录

1 范围 (3)

2 规范性引用文件 (3)

3 术语和定义 (3)

4 符号和缩略语 (4)

4.1 缩略语 (4)

4.2 数据集标识(URI)命名规则 (4)

4.3 网址和文件名 (4)

4.4 日期 (4)

4.5 图例说明 (5)

5 一致性 (6)

6 约定 (7)

7 核心元数据 (7)

7.1 概述 (7)

7.2 数据集元数据 (8)

7.2.1描述信息 (9)

7.2.2 元数据参考信息 (20)

7.2.3 联系信息 (22)

附录A 元数据扩展和应用方案 (25)

A.1 元数据标准扩展的必要性 (25)

A.2 元数据应用方案 (25)

附录B 科学数据库元数据标准使用指南 (30)

B.1 元数据标准定制 (30)

B.2 元数据内容著录和工具 (32)

附录C 代码表 (34)

科学数据库核心元数据

1 范围

本标准面向中国科学院数据应用环境建设与服务项目规定了各种需求层次的元数据应用所需要的最小元数据元素(简称为核心元数据),以及为满足各学科领域的特殊需求,对元数据进行扩展和制定元数据应用方案的规则和方法。

本标准适用于科学数据库的编目和描述、组织管理,也可用于数据资源的交换、集成和服务。

2 规范性引用文件

下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

TR-REC-017 资源唯一标识符规范

3 术语和定义

下列术语和定义适用于本标准。

3.1

数据集 Dataset

可标识的数据集合。一个数据集可能是一个较小的数据集合,在物理上或逻辑上位于一个较大的数据集之内;反之,一个数据集也可能由若干数据集组成,是这些子数据集的父数据集。理论上,一个数据集可以小到单个数据文件或关系数据库中的单个数据表,大到图像、音频、视频、软件等也可以被视为数据集。

3.2

数据集类型 Dataset type

根据数据集的结构或资源特征,对数据集所作的类型划分。

3.3

数据类型 Data type

对数据的有效值域及对该值域中的值所允许的操作的规定。例如,整型、实型、布尔型、日期类型、字符串类型等。对于复合元素,其数据类型用“复合类型”来标识。

3.4

元数据 Metadata

关于数据的数据。本规范中,具体指描述数据及其环境的数据。

3.5

元数据元素 Metadata element

元数据的基本单元。本文档中对每一个元数据元素的定义都用一个包含九个属性的集合来描述,这些属性是中文名称、英文名称、标识、定义、类型、值域、可选性、最大出现次

数、注释。

3.6

模块 Module

该标准按照层次结构组织元数据元素,不同的数据元素和复合元素组成一个模块。该层次结构的最高起始点为复合元素“数据集元数据”,该复合元素由其它表示数据集不同方面特征的复合元素构成,即本标准中的三个模块——描述信息模块、元数据参考信息模块和联系信息模块。模块是本标准中一个最大的组织单位。

3.7

复合元素 Compound data element

一个复合元素是由若干数据元数据元素、或者元数据数据元素与其它复合元素、或者若

干其它复合元素共同组成的。它通常用来表示较高层次的概念。

3.8

实体 Entity

按一定结构组织起来的数据的集合,其结构可以用一组属性来刻画。例如,关系数据库

中的数据表就是一个典型的实体代表。

4 规则和缩略语

4.1 缩略语

URI 统一资源标识符(Uniform Resources Identifier)

4.2 数据集标识(URI)

数据集标识对于数据集资源描述和发现的意义和重要作用,和其他资源特别是网络资源的标识具有同样的重要性,用来实现数据资源在网络环境下的唯一识别数据集。数据集URI 命名执行《TR-REC-017 资源唯一标识符规范》。

4.3 网址和文件名

对于其他的资源,如文件名、计算机系统的网络地址等也应遵循Internet的“统一资源标识符-URI”的规定。有关URI约定的详细信息,请参阅https://www.wendangku.net/doc/d513363276.html,/rfc/rfc2396.txt。

4.4 日期

有关日期的规定,采用ISO 8601关于日期的表示格式,即YYYY-MM-DD的形式。其中,YYYY是公历的年份,MM是一年中的月份,DD是一个月中的天。例如:2003-04-01 表

元素标识

元素标识

元素标识

元素标识

示 2003 年4月1日,2002-06表示2002年6月,1999表示1999年。 3.4.1 时间

有关一天中时间的规定,采用 ISO 8601关于时间的表示格式,即使用24小时的计时方法:hh:mm:ss 。其中,hh 表示一天中自午夜之后的小时数,mm 表示某一小时自开始之后的分钟数,ss 表示某一分钟自开始之后的秒数。例如:23:59:59 表示午夜之前的23点59分59秒,06:10表示早上6点10分,12表示中午12点。 3.4.2 日期和时间

有关日期和该日期中时间的表示,采用ISO 8601中同时表示日期和时间的格式:YYYY-MM-DDThh:mm:ss 。其中的大写字母T 用于分割日期和时间。例如:2003-04-01T13:01:02表示2003年4月1日下午1点1分2秒。 4.5 图例说明

图4-1表示:A 为一个复合元素,它有四个子元素B 、C 、D 、E ,其中:

B 为必选元素但不可重复著录(即必须著录且只能著录一次)。必选但不可重复著录元素

用来表示。

C 为可选元素但不可重复著录(即可著录也可不著录,最大著录次数为一次)。可选但不可重复著录元素用

来表示。

D 为必选元素且可重复著录(即必须著录,不限制著录次数)。必选且可重复元素用

来表示。

E 为可选元素且可重复著录(即可著录也可不著录,不限制著录次数)。

可选且可重复元素用来表示。

图4-1 元素的必选性、可选性和可重复性

图4-2 元素的选择关系

图4-2表示:复合元素A的三个子元素B、C、D之间存在着选择关系,三者不能同时著录。即,如果著录了B,则不能著录C和D;同理,著录了C,则

不能著录B和D;著录了D,则不能著录B和C。元素之间的选择关系

用来表示。

图4-3 复合类型

图4-3表示:虚线框的作用在于更清晰地标示出A为一个复合元素以及A所包含的子元素,虚线框左上角的字符串AType是为元素A定义的复合类型名称。

图4-4 元素引用

图4-4表示:元素A为含有三个子元素的复合元素,其子元素B、C、D已经被分别定义为单独的元素,此处被元素A直接引用,能体现体系内部元素的复

用。

5 一致性

本标准定义的元数据元素在第7章中阐明。

用户制定的元数据扩展和应用方案照附录A中的要求和规定定义和描述。

一个声明与本标准严格一致的元数据应用方案只包括本标准中定义的元数据元素、元数据实体和元数据子集。一个声明与本标准一致的元数据应用方案可包括扩展的元数据元素和元数据子集。

6 约定

对于每个元数据元素,本标准从语义和语法两方面进行描述。具体来说,使用以下9个属性(基于GB/T 18391.3-2001定义有关属性)进行定义:

a)中文名称

赋予元数据元素的一个中文标记。

b)英文名称

元数据元素的英文名称,一般用英文全称。

c)标识

用字符串表示的元素标识。

d)定义

对元数据元素含义的解释,以使之与其他元数据元素在概念上相区别。

e)类型

元素所属数据类型,如复合类型(即该元素为复合元素)、整数类型、实数类型、文本类型等。

f)值域

元数据元素所允许的值的集合。

g)可选性

元素是必选元素还是可选元素。

h)最大出现次数

元素所允许的著录次数,如1(不可重复著录)、n(可重复著录无限次)等。

i)注释

对元素的补充说明、著录格式的建议及其它。

7 核心元数据

7.1 概述

核心元数据面向数据集层次的科学数据资源,定义了一组元数据模块和元素。核心元数据主体包括描述信息、元数据参考信息二个主要复合元素模块,且二者均为必选模块。此外,还包括联系信息一个辅助模块,此模块不可单独使用,供其它模块的特定元素在需要的时候进行引用。

7.1.1描述信息

描述信息模块是记录数据库数据集基本信息模块,是一个必选模块。通过使用描述信息模块,建库单位可以对数据集的基本属性信息进行详细描述,例如数据集名称、简介、创建者、来源等,数据集用户可通过浏览这些描述信息对数据集形成一个总体了解。

7.1.2 元数据参考信息

元数据参考信息模块是关于数据集元数据本身状态的信息,为必选模块,包括元数据标准名称、元数据创建日期、元数据联系信息等内容。通过该模块,一方面,数据集用户可以了解到与元数据记录的建立有关的信息,另一方面,元数据参考信息将有助于元数据维护人员进行元数据的修改与维护。

7.1.3 联系信息

联系信息模块记录与数据集有关的联系信息。该模块不可单独使用,而是被主要模块的有关元素引用。

7.2 数据集元数据

中文名称:数据集元数据

英文名称:Dataset Metadata

标识:Dataset

定义:关于数据集的内容、权限和其它信息的数据

类型:复合类型

注释:由描述信息、元数据参考信息两个主要模块组成。联系信息是其一个辅助模块,它不能单独使用,只能被主要模块在需要时引用。

图7-1 描述信息7.2.1描述信息

中文名称:描述信息

英文名称:Description Information

标识:DescriptionInfo

定义:关于数据集的基本描述信息

类型:复合类型

可选性:必选

最大出现次数:1

注释:是关于数据集的名称、简介、创建日期、创建者等的基本信息,着重描述数据资源的一些基本属性,且与DC、CSDGM等国际上主要的元数据标准的相应元素

基本一一对应。

7.2.1.1 名称

中文名称:名称

英文名称:Title

标识:Title

定义:数据集的全名

类型:文本

值域:自由文本

可选性:必选

最大出现次数:1

注释:数据集中文名称指数据集对象的正式公开的全称。,当描述对象是科学数据库系统中的数据库时,科学数据库参建单位名称参见附录C 代码表1

7.2.1.2 别名

中文名称:别名

英文名称:Alias

标识:Alias

定义:数据集的其他名称。

类型:文本

值域:自由文本

可选性:可选

最大出现次数:N

注释:有些数据集除中文全称外,还有其他各种名称,诸如常用简称、缩写等等,所有这些名称均著录在该元素下。

7.2.1.3 URI

中文名称:URI

英文名称:URI

标识:URI

定义:根据4.2数据集URI命名规则,数据集创建单位赋予数据集的唯一标识符。

类型:文本

值域:唯一标识符命名字符集和有效分割符“.”。

可选性:必选

最大出现次数:1

注释:在本标准第一部分的4.2 “数据集标识命名规则”中明确规定了数据集唯一标识符的命名字符集及命名规则。对于科学数据库项目内所有数据集的唯一标示符命

名应该严格遵循上述规定。当描述对象是科学数据库系统中的数据库时,科学数

据集URI前缀参见附录C 代码表1

7.2.1.4 关键词

中文名称:关键词

英文名称:Keyword

标识:Keyword

定义:由用户自由选取的描述数据集内容的词语

类型:文本

值域:自由文本

可选性:必选

最大出现次数:N

注释:由用户自由选取的能够准确描述数据集内容的词语,此元素必选。

7.2.1.5 简介

中文名称:简介

英文名称:Introduction

标识:Introduction

定义:对数据集内容的文本介绍

类型:文本

值域:自由文本

可选性:必选

最大出现次数:1

注释:简介可以包括但不限于以下部分:摘要、目录、对以图形揭示内容的数据集的文字说明,或者其它有关数据集内容的自由文本描述。

7.2.1.6 目的

中文名称:目的

英文名称:Purpose

标识:Purpose

定义:对开发该数据集的目的的说明

值域:自由文本

可选性:可选

最大出现次数:1

注释:是对开发数据集的目的的自由文本形式的简要叙述,以使数据集检索者了解数据集的背景知识。

7.2.1.7 数据分类

中文名称:数据分类

英文名称:Taxonomy

标识:Taxonomy

定义:数据资源的内容所涉及的分类

类型:复合类型

可选性:可选

最大出现次数:N

注释:在本标准中,数据分类包含“类目名称”和“分类表”两个子元素,对于科学数据库中的多数数据资源来讲,学科分类主要依据中华人民共和国国家标准学科分

类与代码表GB/T 13745-92,并根据科学数据库的特点和资源类型的范围,对部

分学科进行了展开。同时,根据科学数据的具体内容,也可参考图书分类法、档

案分类法等其他权威分类体系进行著录。

7.2.1.7.1 类目名称

中文名称:类目名称

英文名称:Taxonomic Category

标识:TaxonomicCategory

定义:数据资源的内容所属的类目名称

类型:文本

值域:自由文本

可选性:必选

最大出现次数:N

7.2.1.7.2 分类表

中文名称:分类表

英文名称:Reference Taxonomy

标识:RefTaxonomy

定义:数据资源的内容所属的分类体系

类型:文本

值域:自由文本

最大出现次数:1

7.2.1.8 范围

中文名称:范围

英文名称:Coverage

标识:Coverage

定义:数据集内容所涉及的时间和空间范围

类型:复合类型

可选性:可选

最大出现次数:1

注释:该复合元素包括时间范围和空间范围两个元素。根据数据集内容的实际需要进行著录。

7.2.1.8.1 时间范围

中文名称:时间范围

英文名称:Temporal Range

标识:Temporal

定义:数据资源的内容所涵盖的时间范围

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:数据资源的内容所涵盖的时间范围可以是单个时间点,也可以是时间段,包括开始时间和结束时间等。有关日期和时间著录格式,请参阅“符号和缩略语”一节。

7.2.1.8.2 空间范围

中文名称:空间范围

英文名称:Spatial Range

标识:Spatial

定义:数据资源的内容所涵盖的空间范围

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:数据资源的内容所涵盖的空间范围既包括平面空间范围,也涉及到空间范围,特别是地理数据资源,可通过平面与垂向的组合实现对三维空间的范围描述。

7.2.1.9 数据来源

中文名称:数据来源

英文名称:Source

标识:Source

定义:对其他资源的参照,当前数据资源部分或全部源自这些参照资源。

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:当前数据集可能部分或全部源自于数据来源元素所标示的资源。

7.2.1.10 类型

中文名称:类型

英文名称:Type

标识:Type

定义:对数据集所属类型的说明

类型:文本

值域:附录C代码表2

可选性:必选

最大出现次数:1

注释:对数据集的分类。在科学数据库中,数据集主要指关系型数据库和文件系统,此外,也可以将图像、音频、视频、软件等视为数据集。

7.2.1.11 创建者

中文名称:创建者

英文名称:Creator

标识:Creator

定义:创建数据集的组织机构。

类型:文本

值域:当描述对象是科学数据库系统中的数据库时,科学数据库参建单位名称见附录C 代码表6

可选性:必选

最大出现次数:N

注释:当描述对象是科学数据库系统中的数据库时,科学数据库参建单位名称见附录C 代码表6,该代码表列出了中国科学院系统内可能的数据集创建者。

7.2.1.12 其他贡献者

中文名称:其他贡献者

英文名称:Contributor

标识:Contributor

定义:除创建者之外,对数据集内容创建做出贡献的个人或组织。

类型:文本

值域:自由文本

可选性:可选

最大出现次数:N

7.2.1.13 创建日期

中文名称:创建日期

英文名称:Creation Date

标识: CreationDate

定义:数据集内容的创建日期

类型:日期类型

值域:自由日期

可选性:必选

最大出现次数:1

注释:一般来说,数据集创建是一个阶段性工作,建议“数据集创建日期”使用数据集创建相对完整、完善时的日期。有关日期格式规定,参阅“符号和缩略语”一节。

7.2.1.14 更新频率

中文名称:更新频率

英文名称:Update Frequency

标识:UpdateFrequency

定义:描述数据集在多长的时间内更新一次

类型:文本

值域:附录C代码表3

可选性:可选

最大出现次数:1

注释:数据更新频率可以作为评价数据的新旧和数据质量的一项指标,建议用户在可能的情况下尽量提供该元素。

7.2.1.15 数据格式

中文名称:数据格式

英文名称:Data Format

标识:DataFormat

定义:数据集或其所包含文件的数据格式

类型:文本

值域:自由文本,数据格式可参考附录C 代码表5列出的可能格式。

可选性:可选

最大出现次数:N

注释:对于数字化形式的数据集,建议根据本学科实际应用到的数据格式尽可能著录该元素。如果数据集包含多种格式的文件,可重复著录。数据格式可参考附录C 代

码表5列出的可能格式。

7.2.1.16 数据量

中文名称:数据量

英文名称:Size

标识:Size

定义:数据集所包含数据量的说明

类型:复合类型

可选性:可选

最大出现次数:1

注释:对于数字化形式的数据集,应尽可能对此元素进行著录。数据量的表示通常分为记录数和存储量(物理存储空间)两种形式,不同的数据集适用于采取不同的数

据量计量形式。

7.2.1.16.1 记录数

中文名称:记录数

英文名称:Number of Records

标识:RecordNumber

定义:关系型数据库类型的数据集所包含的记录数

类型:整型

值域:非负整数

可选性:可选

最大出现次数:1

7.2.1.16.2 存储量

中文名称:存储量

英文名称:Memory Size

标识:MemorySize

定义:以数据集所占的物理存储空间表示的数据量

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:著录方式为表示存储量的实数+存储量单位,例如5.98KB。用户可以根据需要选择KB、MB、GB等作为单位。

7.2.1.17 语种

中文名称:语种

英文名称:Language

标识:Language

定义:数据集内容所采用的语种

类型:文本

值域:自由文本

可选性:可选

最大出现次数:N

注释:科学数据库中所采用的主要语种为汉语,著录可参考ISO 639:语种代码表。

7.2.1.18 URL

中文名称:URL

英文名称:URL

标识:URL

定义:数据集提供网络服务的链接地址

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:连接数据集的有效链接。有关URL的格式,请参阅“符号和缩略语”一节。7.2.1.19 关联

中文名称:关联

英文名称:Relation

标识:Relation

定义:与当前数据集或数据资源相关的其他数据集或数据资源

类型:复合类型

可选性:可选

最大出现次数:N

注释:分为关联数据集名称、关联URI和关联类型三个子元素。

7.2.1.19.1 关联类型

中文名称:关联类型

英文名称:Relationship

标识:Relationship

定义:关联数据集与当前数据集之间的关系类型

类型:文本

值域:附录C代码表4

可选性:必选

最大出现次数:1

注释:关联类型分为“包含”、“属于”、“相关”等三种。

7.2.1.19.2 关联数据集名称

中文名称:关联数据集名称

英文名称:Related Title

标识:RelatedTitle

定义:与当前数据集或数据资源相关的数据集或数据资源的题名

类型:文本

值域:自由文本

可选性:必选

最大出现次数:1

注释:此元素表示在内容上与当前数据集有关系的数据集的名称,与“关联类型”元素联合使用。

7.2.1.19.3 关联URI

中文名称:关联URI

英文名称:Related URI

标识:RelatedURI

定义:关联数据集的URI

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:关联数据集的唯一标识,用户通过该标识可进一步了解此关联数据集。

7.2.1.20 数据质量

中文名称:数据质量

英文名称:Data Quality Information

标识:DQInfo

定义:记录数据集的数据质量状况的信息

类型:复合元素

可选性:可选

最大出现次数:1

注释:主要记录数据集生产过程中采取的与数据采集、整理、质量控制等有关的步骤及相关信息、以及数据集成品的质量评价分析结果等信息。此模块包含描述数据生

产过程的“数据志”和描述成品数据集质量信息的“质量报告”两个子元素。

7.2.1.20.1 数据志

中文名称:数据志

英文名称:Lineage

标识:Lineage

定义:数据生产过程日志

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:对数据生产过程中所采取的数据采集、整理、质量控制步骤/措施/方法及其相关信息的描述。

7.2.1.20.2 质量报告

中文名称:质量报告

英文名称:Report

标识:Report

定义:对数据集数据质量有关信息的链接指向

类型:文本

值域:自由文本

可选性:可选

最大出现次数:N

注释:由于当前数据集质量研究的诸多成果无法直接应用到科学数据库项目中,且基于项目内数据集质量控制和评测的需求,科学数据库项目已启动对数据质量的研

究,故此元素为指向数据集质量信息的链接地址,链向在数据质量相关成果的规

约下的数据质量报告相关元数据。

7.2.1.21 权限声明

中文名称:权限声明

英文名称:Right Statement

标识:Rightstatement

定义:数据集所属权限的声明

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:典型的权限声明包括对数据集的版权声明。除版权声明外,权限声明还包含对数据集访问约束、使用约束以及其它限制的说明。访问约束指为了数据的保密或者

保护知识产权而对数据集的访问和获取施加的任何限制,例如某个数据集只限于

一定的IP地址范围或者只限于某些机构才能访问和获取。使用约束是针对获取

到数据集的用户而言的,它包括为了数据的保密或者保护知识产权而对数据集的

使用施加的任何限制和保证条款。

7.2.1.22 共享声明

中文名称:共享声明

英文名称:Share

标识:Share

定义:对数据集内容的共享说明

类型:文本

值域:自由文本

可选性:可选

最大出现次数:1

注释:数据集允许共享的数据范围等相关说明。

图7-2 元数据参考信息

7.2.2 元数据参考信息

中文名称:元数据参考信息

英文名称:Metadata Reference Information

标识:MetadataReferenceInfo

定义:有关数据集元数据的信息

类型:复合类型

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

专门数字对象描述元数据规范

专门数字对象描述元数据规范 研制工作手册 (试行) 《专门数字对象描述元数据规范》子项目组 2003年3月 为了保证子项目组研制的各种元数据规范在功能、数据结构、格式、语义语法等方面的一致性和整体性,同时也为了今后在更大范围内实现与其他系统或数字图书馆的互操作和数据共享,项目组特制定本手册。 手册主要内容包括: 1,描述元数据的定义及功能 2,元数据规范的设计原则 3,描述元数据的基本结构、元素组成与扩展规则 4,描述体系与定义方法 5,元数据规范应用的相关规则 6,设计流程与工作规范 7,文档规范 本手册为试行稿,其中很多内容尚需在实际工作过程进行修订,涉及到核心元素集、元素定义方法、扩展规则、描述体系等方面的内容,将与“基本描述元数据规范”子项目组进一步探讨后确定。各工作小组可暂时按此执行,在执行过程中如有问题,可向子项目组提出,并在子项目组会议上讨论修改并通过。 一、描述元数据的定义及功能 描述元数据:即用于描述或标识数字对象内容的元数据。 设计描述元数据规范时,要充分考虑和实现元数据的下列功能: 描述:对信息对象的内容、属性等的描述,是元数据最基本的功能,为信息对象的检索与利用奠定了基础。 定位:即有关信息资源的位置方面的信息,如DOI、URL、URN等的记录,由此可知信息对象之所在,有利于信息的发现和检索。 管理:对信息对象的权限管理(版权、所有权、使用权)的揭示和描述。 检索:在描述过程中,将信息对象中的重要信息抽出标引并加以组织,建立它们之间的关系,为用户提供多层次、多途径的检索体系,从而有利于用户发现其真正需要的信息。 评估和选择:由于元数据的描述,使用户在不必浏览信息对象本身的情况下,对信息对象有了基本了解和认识,可以对其价值进行评估,从而决定信息的取舍。 交互:包括与编目人员和用户之间的交互。元数据在结构上呈现出一定的开放性,允许

元数据_基础知识

元数据 一、定义 元数据(Metadata)是关于数据的数据。它是用于描述信息资源的高度结构化数据。 元数据在数据生产过程中或完成后建立的。 二、功能 元数据是数据与数据用户之间的桥梁 1.支持资源发现 2.组织数字信息资源 3.支持资源的互操作 4.支持数字识别 5.支持存档和保存 三、分类 1. 按功能分 描述性元数据:与事物本质有关的元数据。 管理性元数据:与事物处理方式有关的元数据。包括权限管理、防伪管理、存储和使用管理。 技术性元数据

保存性元数据 使用性元数据 2.按复杂程度分 采用简单的记录格式 结构化的格式 复杂格式 3.按描述的资源类型分 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 四、结构 1.内容结构(数据元/字段/数据项) 定义元数据的构成元素,可包括描述性元素、技术性元素、管理性元素和结构性元素。 这些构成元素要满足元数据的功能要求,因此,往往与元数据的功能相对应。 当某个元素来自某个外部标准时,要在内容结构中对此说明。 2.句法结构(元数据实体/数据表/数据结构) 定义元数据内元素之间的相互关系(例如,树状结构)。 定义元数据的格式及其描述方式。包括: (1)元素的分区分段组织 (2)元素选取使用规则 (3)元素描述方法(如Dublin Core采用ISO/IEC 11179标准)

元数据与元数据标准现状

元数据与元数据标准现状 福建省空间工程研究中心黄瑞垠 目前国内外研究领域对元数据含义的理解虽然存在认识深浅的区别,但总体上达成了共识[[i]]。学者们大都认可“元数据是关于数据的数据”或“描述数据的数据”的观点,但对于其具体含义,又有不同阐述。张晓林等[[ii]]认为“元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源、评价资源、追踪资源在使用过程中的变化,实现简单高效地管理大量网络化数据,实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理”。肖珑[[iii]]认为元数据“是用于提供某种资料的有关信息的结构化数据(Structured data)”。张智雄[[iv]]将元数据定义为“描述任何Internet数据和资源,促进Internet信息资源的组织和发现的数据”。李郎达[[v]]引用国际图联对元数据的定义:“Metadata即描述资料的资料,可用来协助对网络电子资源的辨识、描述、指示其位置的任何资料”。 根据以上定义,参考其他学者的观点,关于元数据,可小结如下: (1)元数据的目标:元数据的根本目标是使数据库更易于使用,或为计算机辅助软件工程(CASE)服务。 (2)元数据的内容:元数据包括对数据集的描述;对数据集中各数据项(来源、数据所有者、数据生产历史)等的说明;数据质量的描述,如:数据精度、分辨率、源数据的比例尺等;数据处理信息,如量纲的转换等;数据转换方法;数据库更新、集成的方法等等。 (3)元数据的性质:元数据是数据的描述性数据;对不同领域的数据库,元数据的内容有很大差异;元数据应尽可能反映数据的特征及规律。 (4)元数据的作用:通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。 在此基础上,我们将元数据概括为以数据高效利用和交换为目的的数据集说明性数据,它主要包括对数据集、与数据集相关信息、数据集各数据项说明以及数据用户访问、检索、更新数据库的方法,同时元数据也包括基于不同数据领域,如何尽可能全面反映基本数据的信息。

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

CELTS-42基础教育教学资源元数据规范1

基础教育教学资源元数据应用规范 (CELTS-41) 教 育信息化技术标准 CELTS-42 基础教育教学资源元数据规范 CELTS-42 CD1.6 教育部教育信息化技术标准委员会 发布

目录 1 概述 (2) 1.1 目的 (2) 1.2 范围 (2) 2 规范性引用文件 (2) 3 术语定义与缩略语 (3) 3.1 本应用规范使用的基础术语 (3) 3.2 缩略语 (5) 4 元数据元素属性定义 (6) 4.1 元数据元素的属性描述 (6) 4.2 数据元素定义的规定 (7) 5 元数据结构 (7) 5.1 元数据的基本结构 (7) 5.2 元数据元素及定义 (7) 6 限定词汇与编目词汇表 (11) 6.1 限定词汇 (11) 6.2 本规范的限定词与编目方式定义 (14) 6.3 受控词汇和编目方案 (22) 6.4 一致性 (29) 7 参考文献 (31) 附录 A 供参考的部分教育学科课程分类第三级词汇表(课程内容) (33) A.1 语文课程内容分类 (33) A.2 数学课程内容分类 (34) A.3 英语课程内容分类 (37) A.4 地理课程内容分类 (38) A.5 历史课程内容分类 (39) A.6 化学课程内容分类 (40) A.7 物理课程内容分类 (43) A.8 生物课程内容分类 (48) A.9 信息技术课程内容分类 (49) A.10 音乐课程内容分类 (50) A.11 美术课程内容分类 (50)

CELTS-42基础教育教学资源元数据规范 1 概述 1.1 目的 本规范提供一个面向基础教育的教学资源数据模型。制定本规范旨在对希望在学校、企业、其他机构和个人的教学资源中使用元数据的用户提供一套资源编目准则,以使读者能快速、有效地在国家基础教育资源库及门户网站中检索到所需的教学资源,广泛地实现资源共享。 1.2 范围 本规范在《CELTS-3学习对象元数据:信息模型规范》(以下简称《学习对象元数据规范》)的基础上,结合我国基础教育的实际,定义了一组面向基础教育的教学资源元数据元素。 本规范依照教育部颁布的《义务教育课程设置实验方案》、《义务教育各学科课程标准(实验稿)》以及《学习对象元数据规范》,同时参考《都柏林核心集元数据(DCMES)》、《中国图书馆图书分类法》、美国GEM项目及澳大利亚EdNA项目的词汇分类方法,定义了一组用于元数据元素编目的受控词汇及相应的词汇表。 本规范通过与《学习对象元数据规范》的元素间映射来实现与CELTS的一致性。 本规范包括﹕ ?概述 ?规范性引用文件 ?术语定义与缩略语 ?元数据元素属性定义 ?元数据结构 ?限定词汇及编目词汇表 ?一致性 ?参考文献 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本应用规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本应用规范。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本应用规范。 ?ISO 639:规定人类语言表示方法的国际标准。 ?ISO 646:规定ASCII字符集的国际标准。 ?ISO 8601:规定日期和时间表示方法的国际标准。 ?ISO 3166:规定国家名称表示方法的国际标准。

《公用数据元目录》标准

科学数据共享通用标准培训系列教材 《公用数据元目录》标准 培训教材 科学数据共享工程办公室 2005年12月

目录 目录.................................................................................................................................- 2 - 一、编制背景.....................................................................................................................- 3 - 二、编制思路.....................................................................................................................- 3 - (一)、国内外数据元标准化情况............................................................................- 4 - (二)、本标准的解决思路........................................................................................- 4 - (三)、本标准的解决方案........................................................................................- 5 - (四)、本标准与其他标准的关系............................................................................- 5 - (五)、本标准的适用范围........................................................................................- 6 - 三、标准总体结构.............................................................................................................- 6 - 四、标准内容要点解析......................................................................................................- 7 - (一)、范围...............................................................................................................- 7 - (二)、术语和定义....................................................................................................- 7 - (三)、数据元的表达格式........................................................................................- 8 - (四)、数据元值的表示方法....................................................................................- 8 - (五)、数据元分组..................................................................................................- 10 - (六)、数据元目录..................................................................................................- 11 - (七)、数据元维护与管理......................................................................................- 11 - (八)、数据元索引..................................................................................................- 11 - 五、标准使用...................................................................................................................- 12 - (一)、数据元目录系统的建立..............................................................................- 12 - (二)、数据元注册系统的建立..............................................................................- 13 - (三)、领域公用数据元目录的制定......................................................................- 13 - (四)、常见问题.........................................................................................................- 19 -

电子文件元数据规范

电子文件元数据规范 1 范围 本规范适用于九省区各级国家档案馆、各级党政机关、社会团体、企事业单位对电子文件进行以保证凭证性为目的的管理活动。其他社会组织可参照执行 在电子文件管理过程中使用元数据可实现以下目的: ——确保并证明归档电子文件的真实性、完整性与有效性,从而保证其凭证价值; ——有利于归档电子文件的保护,实现长期保存; ——在异构的信息系统中对归档电子文件进行规范、有效的管理,保证归档电子文件的可捕获、可收集、查长期利用; ——对归档电子文件及馆(室)藏档案数字化资源进行集成管理,实现有效、方便地查询、检索与利用。 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注明日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励根据本规范达成协议的各方研究是否可使用这些文件的最新版本。 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 3760-1995 文献叙词标引规则 GB/T 3792.1-1983 文献著录总则 GB/T 7156-2003 文献保密等级代码 GB/T 7408-2005 数据元和交换格式信息交换日期和时间表示法 GB/T 9704-1999 国家行政机关公文格式 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 11821-2002 照片档案管理规范 GB/T 13959-1992 文件格式与代码编制方法 GB/T 13967-1992 全宗单 GB/T 15418-1994 档案分类标引规则 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 DA/T 1-2000 档案工作基本术语 DA/T 12-1994 全宗卷规范 DA/T 13-1994 档号编制规则 DA/T 18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 31-2005 纸质档案数字化技术规范 《中华人民共和国电子签名法》 中办发[1996]14号中国共产党机关公文处理条例 国发﹝2000﹞23号关于发布《国家行政机关公文处理办法》的通知 国档发[1987]4号关于颁发《编制全国档案馆名称代码实施细则》的通知 国家档案局第6号令《电子公文归档管理暂行办法》,2003年7月28日 国家档案局第8号令《机关文件材料归档范围和文书档案保管期限规定》,2006年12月19日ISO 15489 Information and documentation—Records management ISO 23081-1 Information and documentation – Records Management Processes – Metadata for Records—Part 1: Principles

国家基础地理信息系统元数据标准(草案)

国家基础地理信息系统(NFGIS)元数据标准草案(初稿) 1. 主题内容与适用范围 本标准提供国家基础地理信息系统(NFGIS)元数据的内容,包括NFGIS数据的标识、内容、质量、状况及其他有关特征。本标准可用于对NFGIS数据集的全面描述、数据集编目及信息交换网络服务。 2. 参考标准 ISO 15046-15地理信息--元数据(CD 2.0) FGDC 地理空间数据元数据内容标准(CSDGM)v.2.0 3. 术语 3.1 元数据 是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 3.2 元数据元素(元数据Element) 元数据最基本的信息单元。 3.3 元数据实体(元数据Entity) 同类元数据元素的集合。 3.4 元数据子集(元数据Section) 相互关联的元数据实体和元素的集合。 3.5 信息交换网络(Clearinghouse) 数据生产者、管理者和用户之间的分布式、电子连接的网络。 3.6 数据志(Lineage) 数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等。 3.7 引用文献(Citation) 数据集引用或参考使用的资料、数据集、模型、文献等。 4. NFGIS 元数据层次结构和性质 4.1 元数据层次结构 本标准规定NFGIS元数据分为三层:元数据子集、元数据实体和元数据元素。 元数据元素是元数据的最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子

集是相互关联的元数据实体和元素的集合。在同一个子集中,实体可以有两类即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系。 4.2 元数据性质 本标准定义三种性质的元数据子集、实体和元素: 必选(Mandatory)──元数据的核心内容,适用于各种被描述对象,是元数据文件必须包含的子集、实体或元素。 一定条件下必选(Conditional )──针对不同的被描述对象特征元数据文件所必须提供的子集、实体或元素。 可选(Optional)──该子集、实体或元素是可选的,由用户决定是否将其包含在元数据文件中。 5. NFGIS 元数据分级和特征 5.1 元数据分级 本标准规定元数据分为两级,即: 基本元数据──提供地理数据源基本文档所需要的最少的元数据元素集。它包括回答下列问题的元数据元素: "是否有特定主题的数据集('什么')?"、"是否有特定地区的数据集('何处')?"、"是否有特定时段的数据集('何时')?" 以及"订购或了解数据集更多情况的联系人('谁')? 完全元数据──提供完整的地理数据源(单独的数据集、数据集系列、各种地理要素)文档所需要的必选的和可选的元数据元素集。它完整地定义全部元数据,以便标识、评价、摘录、使用和管理地理信息。 5.2 元数据特征 本元数据标准定义了8种特征: 5.2.1 名称 赋给元数据实体或元素的标记。 5.2.2 标识码 计算机中使用的定义每个元数据实体和元素的唯一代码。代码结构为: xx xx xx 前两位为元数据子集,两位数字码 中间两位为元数据实体/独立元素,两位数字码 后两位为元数据实体包含的元素,两位数字码

元数据的构成方式

元数据的构成方式 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。 元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。

元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可

数据元与元数据、数据项区别

1、数据元与元数据的关系 首先肯定一点是:数据元本身也是数据单元,即也是数据。它就是一个用来对各行业的数据进行自身规范化的一个方法或一套指导的理论。用这一套方法对行业数据进行统一的名、型、值规范及分类。可以说数据元是组成数据的最小单元,是基本的。就像化学元素一样,化学元素本身并不多,即几十种,但由这几十种元素构成的物质可是形形色色。所以对于一个行业来讲数据元应该是有限的,而不是无限的。理解数据元应该从它的几个性质来认识: (1)原子性:即说明数据元具有原子特征,即是组成数据最小单元。例如“金额”本身就是一个基本数据元,“产量”,“重量”、“密度”等等 (2)集成性:按照数据本身自然联系建立数据间的关联关系,体现出了数据的集成性。同时,通过对数据元的分析,对数据的分类具有重要的指导作用。 (3)演绎性:说明可由基本数据元演绎或派生出许许多多的应用数据元,继上面的实例: 煤产量、原油产量、钢产量等,或更细致地可以演绎出:煤年产量/煤月产量/煤季产量/煤累计产量等。 从上面的讨论,我们可以看出,实际上数据元由基本数据元与应用数据元之分,所以一般来讲,我们就是指基本数据元。 可以看出,行业数据元应该是有限的,规划好行业数据元之后,可以为行业构建出统一、集成的、稳定的数据模型奠定基础,同时它也为数据交换奠定基础。更重要的是在逻辑层上为我们提供了一个统的“参考模型”。以前存在的一些模型中的数据与其它模型进行共享时,可以在这个逻辑的“参考模型”一层上得到统一。 而元数据,我个人认为理解这个元数据也应有几个层面的问题,首先,从它的定义上讲,所谓的元数据是“描述数据的数据”。单从这个定义上来看,元数据的定义是相当宽泛的。例如,描述数据元有二十几个属性,即这二十几个属性(例如数据元名称、定义、类型等),我们就称为是描述数据元的元数据。这只是单纯地从它的定义上来理解,其实,一般我们所指的元数据,通常都与具体的应用挂钩的。例如,我们保存到DBMS中的表结构、索引、字典、报表格式等等均为元数据,所以可以看出,元数据(Metadata)与数据元(Data Element)不是一个层面上的概念。 二者的关系:数据元规划好了,可以为企业提供高效的,而非冗余的元数据。元数据与软件及数据仓库紧密相关。另外,数据元之后才能谈元数据,元数据更接近于应用,而数据元仅仅是从数据名、型、值以及分类的角度对数据进行规划。数据元设计是为数据集成,即数据模型构建奠定基础,它更面向数据模型,而数据元更接近实际应用。 2.信息系统基本(通用)数据元怎样划分与提取? (1)按照行业中的关键业务活动,即工作流程,从源头出发来初步地提取出数据项,即业备流中蕴涵着数据流,这样可以保障所提取的数据元能够满足多学科的应用需求;这个过程也是分专业进行分析的过程。 (2)将多专业的数据进行统一考虑,一般来讲,我国行业信息建设发展到今天数据已经有了很大程度上的积累,这样为我们提取数据项提供了更方便的条件。这样可以按照数据元的方法对数据元本身进行分类,这种分类一般有按照“对象”、“特性”以及“表示”等进行分类,这是最基本的分类。也有的可以按照自行业和特点按照应用主题或其它进行分类。 相似类别的数据分类到一起,这样可以统一考虑该类数据的名、型及值等问题。数据元的提取是一个逐步求精的过程,不可能一次就完成,它要有一个反复的过程。 上面所说的按照对象来分类,是指该数据元是描述什么对象的,例如,在石油行业,井号,这个数据元本身就是描述“井”这个对象的,所以如果按照对象来分类,那么它将被分到“井”这个对象。可以看出,按照对象来分类时,可以为下一步建模奠定一个好的基础。 按照特性与表示也可以从不同的角度来对这些数据元进行分类。对基本数据元的分析,最后可能会得到一个层次关系,有的人问,这个基本数据元到底要分解到何时为止呢?回答是:具体抽象为哪一层与行业应用有关系,这不是死规定。一般来讲,数据元如果越基本,那么它的抽象度应越高,而距离实际应用主题就越远。这就要根据实际而定了。

元数据管理实施方案

元数据管理实施方案

————————————————————————————————作者:————————————————————————————————日期:

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

国内外元数据

元数据格式汇总iii 1. DC(都柏林核心元数据) 2. CDWA(艺术作品描述目录) 3. V AR Core(可视资源委员会核心元数据) 4. CDF(频道定义格式) 5. ROADS元数据(主题信息服务的资源组织和发现) 6. IEEE LOM(IEEE学习对象元数据) 7. BibTex(科技文献书目资源格式) 8. GEM(教育资源网关) 9. CIMI(博物馆信息计算机交换标准框架) 10. REACH元数据格式 11. EAD(编码文档描述) 12. ONIX(在线信息交换) 13. EELS(工程电子化图书馆) 14. EEVL(爱丁堡工程虚拟图书馆) 15. FGDC(联邦地理数据委员会) 16. GILS(政府信息定位服务) 17. MARC(机读目录格式) 18. MOA2(美国的创建II) 19. MCF(元内容框架) 20. PICA+(荷兰图书馆自动化中心) 21. PICS(网络内容选择平台) 22. TEI Header(文本编码先导计划) 23. SOIF(概略对象交换格式) 24. IAFA/WHIOS++Templates(因特网匿名FTP文件库版式) 25. ICPSR SGML Codebook(政治和社会研究方面的校际联盟) 26. LDAP DIF(轻便型目录获取协议) 27. RFC 1807(书目记录格式) 28. URCs(统一资源特征) 29. SGML(通用标准标记语言) 30. Warwick Framework(Warwick框架) 31. Web Collections(网站集合) 32. XML(可扩展标记语言) 33. RDF(资源描述框架) 1.DC(都柏林核心元数据) 名称:Dublin Core Metadata,DC

林业科学数据元数据标准

林业科学数据元数据标准(V3.10版) 1 主题内容与适应范围 本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据内容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、内容、分发、数据质量、数据表现、参照系和元数据参考信息等内容。 本标准适用于林业科学数据集元数据整理、建库、汇编、公布及共享服务。 本标准的元数据分为两级,即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息内容。在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。用户能够在核心元数据的基础上,依照具体需求和数据的实际情况选用、扩充详细元数据内容,建立相应级不的元数据库。 2 规范性引用文件

下列规范性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准。然而,鼓舞依照本标准达成协议的各方,研究是否可使用这些文件的最新版本。然而不注日期的引用文件,其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。 科学数据共享工程技术标准—科学数据共享元数据标准内容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时刻表示方法 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 2260-2002 中华人民共和国行政区划代码 GB/T 7156-1987 文献保密等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic

相关文档
相关文档 最新文档