文档库 最新最全的文档下载
当前位置:文档库 › 数据元标准化基本方法

数据元标准化基本方法

数据元标准化基本方法
数据元标准化基本方法

数据元标准化基本方法

计算机世界/2019年/10月/16日/第B20版

行业主题

公共卫生数据元的标准化, 不仅要对数据自身进行“名、型、值”的定义, 还要找出

数据之间内在与外在间的关联关系, 对构建高效稳健的公共卫生数据模型起到积极的作用。

数据元标准化基本方法

刘丽华金水高王骏胡凯

数据标准化工作是信息系统建设的基础工作。数据工作的无规则性,必然会导致系统

的低效能和资源的浪费。长期以来,我国公共卫生信息系统的建设缺乏整体规划,在国家

层面上缺乏对公共卫生数据的标准定义与规范,导致了不同系统之间的数据难以交换、共享,也造成了资源的极大浪费。

公共卫生数据元的标准化,不仅要对数据自身进行“名、型、值”的定义,还要找出

数据之间内在与外在间的关联关系,对构建高效稳健的公共卫生数据模型起到积极的作用。

数据元基本概念与结构

数据元可定义为通过标识、定义、表示以及允许值等一系列属性描述的数据单元,在

特定的语义环境中被认为是不可再分的最小数据单元,一般由对象类词、特性类词和表示

三部分组成。

(1)对象类词: 是指人们希望研究、搜集和存储其相关数据的事物,如: 人、家庭、医疗机构、观察与干预等。

(2)特性类词: 是某个对象的一个特征。例如,人这个对象类可以具有很多特征,

如性别、出生日期、身高、职业或患病情况等。

(3)表示是值域、数据类型的组合,必要时也包括度量单位或字符集。它所表达的

是数据元概念的数据类型及可能的取值范围。表示类词可以是一个编码,如国际疾病分类(ICD-10),也可能是一个取值范围,如身高的取值。

对象往往有多个特性,对象与其任何一个有意义的特性的结合就组成一个数据元概念。例如,人这个“对象”可以有性别、身高、出生日期等多个“特性”,将它与其中的某一

个特性结合在一起就组成一个“数据元概念”,如人—性别、人—身高和人—出生日期等

都是数据元概念的例子。

数据元是数据元概念与值域的结合。即一个特定的数据元概念与一个特定的值域结合

创建一个数据元。例如在儿童营养监测中,定义的一个数据元概念“儿童身高”,与身高

的表示值域结合,构成数据元“儿童身高的测量值”; 而与儿童身高的平均水平值域结合,则构成“儿童身高的平均值”这个数据元。显然,这是两个不同的数据元。数据元概念与

数据元之间存在一对多的关系,即一个数据元概念与不同的表示组合后可以生成不同的数

据元。

数据元标准化的重要作用

(1)规范和统一数据的采集与应用; (2)构筑数据共享的基础,为不同系统多种模

式的数据存取和数据共享提供数据转换格式和编程接口; (3)实现对公共卫生数据在

“元数据”层面上的管理,从而使“应用软件”真正与“数据”分家,使应用软件的开发

更具灵活性; (4)为公共卫生内部数据交换及公共卫生与外部数据交换在“数据”这一

层上提供统一的、各学科可以共同遵守的数据交换规范; (5)是构建统一、集成、高效

的公共卫生数据模型的基础。

数据元标准化方法

1. 数据元的提取

公共卫生数据元的提取采用以下步骤: ①业务需求分析。包括流程分析,业务建模。

②基本数据集设置。将必需收集的数据按照特性分成不同数据集,确定每个数据集中的数

据项; ③数据元构建。对抽取的数据项,按对象类词、特性类词及表示类词构建数据元。

2. 数据元的规范化描述

数据元的规范化描述是指按照国际或国家标准对于所提取的数据元的属性进行描述。

国家公共卫生数据元的属性的规范化描述遵循的标准为ISO/IEC 11179-3:2002和国家标

准GB/T 18391.3-2001(信息技术/数据元的规范与标准化/第三部分: 数据元的基本属性),基本属性的模型如图所示。

该标准要求对数据元的22个属性进行描述。内容包括标识类属性、定义类属性、关

系类属性、表示类属性、管理类属性及附加类属性。数据元其中还说明了属性的出现次数

以及可选属性之间的绑定关系。结合实际,在公共卫生数据元的规范化的描述中,增加了

英文名称及英文简称两个新的属性。

以“伤害发生原因”数据元规范化描述为例说明如下。

标识类属性

标识符: PH0802019

名称: 伤害发生原因

版本号: 0.1

英文名称: cause of injury

英文简称: cause of injury

同义名称:

注册机构: 标准化研究总体组

相关环境:该数据元用以收集伤害发生的原因。该数据元用于伤害监测数据集。

定义类属性

定义:填写造成伤害的起始原因,即在伤害发生链中最前面的原因。

表示类属性

表示类别: 代码法

表示形式: 代码

数据元值的数据类型: CV

数据元值的最大长度: 2

数据元值的最小长度: 1

表示格式: n

数据元允许值: 伤害原因代码表

管理类属性

主管机构: 中国疾病预防控制中心

注册状态: 已登录

提交机构: 中国疾控中心慢病中心

备注:

数据元著录工具

为了便于对数据元进行著录于管理而编制的公共卫生数据元著录与管理系统是参照中华人民共和国国家质量监督检验检疫总局发布的《数据元的规范与标准化》国家标准(GB/T18391)进行设计开发的,其主要功能包括数据元著录、管理、查询和调用等。目的是以软件工具作为辅助手段建立一套符合数据元标准化的工作程序,保证用户在可操作性比较强的方式下,以标准化的方式进行数据元的著录和管理。系统设计为带有客户端软件的WEB 服务模式,用户通过INTERNET 或局域网络下载本系统的客户端软件,然后通过客户端界面与网络连接进行录入与管

理功能,权限级别不同的用户可进行操作的范围不同。系统具有如下主要功能:

1. 数据元著录功能: 数据元著录分为三个主要环节:术语条目库建立、数据元生成和

数据元属性著录。在具体操作中,用户可直接进入数据元生成环节进行操作,也可以在有

完整数据元的情况下直接进行数据元属性著录。

2. 数据元查询功能: 可以选择针对数据元、数据元概念、对象类词术语、特性术语、表示术语来进行精确或模糊查询,以及多个查询条件组合的查询。

3. 数据元审核与注册功能。

4. 数据元目录维护功能。

5. 数据元字典维护功能。

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6

中文数字化期刊的DC 元数据标准设计实例 刘廷元 (西南石油学院图书馆,成都610500) 摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论 述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的 DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据 标准实例。 关键词 元数据 标准 数字化期刊 中文期刊 设计 中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204 An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls L iu T ingyuan (L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500) Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces among vari ou s differen t digital j ou rnalw arehou ses .O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and H TM L 4.0syn tax . Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign 收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的 检索,是数字化图书馆与商业数据库共同面临的一个问题。由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。 因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。 1 数字化期刊采用DC 元数据标 准的必要性 大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。 具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。 (1)元数据描述能够为数字化期刊建立一种计算机普遍 可以理解的框架体系,使数字化期刊资源得以透明、公开。因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。 (2)元数据的描述、标识和语法能够融入因特网通用的 语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语 第21卷第6期 2003年6月     情 报 科 学   V o l 121,N o 16June, 2003

数据标准化处理方法

数据标准化处理方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA 分别为属性A的最小值和最大值,将A的一个原始值x通过min-max 标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化

这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化

[数据元标准化基本方法]数据标准化方法

[数据元标准化基本方法]数据标准化方法公共卫生数据元的标准化,不仅要对数据自身进行“名、型、值”的定义,还要找出数据之间内在与外在间的关联关系,对构建高效稳健的公共卫生数据模型起到积极的作用。 数据标准化工作是信息系统建设的基础工作。数据工作的无规则性,必然会导致系统的低效能和资源的浪费。长期以来,我国公共卫生信息系统的建设缺乏整体规划,在国家层面上缺乏对公共卫生数据的标准定义与规范,导致了不同系统之间的数据难以交换、共享,也造成了资源的极大浪费。 公共卫生数据元的标准化,不仅要对数据自身进行“名、型、值”的定义,还要找出数据之间内在与外在间的关联关系,对构建高效稳健的公共卫生数据模型起到积极的作用。 数据元基本概念与结构

数据元可定义为通过标识、定义、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元,一般由对象类词、特性类词和表示三部分组成。 (1)对象类词: 是指人们希望研究、搜集和存储其相关数据的事物,如: 人、家庭、医疗机构、观察与干预等。 (2)特性类词: 是某个对象的一个特征。例如,人这个对象类可以具有很多特征,如性别、出生日期、身高、职业或患病情况等。 (3)表示是值域、数据类型的组合,必要时也包括度量单位或字符集。它所表达的是数据元概念的数据类型及可能的取值范围。表示类词可以是一个编码,如国际疾病分类(ICD-10),也可能是一个取值范围,如身高的取值。 对象往往有多个特性,对象与其任何一个有意义的特性的结合就组成一个数据元概念。例如,人这个“对象”可以有性别、身高、出生日期等多个“特性”,将它与其中的某一个特性结合在一起就组成一个“数据元概念”,如人―性别、人―身高和人―出生日期等都是数据元概念的例子。

《公用数据元目录》标准

科学数据共享通用标准培训系列教材 《公用数据元目录》标准 培训教材 科学数据共享工程办公室 2005年12月

目录 目录.................................................................................................................................- 2 - 一、编制背景.....................................................................................................................- 3 - 二、编制思路.....................................................................................................................- 3 - (一)、国内外数据元标准化情况............................................................................- 4 - (二)、本标准的解决思路........................................................................................- 4 - (三)、本标准的解决方案........................................................................................- 5 - (四)、本标准与其他标准的关系............................................................................- 5 - (五)、本标准的适用范围........................................................................................- 6 - 三、标准总体结构.............................................................................................................- 6 - 四、标准内容要点解析......................................................................................................- 7 - (一)、范围...............................................................................................................- 7 - (二)、术语和定义....................................................................................................- 7 - (三)、数据元的表达格式........................................................................................- 8 - (四)、数据元值的表示方法....................................................................................- 8 - (五)、数据元分组..................................................................................................- 10 - (六)、数据元目录..................................................................................................- 11 - (七)、数据元维护与管理......................................................................................- 11 - (八)、数据元索引..................................................................................................- 11 - 五、标准使用...................................................................................................................- 12 - (一)、数据元目录系统的建立..............................................................................- 12 - (二)、数据元注册系统的建立..............................................................................- 13 - (三)、领域公用数据元目录的制定......................................................................- 13 - (四)、常见问题.........................................................................................................- 19 -

数据标准化处理

在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化 这种方法通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A

科学数据规范化分析与管理

科学数据规范化分析与管理
中国科学院计算机网络信息中心 胡良霖 2008年05月

提纲
1. 2. 3.
基本概念 科学数据的特点 科学数据规范化
规范化分析 3.2 规范化管理
3.1
4. 5.
示例模型 科学数据规范化工作模式

1. 基本概念
数据(data) 对事实、概念或指令的一种形式化表示,适用于以人 工或自动方式进行通信、解释或处理。 数据集(dataset) 可以标识的数据集合。 注:数据集可以是一个数据库或一个或多个数据文件。 元数据 (metadata)
定义和描述其他数据的数据。
数据模型(data model) 以反应信息结构的某种方式对数据组织的描述。 描述数据、数据关系、数据语义以及一致性约束的概 念工具的集合。[《数据库系统概念》(第三版)]
注:以上概念除特殊注明外均摘自GB/T18391.1-2002《信息技术的规范化与标准化 第一部分:数据 元的规范化与标准化框架》

1. 基本概念
数据元(data element)
用一组属性描述其定义、标识、表示和允许值的数据单元,在 一定语境下,通常用于构建一个语义正确、独立且无歧义的特 定概念语义的信息单元。
注:数据元也是构建元数据和元数据实体的基本单元。
数据元目录(data element directory)
列出并定义了全部相关数据元的一种信息资源。
注:数据元目录可有不同层级,例如,ISO/IEC委员会级、国际协会 级、行业部门级、公司级、应用系统级。
数据元值(data element value)
数据元允许值集合中的一个值。
数据元值的长度(data element value length)
数据元值中字符的数目。
注:按ASCII字符数目计算数据元值的长度,一个汉字相当于2个字符。
注:以上概念释义均出自GB/T18391.1-2002。

数据标准化的几种方法

数据标准化的几种方法 在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。数据标准化的方法有很多种,常用的有“最小—最大标准化”、“Z-score标准化”和“按小数定标标准化”等。经过上述标准化处理,原始数据均转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,可以进行综合测评分析。 一、Min-max 标准化 min-max标准化方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过 min-max标准化映射成在区间[0,1]中的值x',其公式为: 新数据=(原数据-极小值)/(极大值-极小值) 二、z-score 标准化

这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x'。 z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。 新数据=(原数据-均值)/标准差 spss默认的标准化方法就是z-score标准化。在SPSS中依次点击Analyze Descriptive Descriptive 点击Save standardized values as varianles即可。 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。 步骤如下: 1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ; 2.进行标准化处理: zij=(xij-xi)/si 其中:zij为标准化后的变量值;xij为实际变量值。 3.将逆指标前的正负号对调。 标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。 三、Decimal scaling小数定标标准化

元数据的构成方式

元数据的构成方式 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。 元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。

元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可

数据标准化的原因和方法

数据标准化的原因和方法 一、为何要将数据标准化? 由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在 2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。 二、数据标准化的方法: 1、对变量的离差标准化 离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即 x’ =[x ik-Min (x k)]/R k ik 经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。 2,对变量的标准差标准化 标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’ = (x ik- )/s k ik 经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。

林业科学数据元数据标准

林业科学数据元数据标准(V3.10版) 1 主题容与适应围 本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、容、分发、数据质量、数据表现、参照系和元数据参考信息等容。 本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。 本标准的元数据分为两级,即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息容。在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。用户可以在核心元数据的基础上,根据具体需求和数据的实际情况选用、扩充详细元数据容,建立相应级别的元数据库。 2 规性引用文件 下列规性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的容)或修订版均不适用于本标准。但是,鼓励根据本标准达成协议的各方,研究是否可使用这些文件的最新版本。但是不注日期的引用文件,其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。 科学数据共享工程技术标准—科学数据共享元数据标准容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 2260-2002 中华人民国行政区划代码 GB/T 7156-1987 文献等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic information—Metadata) 3 术语和定义 3.1 数据集dataset 数据集是可以表示的数据集合,数据集可以是数据库,也可以是数据库中的一个(逻辑组成)部分。本标准所指的数据集是指不可再细分的数据集,即可以用一个数据字典能够唯一描述的数据集合。3.2 数据集系列dataset series 数据集系列是同一主题的多个数据集的组合,都符合相同产品规。 3.3 元数据metadata 元数据是关于数据的数据,用来描述数据的容、覆盖围、质量、管理方式、数据的所有者、数据的提供方式等有关信息。 3.4 元数据元素 metadata element

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

数据的标准化

数据的标准化 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化(Min-max normalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。log函数转换通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。atan 函数转换用反正切函数也可以实现数据的归一化:使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-mean normalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。 z-score 标准化 用zscore,标准化的目的是:使得平均值为0,标准差为1,这样可以使不同量纲的数据放在一个矩阵. >> A=magic(4) A = 16 2 3 13 5 11 10 8 9 7 6 12 4 14 1 5 1 >> [Z,MU,SIGMA] = zscore(A) Z = 1.3770 -1.2509 -1.0585 0.8262 -0.6426 0.4811 0.2887 -0.0918

地球化学-稀土元素标准化计算

表中数据为辉长岩、沂南花岗岩7件样品的REE组成(ppm) 1,用球粒陨石值对样品的REE组成进行标准化,作其分配模式图,对图件中表达的地球化学特征进行说明; 2,计算各样品的Eu/Eu*,并对其地球化学意义进行说明; ,3,假设辉长岩中造岩矿物的组成为:CPX45%,PL35%,OL20%。结合课件中提供的REE在矿物和熔体间的分配系数,计算与辉长岩平衡的熔体的REE组成,并作REE配分模式图。

解答: 1,如下表1-1为常用球粒陨石和原始地幔稀土元素组成,我采用C1 球粒陨石数据(Sun & McDonough,1989)对样品的REE进行标准化,得到了下表1-2,再根据对样品REE标准化的数据进行作样品的分配模式图,得到了图1-1 表1-1

表1-2 图1-1 通过对样品配分模式图进行分析可知道,沂南花岗岩样品中富集轻稀土元素而亏损重稀土元素,这与花岗岩的成分岩性有一定关系,花岗岩为酸性岩,主要矿物为长石、石英和云母,而这矿物主要富集轻稀土元素,并且从图中可以看出Eu的负异常,说明在岩浆结晶形成花岗岩之前就有长石结晶出来,使岩浆呈Eu 的负异常。辉长岩的样品配分模式图表现出来的富集轻稀土元素没有沂南花岗岩样品那么显著,富集程度较低,这也与辉长岩的岩性成分有关,辉长岩中主要矿物为辉石和长石,长石富集轻稀土元素较为显著,而辉石相对较富集重稀土元素,

但程度不是很显著,所以岩石总体表现较为富集轻稀土元素,但程度不是那么显著。并且从图中可以看出Eu的正异常,只是不是很显著,说明长石结晶出来使岩石呈Eu的正异常。 2,Eu/Eu*=2×Eu/(Sm+Gd)(其中Eu、Sm、Gd都是为球粒陨石标准化值),根据这个求出各样品中的Eu/Eu*,如下表1-3: 表1-3 由上表中的Eu/Eu*值可知的辉长岩为Eu的正异常,说明在岩浆结晶时,长石和辉石先结晶出去形成辉长岩,而长石中富集Eu元素,所以在辉长岩中Eu 为正异常,而后期岩浆因长石的结晶分异而呈Eu的负异常,并且逐渐向酸性过渡,结晶形成酸性岩。可以推测这样品为同源岩浆所形成,主要是形成时间不同导致Eu异常不同和岩性的不同。 3,根据课件可查出REE在CPX、PL、OL等矿物和熔体间的分配系数,如下表1-4:

数据标准化的原因及方法

数据标准化的原因及方法 (2011-01-21 20:43:34) 转载▼ 标签: 杂谈 一、为何要将数据标准化? 由于不同变量常常具有不同的单位和不同的变异程度。不同的单位常使系数的实践解释发生困难。例如:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况。使用者会说5kg的差异怎么可以与3cm的差异相加?不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。 二、数据标准化的方法: 1、对变量的离差标准化 离差标准化是将某变量中的观察值减去该变量的最小值,然后除以该变量的极差。即x’ik=[x ik-Min (x k)]/R k 经过离差标准化后,各种变量的观察值的数值范围都将在〔0,1〕之间,并且经标准化的数据都是没有单位的纯数量。离差标准化是消除量纲(单位)影响和变异大小因素的影响的最简单的方法。有一些关系系数(例如绝对值指数尺度)在定义时就已经要求对数据进行离差标准化,但有些关系系数的计算公式却没有这样要求,当选用这类关系系数前,不妨先对数据进行标准化,看看分析的结果是否为有意义的变化。 2,对变量的标准差标准化 标准差标准化是将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即 x’ik=(x ik-)/s k 经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数量。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。 3,先对事例进行标准差标准化,再对变量进行标准差标准化 第一步,先对事例进行标准差标准化,即将某事例中的观察值减去该事例的平均数,然后除以该事例的标准差。即 x’ik=(x ik-)/s i 第二步,再对变量进行标准差标准化,即将某变量中的观察值减去该变量的平均数,然后除以该变量的标准差。即

数据元标准化基本方法

数据元标准化基本方法 刘丽华金水高王骏胡凯 公共卫生数据元的标准化,不仅要对数据自身进行“名、型、值”的定义,还要找出数据之间内在与外在间的关联关系,对构建高效稳健的公共卫生数据模型起到积极的作用。 数据标准化工作是信息系统建设的基础工作。数据工作的无规则性,必然会导致系统的低效能和资源的浪费。长期以来,我国公共卫生信息系统的建设缺乏整体规划,在国家层面上缺乏对公共卫生数据的标准定义与规范,导致了不同系统之间的数据难以交换、共享,也造成了资源的极大浪费。 公共卫生数据元的标准化,不仅要对数据自身进行“名、型、值”的定义,还要找出数据之间内在与外在间的关联关系,对构建高效稳健的公共卫生数据模型起到积极的作用。 数据元基本概念与结构 数据元可定义为通过标识、定义、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元,一般由对象类词、特性类词和表示三部分组成。 (1)对象类词: 是指人们希望研究、搜集和存储其相关数据的事物,如: 人、家庭、医疗机构、观察与干预等。 (2)特性类词: 是某个对象的一个特征。例如,人这个对象类可以具有很多特征,如性别、出生日期、身高、职业或患病情况等。 (3)表示是值域、数据类型的组合,必要时也包括度量单位或字符集。它所表达的是数据元概念的数据类型及可能的取值范围。表示类词可以是一个编码,如国际疾病分类(ICD-10),也可能是一个取值范围,如身高的取值。 对象往往有多个特性,对象与其任何一个有意义的特性的结合就组成一个数据元概念。例如,人这个“对象”可以有性别、身高、出生日期等多个“特性”,将它与其中的某一个特性结合在一起就组成一个“数据元概念”,如人—性别、人—身高和人—出生日期等都是数据元概念的例子。 数据元是数据元概念与值域的结合。即一个特定的数据元概念与一个特定的值域结合创建一个数据元。例如在儿童营养监测中,定义的一个数据元概念“儿童身高”,与身高的表示值域结合,构成数据元“儿童身高的测量值”; 而与儿童身高的平均水平值域结合,则构成“儿童身高的平均值”这个数据元。显然,这是两个不同的数据元。数据元概念与数据元之间存在一对多的关系,即一个数据元概念与不同的表示组合后可以生成不同的数据元。

相关文档