文档库 最新最全的文档下载
当前位置:文档库 › Java之metadata(元数据)详解

Java之metadata(元数据)详解

Java之metadata(元数据)详解
Java之metadata(元数据)详解

Java之metadata(元数据)详解

也可能刚听到元数据你会有点陌生,其实任何一个使用过struts,ejb或者hibernate的开发人员都在不知不觉中使用元数据。所谓的元数据是指用来描述数据的数据,更通俗一点就是描述代码间关系,或者代码与其它资源(例如数据库表)之间内在联系得数据,对Struts来说就是struts-config.xml,对ejb来说就是ejb-jar.xml和厂商自定义的xml文件,对hibernate来说就是hbm文件。

但是现有的所有的以xml或者其它方式存在的元数据文件都有以下一些不便之处,第一,与被描述的文件分离,不利于一致性维护。第二,所有的这些文件都是ascii文件,没有显示的类型支持。基于元数据的广泛应用JDK1.5引入了Annotation的概念来描述元数据。使用过.net的开发人员一定很熟悉元数据的概念,元数据的概念在.net中成为Attribute。

在Java中元数据以标签的形式存在于Java代码中,元数据标签的存在并不影响程序代码的编译和执行,它只是被用来生成其它的文件或针在运行时知道被运行代码的描述信息。综上所述:

第一,元数据以标签的形式存在于Java代码中。

第二,元数据描述的信息是类型安全的,即元数据内

部的字段都是有明确类型的。

第三,元数据需要编译器之外的工具额外的处理用来生成其它的程序部件。

第四,元数据可以只存在于Java源代码级别,也可以存在于编译之后的Class文件内部。

如何创建元数据类型

像各种类有可以定义不同的类型一样,原数据也可以定义不同的类型。现在为止,Java语言中已经有了四种种的类型:对象类(class),枚举(enum),接口(interface)和元数据(@interface)。其实Java中的元数据的概念即吸收了.Net中Attribute的概念,有吸收了.net中property的概念。Annotation定义

Annotation定义语法为:

modifiers @interface AnnotationName

{

element declaration1

element declaration2

. . .

}

modifiers指:public,protected,private或者默认值(什么也没有)。

一个元素的声明(element declaration)指:

type elementName();

或者

type elementName() default value;

例如下面代码定义了一个Annotation:

public @interface BugReport

{

String assignedTo() default "[none]";

int severity() = 0;

}

而可以通过以下的方式来声明Annotation:AnnotationName(elementName1=value1,

elementName2=value2, . . .)

元数声明的顺序没有关系,有默认值的元素的声明可以不列在初始化表中,此时他们使用默认值。例如,根据上述定义如下的三个Annotation的声明是等价的:

@BugReport(assignedTo="Harry", severity=0)

@BugReport(severity=0,assignedTo="Harry")

@BugReport(assignedTo="Harry")

那些只有一个元素,且元素名字叫value的Annotation可以使用如下的方式声明:

AnnotationName(“somevalue”)

Annotation中元素的类型必须是下述类型,或者这些类型的

组合:

l 基本类型(int, short, long, byte, char, double, float, or boolean)

l 字符创(String)

l 类(Class (可以是形如Class)的泛型类)

l 枚举类型(enum)

l 一个Annotation类型(annotation)

l 上述类型构成的数组

如果Annotation的元素是数组,则可以做如下声明:

@BugReport(. . ., reportedBy={"Harry", "Carl"})

如果数组中只有一个元素时可以做如下声明:

@BugReport(. . ., reportedBy="Joe") // OK, same as {"Joe"}

如果Annotation元素类型为Annotation时可以做如下声明:@BugReport(testCase=@TestCase(id="3352627"), . . .)

可以对如下对象添加Annotation:

l Packages

l Classes (including enum)

l Interfaces (including annotation interfaces)

l Methods

l Constructors

l Instance fields (including enum constants)

l Local variables

l Parameter variables

标准的Annotation

JDK1.5提供了若干的标准Annotation来补充语法定义,或者标记Annotation。标准的Annotation有以下几个:Annotation

使用范围

用途

Deprecated

所有

将目标标记为不推荐使用

SuppressWarnings

除了包和Annotation

禁止标记对象发出被标记的警告信息

Override

方法

标记这个方法重写了父类的方法Target

Annotation

标记Annotation的适用范围Retention

Annotation

标记Annotation最终驻留的地方

Documented

Annotation

该Annotation在JavaDoc文档中出现

Inherited

Annotation

该Annotation默认被使用该Annotation的所有子类继承

下面具体讲解标准Annotation的用法。

常用的Annotation包括以下三个:@Deprecated

@SuppressWarnings @Override,他们的用途分别如上表所示。

以下说明的Annotation有一个共同的特点就是他们都只能用在Annotation的声明上。

@Target用来标记Annotation适用的范围,@Target有一些预定义的属性,如下表所示:类型

适用范围

ANNOTATION_TYPE

只能用在Annotation的声明中

PACKAGE

用在包上

TYPE

类(包括枚举)或者接口(包括Annotation)METHOD

方法

CONSTRUCTOR

构造方法

FIELD

字段(包含枚举内部的常量)

PARAMETER

方法或者构造方法的参数

LOCAL_VARIABLE

本地变量

@Retention用来标记Annotation在那些范围(源代码,类文

件或者运行时)内是可用的。@Retention与定义了一些属性,如下表所示:驻留策略

描述

SOURCE

Annotation只存在于源代码中,不包括在编译生成Class文件中

CLASS

Annotation存在于源代码中,也存在于编译生成的Class文件中,但是在运行时这些Annotation不被JVM装载。

RUNTIME

Annotation存在于源代码中,也存在于编译生成的Class文件中,同时在运行时这些Annotation被装载到JVM内部,可

以使用反射的机制在运行时使用。

@Documented用来将Annotation显示在生成的JavaDoc中。@Inherited只能用来标记用在类上的Annotation,用来说明被标记的Annotation会被该类的所有子类自动的继承。Annotation应用实例

/**

*

https://www.wendangku.net/doc/a112809544.html,/pub/a/onjava/2005/01/19/metadata_vali dation.html

* by Jacob Hookom

*/

使用Annotation的一个例子就是建立一个简单的用户输入验证框架,使用这个框架最终用户可以以如下的方式来定义字段的校验属性:

@ValidateRequired

@ValidateEmail

public void setEmail(String email) {

this.email = email;

}

@ValidateRequired

@ValidateLength(min=6,max=12)

public void setPassword(String password) {

this.password = password;

}

以上的代码说明,email字段是必须的,且必须满足email的校验要求,同时password字段也是必须的,且长度必须在6~12之间。有了这些定义之后我们能够使用如下的代码达到验证的效果:

Validator.validate(loginBean, "email",

"yourname@https://www.wendangku.net/doc/a112809544.html,"); //pass

Validator.validate(loginBean, "password", ""); // failure

要能够达到上述的要求,我们必须定义一些Annotation,以下代码是ValidateLength和ValidateExpr的声明:

package annotations.validates;

//Example @ValidateLength(min=6,max=8)

public @interface ValidateLength {

int min() default 0;

int max() default Integer.MAX_V ALUE;

}

//Example @ValidateExpr("^(\\w){0,2}$");

public @interface ValidateExpr {

String value();

}

具体开发的过程中我们会遇到一些问题,这主要由于两方面

的原意产生

第一,Annotation内部不能定义方法,只能定义一些状态。第二,Annotation不允许使用继承(extends或者implements),这意味着我们不能在反射的过程中使用instance of这样的功能。

为了识别出于我们定义的校验相关的Annotation我们定义了一个如下的Annotation:

package annotations.validates;

import https://www.wendangku.net/doc/a112809544.html,ng.annotation.*;

@Retention(RetentionPolicy.RUNTIME)

@Target(ElementType.ANNOTATION_TYPE)

public @interface Validate {

//Class value();

Class value();

}

正如你所看到的Validate可以驻留在JVM内部,即它可以在运行时通过反射的方式使用。同时它必须用来标记其他的Annotation,同时他有一个Class类型的value元素,这个类型必须从ValidateHandler继承而来,主要用来处理具体的验证逻辑。

在此设计之下看看我们如何声明一个ValidateExpr的Annotation对象:

package annotations.validates;

import https://www.wendangku.net/doc/a112809544.html,ng.annotation.*;

@Retention(RetentionPolicy.RUNTIME)

@Target(ElementType.METHOD)

@Validate(ValidateExprHandler.class)

public @interface ValidateExpr {

String value();

}

ValidateExpr的前两个Annotation不用多讲,主要说说

@Validate(ValidateExprHandler.class)

的含义,这样解决了我们前边提到的两个问题,第一、我们可以看看一个Annotation是否有Validate类型的Annotation 来确定这个Annotation是不是我们校验框架内部使用的Annotation。同时我们也提供了一个具体的类ValidateExprHandler来处理校验逻辑。

接下来我们看看ValidateExprHandler的实现:

------------------------------------------------------------------------------------------------------------------------------------------

package annotations.validates;

import https://www.wendangku.net/doc/a112809544.html,ng.annotation.Annotation;

import javax.xml.bind.ValidationException;

//定义了一个ValidateHandler接口,

//这个接口有一个Annotation类型的模版参数

public interface ValidateHandler {

public void validate(T settings, Object value) throws ValidationException;

public Class getSettingsType();

}

------------------------------------------------------------------------------------------------------------------------------------------

package annotations.validates;

import java.util.regex.Pattern;

import javax.xml.bind.ValidationException;

//一个ValidateHandler的实例,用来处理正则表达式的验证,//其中的Anotation类型的参数为ValidateExpr

public class ValidateExprHandler implements ValidateHandler { public void validate(ValidateExpr settings, Object value)

throws ValidationException {

// TODO Auto-generated method stub

String i = (value != null) ? value.toString() : "";

if (!Pattern.matches(settings.value(), i)) {

throw new ValidationException(i + " does not match the pattern "

+ settings.value());

}

}

public Class getSettingsType() {

// TODO Auto-generated method stub

return ValidateExpr.class;

}

}

------------------------------------------------------------------------------------------------------------------------------------------

说明:

1. 我们定义了一个Annotation(Validate)来标记我们所有的校验用Annotation,

同时每一个具体的校验用的Annotation(ValidateExpr)都必须提供一个用来具体处理

校验逻辑的类(ValidateExprHandler)。

2. Annotation不允许继承,所以我们没有办法适用instance of 的方法来识别一个校验框架

使用的Annotation,但是通过对我们使用的校验用的Annotation添加Annotation(Validate)

我们同样可以达到以上的目的。

3. ValidateHandler接口允许一个校验用的Annotation将具体的校验功能已代理的方式让其它的类来完成。

我们可以使用如下的方式来处理校验的具体过程:

说明:在JDK1.5中Method实现了AnnotatedElement接口,我们可以使用AnnotatedElement来做处理操作

// 对一个方法和将要调用的参数值进行校验

public static void validate(AnnotatedElement element, Object value) {

Validate v;

ValidateHandler vh;

Annotation a;

// 从该方法上返回所有的Annotation

Annotation[] annotations = element.getAnnotations();

for (int i = 0; i < annotations.length; i++) {

// 如果该Annotation有类型为Validate的Annotation,则说明这是我们校验

// 框架所使用的Annotation。

v =

annotations[i].annotationType().getAnnotation(Validate.class);

if (v != null) {

try {

// 使用Annotation中定义的ValidateHandler类来生成ValidateHandler的实例

vh = v.value().newInstance();

// 使用创建的ValidateHandler来做校验操作。

// 校验过程中可以抛出ValidationException

vh.validate(annotations[i], value);

} catch (Exception e) {

// TODO: handle exception

e.printStackTrace();

}

}

}

中文数字化期刊的dc 元数据标准设计实例情报科学vol1 21no1 6

中文数字化期刊的DC 元数据标准设计实例 刘廷元 (西南石油学院图书馆,成都610500) 摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论 述。研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的 DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据 标准实例。 关键词 元数据 标准 数字化期刊 中文期刊 设计 中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204 An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa ls L iu T ingyuan (L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500) Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rces among vari ou s differen t digital j ou rnalw arehou ses .O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided the m etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata and H TM L 4.0syn tax . Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign 收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的 检索,是数字化图书馆与商业数据库共同面临的一个问题。由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。 因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。 1 数字化期刊采用DC 元数据标 准的必要性 大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。 具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。 (1)元数据描述能够为数字化期刊建立一种计算机普遍 可以理解的框架体系,使数字化期刊资源得以透明、公开。因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。 (2)元数据的描述、标识和语法能够融入因特网通用的 语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语 第21卷第6期 2003年6月     情 报 科 学   V o l 121,N o 16June, 2003

元数据_基础知识

元数据 一、定义 元数据(Metadata)是关于数据的数据。它是用于描述信息资源的高度结构化数据。 元数据在数据生产过程中或完成后建立的。 二、功能 元数据是数据与数据用户之间的桥梁 1.支持资源发现 2.组织数字信息资源 3.支持资源的互操作 4.支持数字识别 5.支持存档和保存 三、分类 1. 按功能分 描述性元数据:与事物本质有关的元数据。 管理性元数据:与事物处理方式有关的元数据。包括权限管理、防伪管理、存储和使用管理。 技术性元数据

保存性元数据 使用性元数据 2.按复杂程度分 采用简单的记录格式 结构化的格式 复杂格式 3.按描述的资源类型分 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 四、结构 1.内容结构(数据元/字段/数据项) 定义元数据的构成元素,可包括描述性元素、技术性元素、管理性元素和结构性元素。 这些构成元素要满足元数据的功能要求,因此,往往与元数据的功能相对应。 当某个元素来自某个外部标准时,要在内容结构中对此说明。 2.句法结构(元数据实体/数据表/数据结构) 定义元数据内元素之间的相互关系(例如,树状结构)。 定义元数据的格式及其描述方式。包括: (1)元素的分区分段组织 (2)元素选取使用规则 (3)元素描述方法(如Dublin Core采用ISO/IEC 11179标准)

科学数据规范化分析与管理

科学数据规范化分析与管理
中国科学院计算机网络信息中心 胡良霖 2008年05月

提纲
1. 2. 3.
基本概念 科学数据的特点 科学数据规范化
规范化分析 3.2 规范化管理
3.1
4. 5.
示例模型 科学数据规范化工作模式

1. 基本概念
数据(data) 对事实、概念或指令的一种形式化表示,适用于以人 工或自动方式进行通信、解释或处理。 数据集(dataset) 可以标识的数据集合。 注:数据集可以是一个数据库或一个或多个数据文件。 元数据 (metadata)
定义和描述其他数据的数据。
数据模型(data model) 以反应信息结构的某种方式对数据组织的描述。 描述数据、数据关系、数据语义以及一致性约束的概 念工具的集合。[《数据库系统概念》(第三版)]
注:以上概念除特殊注明外均摘自GB/T18391.1-2002《信息技术的规范化与标准化 第一部分:数据 元的规范化与标准化框架》

1. 基本概念
数据元(data element)
用一组属性描述其定义、标识、表示和允许值的数据单元,在 一定语境下,通常用于构建一个语义正确、独立且无歧义的特 定概念语义的信息单元。
注:数据元也是构建元数据和元数据实体的基本单元。
数据元目录(data element directory)
列出并定义了全部相关数据元的一种信息资源。
注:数据元目录可有不同层级,例如,ISO/IEC委员会级、国际协会 级、行业部门级、公司级、应用系统级。
数据元值(data element value)
数据元允许值集合中的一个值。
数据元值的长度(data element value length)
数据元值中字符的数目。
注:按ASCII字符数目计算数据元值的长度,一个汉字相当于2个字符。
注:以上概念释义均出自GB/T18391.1-2002。

元知识

元知识和元方法的意义 在科学哲学中,元科学或元理论,是关于科学的科学或关于理论的理论,它是以科学为研究对象,研究科学的性质、特征、形成和发展规律的学科。 所谓元知识就是“关于知识的知识”。知识是人们认识客观事物的成果,而知识是具有层次性的。这种层次性反映了不同的认识关系。第一个层次是“事物—知识”关系。这里,客观事物是认识的对象,知识是关于对象的认识成果,这个层次上的知识是“关于事物的知识”。第二个层次是“知识—元知识”关系。当人们获得关于事物的知识之后,将这种知识又作为认识的对象进行研究,获得新的认识成果,这种认识成果是“关于知识的知识”,即元知识。以上两种关系综合起来,就形成“事物→知识→元知识”这样的知识层次关系。元知识是更高层次的知识,它所研究的是知识的客观性、全面性、深刻性、严密性等问题。元知识的意义在于,发现并克服知识的局限性,使其更真实、更全面、更深刻、更严密。如果人的认识只停留在第一个层次上,就难以发现知识的局限性。当人们在运用知识解决问题时,对知识本身的局限性没有自觉的认识,也就不能自觉超越这种局限性,会使人们的思维活动陷入困境,难以有效解决问题。如果人们的认识上升到元知识的层次,就能在更大的知识范围、更高的知识层次上,来分析研究问题,从而有效解决问题。 所谓元方法,就是“关于方法的方法”,或者是“如何运用方法的方法”。经过一定的学习和实践过程,人们总是掌握了一定的分析问题、解决问题的方法。这个层次上的方法是针对问题的,所反映的是“问题—方法”关系。如果我们把方法本身作为研究对象,进一步分析研究方法的实质、特点、适用条件、应用原则和程序等问题,形成对方法的系统化认识,这就是元方法。元方法也就是我们通常说的“方法论”。在方法论这个层次上,元方法的对象是“方法”而不是“问题”,所反映的是“方法—元方法”关系。把以上两种关系综合起来,就形成“问题—方法—元方法”这样的层次关系。元方法是更高层次的方法,它能使我们对方法的实质和特征有更深刻的认识,掌握应用方法的原则和要求,了解方法的局限性,使我们能够自觉、理性地应用方法来分析、解决问题。一般来说,在“问题—方法”这个层次上,人们可以解决常规性问题。如果只停留在这个层次上,当人们遇到非常规性的问题,特别是难度较大的问题时,就会陷入困境。这时候,如果从更高层次上来看问题,即从元方法的层次上来分析问题,就能够突破困境,顺利分析、解决问题。 关于“元知识”和“元方法”,在我国古代,在日常生活中,人们已有一些朴素的观念。我们都熟悉两句著名的古诗,一句是“不识别庐山真面目,只缘身在此山中”,看不清事物的真相,是因为受到视野的限制,不能从更大的范围来观察事物。“在山中”是一种视野,“在山外”则是一种更大的视野,是“元视野”,从这个更大的视野,才能看到事物的整体。另一句是“欲穷千里目,更上一层楼”,要看得更远更广泛,就要超越原来所处层次的限制,从更高的层次上来进行观察。还有一句民间谚语“磨刀不误砍柴工”,道理也很深刻。这里包含着两个层次的关系。第一个层次是“柴—刀”关系,柴是对象,刀是工具,这个关系相当于“问题—方法”关系。第二个层次是“刀—磨”关系,这里刀成了对象,而“磨”是对刀的作用,是对刀的改进和完善,这个关系相当于“方法—元方法”关系。“砍”是一种方法,而“磨”是一种元方法。如果只顾“砍”,而

林业科学数据元数据标准

林业科学数据元数据标准(V3.10版) 1 主题容与适应围 本标准规定了用来描述林业科学数据集及提供信息服务所需要的信息,包括林业科学数据共享元数据容框架和林业科学数据共享元数据标准。提供了有关林业科学数据集的标识、容、分发、数据质量、数据表现、参照系和元数据参考信息等容。 本标准适用于林业科学数据集元数据整理、建库、汇编、发布及共享服务。 本标准的元数据分为两级,即核心元数据和详细元数据。核心元数据规定了描述数据集最关键的信息容。在核心元数据的基础上,考虑林业科学研究的特点,建立满足林业科学数据共享建设的详细元数据。用户可以在核心元数据的基础上,根据具体需求和数据的实际情况选用、扩充详细元数据容,建立相应级别的元数据库。 2 规性引用文件 下列规性引用文件通过本部分的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的容)或修订版均不适用于本标准。但是,鼓励根据本标准达成协议的各方,研究是否可使用这些文件的最新版本。但是不注日期的引用文件,其最新版本适用于本标准。ISO和IEC成员维护目前有效国际标准的注册。 科学数据共享工程技术标准—科学数据共享元数据标准容1.4 SDS/T 2112—2004 科学数据共享工程技术标准 GB/T 1.1—2000 标准化工作导则 GB/T 7408-1994 数据元和交换格式信息交换日期和时间表示方法 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 2260-2002 中华人民国行政区划代码 GB/T 7156-1987 文献等级代码 SDS/T 2111—2004 元数据标准化原则与方法 SDS/T 2122—2004 科学数据共享工程数据分类编码 ISO 19115 地理信息—元数据(Geographic information—Metadata) 3 术语和定义 3.1 数据集dataset 数据集是可以表示的数据集合,数据集可以是数据库,也可以是数据库中的一个(逻辑组成)部分。本标准所指的数据集是指不可再细分的数据集,即可以用一个数据字典能够唯一描述的数据集合。3.2 数据集系列dataset series 数据集系列是同一主题的多个数据集的组合,都符合相同产品规。 3.3 元数据metadata 元数据是关于数据的数据,用来描述数据的容、覆盖围、质量、管理方式、数据的所有者、数据的提供方式等有关信息。 3.4 元数据元素 metadata element

元数据管理解决方案-2018.3.27

元数据解决方案 随着报价系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。 一、什么是元数据 元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 1. 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存 取控制)。 2. 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型,业务概念模型与物理数据的依赖, 二、元数据的作用 元数据可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;元数据清晰的描述了数据的来龙去脉,描述了数据抽取转换规则,是保证数据质量的关键;元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理,可以支持需求变化,从而提高系统的可扩展性;打通数据孤岛,统一数据定义,形成企业级知识传承平台,元数据管理使得数据变的更有价值。三、元数据管理 在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。 1. 元数据采集 技术元数据的采集,根据现有元数据设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的,ETL等产生的元数据,对于元数据管理工具支持的格式可直接进行导入,对于一些自定义的规则,需要进行格式转换并导入。

JAVA反射机制(内含大量实例)

反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域所采用,并在Lisp和面向对象方面取得了成绩。其中LEAD/LEAD++ 、OpenC++ 、MetaXa和OpenJava等就是基于反射机制的语言。最近,反射机制也被应用到了视窗系统、操作系统和文件系统中。 反射本身并不是一个新概念,它可能会使我们联想到光学中的反射概念,尽管计算机科学赋予了反射概念新的含义,但是,从现象上来说,它们确实有某些相通之处,这些有助于我们的理解。在计算机科学领域,反射是指一类应用,它们能够自描述和自控制。也就是说,这类应用通过采用某种机制来实现对自己行为的描述(self-representation)和监测(examination),并能根据自身行为的状态和结果,调整或修改应用所描述行为的状态和相关的语义。可以看出,同一般的反射概念相比,计算机科学领域的反射不单单指反射本身,还包括对反射结果所采取的措施。所有采用反射机制的系统(即反射系统)都希望使系统的实现更开放。可以说,实现了反射机制的系统都具有开放性,但具有开放性的系统并不一定采用了反射机制,开放性是反射系统的必要条件。一般来说,反射系统除了满足开放性条件外还必须满足原因连接(Causally-connected)。所谓原因连接是指对反射系统自描述的改变能够立即反映到系统底层的实

际状态和行为上的情况,反之亦然。开放性和原因连接是反射系统的两大基本要素。 Java中,反射是一种强大的工具。它使您能够创建灵活的代码,这些代码可以在运行时装配,无需在组件之间进行源代表链接。反射允许我们在编写与执行时,使我们的程序代码能够接入装载到JVM中的类的内部信息,而不是源代码中选定的类协作的代码。这使反射成为构建灵活的应用的主要工具。但需注意的是:如果使用不当,反射的成本很高。 二、Java中的类反射: Reflection 是 Java 程序开发语言的特征之一,它允许运行中的Java 程序对自身进行检查,或者说“自审”,并能直接操作程序的内部属性。Java 的这一能力在实际应用中也许用得不是很多,但是在其它的程序设计语言中根本就不存在这一特性。例如,Pascal、C 或者 C++ 中就没有办法在程序中获得函数定义相关的信息。 1.检测类: 1.1 reflection的工作机制 考虑下面这个简单的例子,让我们看看 reflection 是如何工作的。

智能信息系统模拟试题及答案4

《智能信息系统》模拟试卷四 年级:专业:姓名:学号: 一、单项选择题 1.()是人工智能(AI)最早的研究领域之一。 A 模式识别 B 自然语言理解 C 自动定理证明 D 知识获取 2 知识组织呈()结构。 A 星状 B 环状 C 网状 D 放射状 3 ()是知识检索中最重要、最基本的知识元素。 A 认知 B 本体 C 自然语言 D 概念 4()用于描述领域知识的表示结构、规则之间的控制约束关系,知识的使用范围等。 A 元规则 B元事实 C 元数据 D 控制单元 5 在智能搜索引擎体系结构中,哪层结构负责接受服务器端的检索结构:()。 A 数据层 B 表示层 C 应用层 D 逻辑层 二、多项选择题 1.人工智能领域中,产生式规则是知识表示表示方法之一,其包括下面哪些规则:() A 正向规则和逆向规则 B 确定规则和不确定规则 C 元规则 D 特殊和一般性规则 2. 元数据结构包括:() A 形式结构 B 内容结构 C 句法结构 D 语义结构 3. 根据推理方向的控制策略,知识推理包括一下哪些规则:() A 正向推理 B 双向推理 C 精确推理 D 单调推理

4.下面哪些是知识检索的智能特征:() A 支持自然语言理解和检索 B 具有知识推理和学习功能 C 具有可视化、智能化检索功能 D 能够通过非自然语言和知识语言进行人机交互 5. 下面哪个是专家经验知识的主要获取方法:()。 A 头脑风暴的方法 B 机器归纳学习技术 C 神经网络技术 D 专家访谈的方法 三、简答题 1.请简述本体的定义,以及按照本体的应用划分,本体分为哪些类型。 2.请简述可视化知识组织实现的步骤。 3.请简述正向规则推理中解决冲突的策略。 4.请简述概念网络检索方法的基本原理。 5.请简述知识获取的两种基本方法。 四、论述题 1.请论述知识组织和信息组织之间的关系。 2.请论述认知理论的基本概念和其在知识检索中的应用和作用。 3.请论述机器学习系统的结构和功能。 4.试述知识发现的主要过程。 5.论述智能信息系统开发的步骤。 模拟试卷四答案 一、单项选择题

java反射机制

Java的反射机制是Java特性之一,反射机制是构建框架技术的基础所在。灵活掌握Java反射机制,对大家以后学习框架技术有很大的帮助。 那么什么是Java的反射呢? 大家都知道,要让Java程序能够运行,那么就得让Java类要被Java虚拟机加载。Java类如果不被Java虚拟机加载,是不能正常运行的。现在我们运行的所有的程序都是在编译期的时候就已经知道了你所需要的那个类的已经被加载了。 Java的反射机制是在编译并不确定是哪个类被加载了,而是在程序运行的时候才加载、探知、自审。使用在编译期并不知道的类。这样的特点就是反射。 那么Java反射有什么作用呢? 假如我们有两个程序员,一个程序员在写程序的时候,需要使用第二个程序员所写的类,但第二个程序员并没完成他所写的类。那么第一个程序员的代码能否通过编译呢?这是不能通过编译的。利用Java反射的机制,就可以让第一个程序员在没有得到第二个程序员所写的类的时候,来完成自身代码的编译。 Java的反射机制它知道类的基本结构,这种对Java类结构探知的能力,我们称为Java类的“自审”。大家都用过Jcreator和eclipse。当我们构建出一个对象的时候,去调用该对象的方法和属性的时候。一按点,编译工具就会自动的把该对象能够使用的所有的方法和属性全部都列出来,供用户进行选择。这就是利用了Java反射的原理,是对我们创建对象的探知、自审。 Class类 要正确使用Java反射机制就得使用https://www.wendangku.net/doc/a112809544.html,ng.Class这个类。它是Java反射机制的起源。当一个类被加载以后,Java虚拟机就会自动产生一个Class对象。通过这个Class对象我们就能获得加载到虚拟机当中这个Class对象对应的方法、成员以及构造方法的声明和定义等信息。 反射API ◆反射API用于反应在当前Java虚拟机中的类、接口或者对象信息 ◆功能 —获取一个对象的类信息. —获取一个类的访问修饰符、成员、方法、构造方法以及超类的信息. —检获属于一个接口的常量和方法声明. —创建一个直到程序运行期间才知道名字的类的实例. —获取并设置一个对象的成员,甚至这个成员的名字是 在程序运行期间才知道. —检测一个在运行期间才知道名字的对象的方法 利用Java反射机制我们可以很灵活的对已经加载到Java虚拟机当中的类信

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

.数据分析篇——空间元数据

空间元数据库知识点一、知识点结构

二、知识点内容 知识点(优先级)描述定位 1元数据编辑相关插件(A) 与元数据编辑相关的视图为元数据视图。 与元数据编辑相关的插件有元数据编辑插件,加载之后的工具条为: ?元数据库列表框用于选择元数据库,如图所示:元数据库列表框; ?元数据集列表框用于选择元数据集,如图所示:元数据集列表框; ?样式表列表框用于选择样式表,如图所示:元数据显示样式表列表框; ?单击编辑按钮,可以实现对元数据的编辑,如图所示:编辑元数据按钮; ?单击创建按钮,可以实现对元数据的创建,如图所示:创建元数据按钮; ?单击导入按钮,可以导入元数据,如图所示:导入元数据按钮; ?单击导出按钮,可以导出元数据,如图所示:导出元数据按钮; ?单击元数据和空间数据的一致性检查按钮,可以浏览检查元数据和空间数据的一致性,如图所示:元数据和空间数据的一致性检查按钮; ?单击浏览附件按钮,可以浏览元数据附件,如图所示:浏览元数据附件按钮。 MapGIS7.x 数据管理 篇.chm 25.2.2

2元数据创建(A)1、创建元数据库和元数据集 在“元数据库”文件夹右键选择“创建”功能,输入元数据库的名称,如test。 展开元数据库,找到test点击右键选择创建元数据集,输入元数据集名称。 图1创建元数据库和元数据集 2、元数据的创建方法有多种,以下逐一介绍。 (1)在元数据集上右键点击元数据导入,其具体的操作参见元数据的批量导入。 (2)工具条上点击创建元数据按钮,如果当前选中的是“元数据库”,就会在元数据库文件夹下的第一个元数 据库中的第一个元数据集中建立元数据;如果选中的是某个元数据库(如test),就会在该元数据库中的最先建的 元数据集中建立元数据;如果选中的是某个元数据集(如meta),就会在该元数据集中建立元数据。 (3)为地理实体建立元关系,在建立了元关系的元数据集上右键点击,选择同步元数据,则会在元数据列表中新 建元数据,其具体的操作请参考创建同步和更新同步。 MapGIS7.x 数据管理 篇.chm 25.2.1 3元数据浏览(A)在MapGisCatalog目录树中选中某个元数据集,将视图切换到元数据视图,在元数据视图中的元数据列表中会列出 该元数据集下的所有元数据,选择某条元数据,在元数据视图中即会显示该条元数据的信息。 可以从下拉列表中,选择已有的显示方式对该条元数据的显示方式进行更改。 MapGIS7.x 数据管理 篇.chm 25.2.1

JAVA的反射机制与动态代理

JA V A的反射机制与动态代理 李海峰(QQ:61673110)-Andrew830314@https://www.wendangku.net/doc/a112809544.html, 运行时类型信息(RunTime Type Information,RTTI)使得你在程序运行时发现和使用类型信息。RTTI主要用来运行时获取向上转型之后的对象到底是什么具体的类型。 1.Class对象: JAVA使用Class对象来执行RTTI。每个类都有一个Class对象,它用来创建这个类的所有对象,反过来说,每个类的所有对象都会关联同一个Class对象(对于数组来说,维数、类型一致的数组的Class对象才是相同的),每个对象的创建都依赖于Class对象的是否创建,Class对象的创建发生在类加载(https://www.wendangku.net/doc/a112809544.html,ng.ClassLoader)的时候。 https://www.wendangku.net/doc/a112809544.html,ng.Class类实现了Serializable、GenericDeclaration、Type、AnnotatedElement四个接口,分别实现了可序列化、泛型定义、类型、元数据(注解)的功能。 你可以把Class对象理解为一个类在内存中的接口代理(它代理了这个类的类型信息、方法签名、属性),JVM加载一个类的时候首先创建Class对象,然后创建这个类的每个实例的时候都使用这个Class对象。 Class只有一个私有的无参构造方法,也就是说Class的对象创建只有JVM可以完成。 如何验证同一个类的多个对象的Class对象是一个呢? Cf1 cf1 = new Cf1(); Class clazz = Cf1.class; System.out.println(cf1.getClass() == clazz); 我们知道==用来比较引用是否相等(也就是同一个引用),上面的输出语句结果是true。那么Class对象是否相等是JAVA对象中唯一可以使用==判断的。 如何获取Class对象: 1.所有的引用数据类型(类-类型)的类名、基本数据类型都可以通过.class方式获取其Class 对象(对于基本数据类型的封装类还可以通过.TYPE的方式获取其Class对象,但要注意.TYPE实际上获取的封装类对应的基本类型的Class对象的引用,那么你可以判断出int.class==Integer.TYPE返回true,int.class==Integer.class返回false!),通过这种方式不会初始化静态域,使用.class、.TYPE的方式获取Class对象叫做类的字面常量; 2.Class的forName(String name)传入一个类的完整类路径也可以获得Class对象,但由于使用的是字符串,必须强制转换才可以获取泛型的Class的Class对象,并且你必须获取这个方法可能抛出的ClassNotFoundException异常。 2.对于引用数据类的引用(必须初始化),可以通过Object类继承的getClass()方法获取这个引用的Class对象,由于引用已经被初始化,所以这种方式也不会初始化静态域,因为静态域已经被初始化过。另外,前面两种方式如果说是创建Class对象,那么这种方式应该是取得Class对象,因为类的实例已经被创建,那么Class对象也一定早就被创建。 Class的常用方法: l forName(String name):这是一个静态方法,传入的参数是一个类的完整类路径的字符串,返回这个类的Class对象,前面说过Class对象的创建发生在类的加载时,所以这个方法会导致静态成员被调用; l forName(String name,boolean initialize,ClassLoader loader):这是上面的方

中国科学院科学数据库

项目编号:INF105-SDB-3 文档编号:P/SDBSP-1.1.1 版本:1.0 中国科学院科学数据库 通用元数据管理工具用户使用手册 中国科学院计算机网络信息中心 科学数据库中心 2003 年9 月

目录 1引言 (1) 1.1编写目的 (1) 1.2背景 (1) 1.3技术支持 (1) 2功能 (2) 3运行环境 (3) 3.1硬件环境 (3) 3.2软件环境 (3) 4操作指南 (4) 4.1用户类型 (4) 4.2 用户登录 (5) 4.2.1系统管理员的登录 (5) 4.2.2单位管理员的登录 (7) 4.2.3一般用户的登录 (9) 4.3 用户密码管理 (11) 4.4 界面风格定制 (12) 4.4.1 添加元数据界面的设定 (12) 4.4.2 查询界面的设定 (13) 4.4.3 概要显示的设定 (13) 4.4.4 详细显示界面的设定 (13) 4.5 添加元数据 (15) 4.6 元数据记录修改 (15) 4.7 元数据记录删除 (16) 4.8 元数据查询 (18) 4.8.1 单位内元数据的查询 (18) 4.8.2 针对XML Schema跨单位的查询 (18) 4.8.3 查询方法 (19) 4.8.4查询结果的显示 (19) 4.9 出错处理和恢复 (21)

1引言 1.1编写目的 感谢您选用《通用元数据管理工具》管理数据库数据集,为了使各建库单位能够准确、方便的使用《通用元数据管理工具》对科学数据库数据集进行元数据描述和管理,特编写了《通用元数据管理工具》用户手册。该手册适用于各建库单位具体负责元数据管理的数据库系统管理人员以及元数据录入人员。 1.2背景 《通用元数据管理工具》是为了配合科学数据库元数据标准规范的推广应用而研发的基于xml schema的元数据管理专用工具,是科学数据库及其应用系统的研究成果之一。 科学数据库及其应用系统是中国科学院多个研究所参加、跨学科联合建设的综合型重大项目,是中国科学院知识创新工程信息化建设重大专项之一,目标是在中国科学院全院范围内将研究所多年积累的科学数据资源组织起来,与计算机、数据库和网络等先进技术相结合,促进数据向知识的转化,完善信息化的科学研究环境,并对科研与社会提供科技数据资源共享与服务。 科学数据库及其应用系统涉及到资源建设、规范建设和系统平台设计等多方面的技术、资源的发掘、研究、积累与应用。为了实现分布式的跨平台的数据资源共享,在科学数据库及其应用系统的研发和建立中,必须研究制定面向各个学科数据集的元数据标准。为此该项目设立了“标准规范研究子项目”,经过较长时间的研究,标准规范研究小组已经制定了以XML Schema描述的“中国科学院科学数据库核心元数据标准”以及多个面向具体学科数据集的元数据标准,为了更好的推广应用这些元数据标准,中国科学院计算机网络信息中心科学数据库中心研发了《通用元数据管理工具》。 目前,该工具已在中国科学院计算机网络信息中心试用近半年,运行稳定。 1.3技术支持 科学数据库中心:北京市海淀区中关村南四街4号中国科学院计算机网络信息中心 科学数据库中心 邮编:100080 电话:(8610)62580066 传真:(8610)62578544 Email: md@https://www.wendangku.net/doc/a112809544.html, 网址:https://www.wendangku.net/doc/a112809544.html,;https://www.wendangku.net/doc/a112809544.html,

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

数据挖掘知识点归纳

知识点一数据仓库 1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。 2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。 3.数据仓库围绕主题组织 4.数据仓库基于历史数据提供消息,是汇总的。 5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值 6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据 7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度 8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据 9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。 知识点二可以挖掘什么数据 1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析 2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性 3.描述性挖掘任务刻画目标数据中数据的一般性质 4.预测性挖掘任务在当前数据上进行归纳,以便做出预测 5.数据可以与类或概念相关联 6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述 7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分 8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述可以用广义关系或者规则(也叫特征规则)提供。 9.用规则表示的区分描述叫做区分规则。 10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。 11.频繁项集一般指频繁地在事务数据中一起出现的商品的集合 12.频繁子序列就是一个频繁序列模式 13.子结构涉及不同的结构,可以与项集和子项集一起出现 14.挖掘频繁模式导致发现数据中有趣的关联和相关性 15.包含单个谓词的关联规则称作单维关联规则。多个谓词的关联规则叫做多维关联规则。 16.如果不能同时满足最小支持度阈值和最小置信度阈值是无趣的关联规则。 17.频繁模式挖掘的基础是频繁项集挖掘 18.分类找出描述和区分数据类或概念的模型或者函数来预测类标号未知对象的类标号。 19.导出模型是基于训练数据集的分析,预测类标号未知对象的类标号。形式有分类规则、决策树、数学公式或者神经网络 20.决策树类似流程图的树结构,每一个结点代表一个属性上的测试,每一个分支代表测试

相关文档
相关文档 最新文档