文档库 最新最全的文档下载
当前位置:文档库 › 可扩展标记语言(XML) 1.0

可扩展标记语言(XML) 1.0

可扩展标记语言(XML) 1.0
可扩展标记语言(XML) 1.0

可扩展标记语言(XML) 1.0

W3C建议1998年2月10日

本版本:

https://www.wendangku.net/doc/9a2115967.html,/TR/1998/REC-xml-19980210

https://www.wendangku.net/doc/9a2115967.html,/TR/1998/REC-xml-19980210.xml

https://www.wendangku.net/doc/9a2115967.html,/TR/1998/REC-xml-19980210.html

https://www.wendangku.net/doc/9a2115967.html,/TR/1998/REC-xml-19980210.pdf

https://www.wendangku.net/doc/9a2115967.html,/TR/1998/REC-xml-19980210.ps

最新版本:

https://www.wendangku.net/doc/9a2115967.html,/TR/REC-xml

上一版本:

https://www.wendangku.net/doc/9a2115967.html,/TR/PR-xml-971208

编者:

Tim Bray (Textuality and Netscape)

Jean Paoli (Microsoft)

C. M. Sperberg-McQueen (University of Illinois at Chicago)

摘要

本文档完整地描述了可扩展标记语言(Extensible Markup Language,XML),它是标准通用标记语言(Standard Generic Markup Language,SGML)的一个子集。其目的在于使得在Web上能以现有超文本标记语言(Hypertext Markup Language,HTML)的使用方式提供,接收和处理通用的SGML成为可能。XML的设计既考虑了实现的方便性,同时也顾及了与SGML 和HTML的互操作性。

本文档的状态

本文档已由W3C组织成员和其他相关各方审阅,并已被组织理事批准为W3C建议。这是一个稳定的文档,可以用作参考材料,也可以作为其他文档的正式参考文献。W3C在建议制定过程中的作用是吸引对本规范的注意并促进它的广泛使用。这能增强Web的功能和互操作性。

本文档规定了一种用于World Wide Web的语法,此语法是通过取一个业已存在并已广泛使用的文本处理国际标准(标准通用标记语言,经增补和更正的ISO 8879:1986(E))的子集而创建的。它是W3C XML行动组(XML Activity)的工作成果,关于XML行动组的详细信息可以在https://www.wendangku.net/doc/9a2115967.html,/XML找到。在https://www.wendangku.net/doc/9a2115967.html,/TR可以找到现有W3C建议和其他技术文档的一个列表。

本规范中使用了[Berners-Lee等人]定义的一个术语URI,他们正在从事的的工作将更新[IETF RFC1738]和[IETF RFC1808]。

本规范的已知错误列表可以在https://www.wendangku.net/doc/9a2115967.html,/XML/xml-19980210-errata找到。

请将本文档中的错误报告给xml-editor@https://www.wendangku.net/doc/9a2115967.html,。

可扩展标记语言(XML) 1.0

目录

1. 绪论

1.1 开发者和开发目标

1.2 术语

2. 文档

2.1 格式良好的XML文档

2.2 字符

2.3 通用句法成分

2.4 字符数据和标记

2.5 注释

2.6 处理指令

2.7 CDATA段

2.8 序言和文档类型声明

2.9 独立文档声明

2.10 空白域处理

2.11 行尾处理

2.12 语言标识

3. 逻辑结构

3.1 起始标记,结束标记和空元素标记

3.2 元素类型声明

3.2.1 元素内容

3.2.2 混合型内容

3.3 属性表声明

3.3.1 属性类型

3.3.2 属性缺省值

3.3.3 属性-值对的规范化

3.4 条件段

4. 物理结构

4.1 字符和实体引用

4.2 实体声明

4.2.1 内部实体

4.2.2 外部实体

4.3 已析实体

4.3.1 文本声明

4.3.2 格式良好的已析实体

4.3.3 实体中的字符编码

4.4 XML处理器对实体和引用的处理

4.4.1 不被识别

4.4.2 被包含

4.4.3 进行验证时被包含

4.4.4 被禁止

4.4.5 被包含在常量中

4.4.6 通知

4.4.7 不处理

4.4.8 作为PE被包含

4.5 内部实体置换文本的构建

4.6 预定义实体

4.7 符号声明

4.8 文档实体

5. 一致性

5.1 进行验证和不进行验证的处理器

5.2 使用XML处理器

6. 符号

附录

A. 参考文献

A.1 标准参考文献

A.2 其他参考文献

B. 字符的分类

C. XML和SGML(非标准)

D. 实体和字符引用的展开(非标准)

E. 确定型内容模型(非标准)

F. 字符编码的自动检测(非标准)

G. W3C XML工作组(非正式)

1. 绪论

可扩展标记语言,缩写为XML,描述了一类称为XML文档的数据对象,同时也部分地描述了处理这些数据对象的计算机程序的行为。XML是SGML(标准通用标记语言[ISO 8879])针对应用的一个子集,或者说是SGML的一种受限形式。根据定义,XML文档是合乎规范的SGML文档。

XML文档由称为实体的存储单元组成,实体包含解析数据或未解析数据。解析数据由字符

组成,其中一些字符组成字符数据,另一些字符组成标记。标记中包含了对文档存储格式(storage layout)和逻辑结构的描述。XML提供了一种机制用于约束存储格式和逻辑结构。

称为XML处理器的软件模块用于读取XML文档,存取其中的内容和结构。XML处理器被设想为是为另一个称为应用的模块作处理。本规范从XML处理器应如何读取XML数据以及应向应用提供哪些信息的这两个方面,描述了要求XML处理器作出的动作。

1.1 开发者和开发目标

XML由XML工作组(原先的SGML编辑审查委员会)开发,此工作组由World Wide Web Consortium(W3C)在1996年主持成立。工作组由Sun Microsystems的Jon Bosak负责,同样由W3C组织的XML SIG(Special Interest Group)(原先的SGML工作组)积极参与了XML工作组的工作。XML工作组的成员在附录中给出。工作组与W3C的联系人是Dan Connolly。

XML的设计目标如下:

XML应该可以直接在因特网(Internet)中使用。

XML应该支持大量不同的应用。

XML应该与SGML兼容。

处理XML文档的程序应该容易编写。

XML中的可选项应尽可能少,理想状况下应为零。

XML文档应该清晰明了,可读性强。

XML应易于设计。

XML的设计应该正式而且简洁。

XML文档应易于创建。

XML标记的简洁性较为次要。

本规范与其他相关的标准一起(Unicode和ISO/IEC 10646定义了字符集,Internet RFC1766定义了语言识别码,ISO 639定义了语言名称代码,ISO 3166定义了国家名称代码),提供了理解XML版本1.0和创建相应计算机处理程序所需的所有信息。

在完整保留所有文本和法律注意事项的前提下,本版本的XML规范可以自由分发。

1.2 术语

用于描述XML 文档的术语在此规范的正文中定义。在这些定义中以及描述一个XML处理器的动作时,使用了下表中的术语:

可以(may)

允许合乎规范的文档和XML处理器按所描述的方式工作,但不要求必须如此。

必须(must)

要求合乎规范的文档和XML处理器按所描述的方式工作; 否则出现错误。

错误(error)

对本规范中的规则的违反; 其结果不确定。合乎规范的软件可以检测和报告错误,并可以从中恢复。

严重错误(fatal error)

合乎规范的XML处理器必须检测到,并向应用报告的一类错误。在遇到严重错误之后,处理器可以继续处理数据以发现更多的错误并可以向应用报告这些错误。为了支持错误的更正,处理器可以向应用提供文档中未经处理的数据(字符数据和标记的混合体)。但是,一旦检测到一个严重错误,处理器必须停止正常的处理(也就是说,它必须停止以正常的方式向应用提供与文档逻辑结构有关的数据和信息)。

由用户选择(at user option)

合乎规范的软件可以或者必须(取决于句子中的情态动词)按所描述的方式工作; 如果它满足这个条件,它必须同时提供用户一种手段,使得用户能够启用和禁用所描述的工作方式。

有效性约束(validity constraint)

适用于所有有效的XML文档的一种规则。违反有效性约束属于错误; 由用户选择,进行验证的XML处理器必须报告这些错误。

格式约束(well-formedness constraint)

适用于所有有效的XML文档的一种规则。违反格式约束属于严重错误。

匹配(match)

(对于字符串和名字:)被比较的两个字符串或名字必须完全相同。在ISO/IEC 10646中有多种可能表示方式的字符(例如,既有预定义(precomposed)形式和基字符(base)+变音符形式的字符)只在两个字符串中的表示方式相同时才匹配。由用户选择,处理器可以将这些字符规范成某种规范形式。不进行字符的大小写转换。(对于句法中的字符串和规则:)如果一个字符串属于一个句法产生式产生的语言,则它匹配这个产生式。(对于内容和内容模型:)当一个元素符合"元素有效性"约束中的描述时,它匹配其声明.

兼容性考虑(for compatibility)

仅用于保证与SGML兼容的XML特性。

互操作性考虑(for interoperability)

是一个不具约束性的建议,目的是增加XML文档能被在ISO 8879的WebSGML改编附件之前已有的SGML处理器处理的可能性。

2. 文档

如果一个数据对象满足本规范中格式良好的要求时,它是一个XML文档。一个规范的XML 文档如果满足某些进一步的约束,它将更为有效。

每一个XML文档都有逻辑和物理结构。物理上而言,文档由称为实体的单元组成。一个实体可以引用(refer)其他实体,将它们包含在文档中。文档开始于"根(root)"或文档实体中。逻辑上而言,文档由声明、元素、注释、字符引用和处理指令组成,所有这些都在文档中用显式标记指明。逻辑和物理结构必须如"4.3.2 格式良好的解析实体"中所描述那样严格地嵌套。

2.1 格式良好的(Well-Formed)XML文档

一个文本对象如果满足以下条件,它将是一个格式良好的XML文档:

1.作为一个整体,它匹配文档(document)产生式。

2.它满足本规范中定义的所有格式约束。

3.此文档中直接或间接引用的每一个解析实体都是格式良好的。

文档

[1] document ::= prolog element Misc*

匹配document产生式意味着:

1.它包含一个或多个元素.

2.有且仅有一个称为根(root)或文档元素的元素,它不出现在其他任何元素的内容(content)中。对于其他所有元素,如果起始标签在另一个元素的内容中,则其结束标签也在同一元素的内容中。换一个更简单的说法,以起始标签和结束标签为界的各个元素,必须严格地嵌套。

这样做的结果是,对于每一个非根的元素C,文档中另有一个元素P,C在P的内容中,而不在其他任何被P所包含的元素的内容中。P被称为C的父元素(parent),而C被称为P的子元素(child)。

2.2 字符

一个解析实体包含文本(text),文本是一个字符(character)序列,可以表示标记或字符数据。一个字符是ISO/IEC 10646[ISO/IEC 10646]中定义的文本最小单元。合法的字符包括制表符,回车,换行以及Unicode和ISO/IEC 10646中定义的合法的图形字符。不提倡使用[Unicode]6.8节中定义的"兼容字符(compatibility characters)"。

字符范围

[2]Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

/* 除了替代块(surrogate block),FFFE和FFFF以外的任意Unicode字符。*/

将字符代码编码成位模型的机制各个实体间可能会有所不同。所有的XML处理器必须接受10646中的UTF-8和UTF-16编码;用于指出所用编码或指定使用其他编码的机制在后

面的"4.3.3 实体中的字符编码"中讨论。

2.3 通用句法成分

本节中定义了一些在句法中广泛使用的符号。

S(空白域)包括一个或多个空格字符(#x20),回车,换行或制表符。

空白

[3] S ::= (#x20 | #x9 | #xD | #xA)+

为方便起见,字符被分为字母,数字和其他字符三类。字母可以是字母表中的字母,或是一个音节基字符(syllabic base character)后跟一个或多个组合字符,也可以是一个表意字符。在"B. 字符的分类"中给出了每一类字符的特定定义。

名字(name)是以一个字母或某一标点符号开头的记号,后跟字母,数字,连字符,下划线,冒号或句号,这些符号统称为命名字符(name character)。以"xml"或其他任何以(('X'|'x') ('M'|'m') ('L'|'l')) 的字符串开头的名字,被保留用于本规范的此版本或后续版本的标准化。

注意:XML名字中的冒号被保留用于名域(name space)实验。它的含义有待于日后标准化,那时那些将冒号用于实验目的的文档有可能需要更新。(不保证XML采用的任何名字空间机制实际会采用冒号作为定界符。)实际上,这意味着除非用于名字空间实验,XML文档编者不应该在XML名字中使用冒号,但XML处理器应该接受冒号作为一个命名字符。

Nmtoken(名字记号,name token)是任何命名字符的混合体。

名字和记号

[4] NameChar ::= Letter | Digit | '.' | '-' | '_' | ':' | CombiningChar | Extender

[5] Name ::= (Letter | '_' | ':') (NameChar)*

[6] Names ::= Name (S Name)*

[7] Nmtoken ::= (NameChar)+

[8] Nmtokens ::= Nmtoken (S Nmtoken)*

字面数据是任何用引号括起的字符串,不包括用作定界符的引号。字面数据用于指明内部实体的内容(EntityValue),属性值(AttValue),以及外部标识符(SystemLiteral)。注意,对SystemLiteral的解析可以不扫描标记。

字面数据

[9] EntityValue ::= '"' ([^%&"] | PEReference | Reference)* '"'

| "'" ([^%&'] | PEReference | Reference)* "'"

[10] AttValue ::= '"' ([^<&"] | Reference)* '"'

| "'" ([^<&'] | Reference)* "'"

[11] SystemLiteral ::= ('"' [^"]* '"') | "'" [^']* "'")

[12] PubidLiteral ::= '"' PubidChar* '"' | "'" (PubidChar - "'")* "'"

[13] PubidChar ::= #x20 | #xD | #xA | [a-zA-Z0-9] | [-'()+,./:=?;!*#@$_%]

2.4 字符数据和标记

文本由字符数据和标记混合构成。标记包括起始标记、结束标记、空元素标记、实体引用、字符引用、注释、CDATA段定界符、文档类型声明和处理指令。

其他所有非标记的文本组成文档的字符数据。

"and"号(&)和左尖括号(<)只有作为标记定界符,或在注释,处理指令,或CDATA段中时才能以字面形式出现。它们在一个内部实体声明的字面实体数值中也是合法的,参见"4.3.2 格式良好的解析实体"。如果在其他地方需要用到这两个字符,它们必须用数值式字符引用来转义或分别用字符串"&"和"<"表示。右尖括号(>)可以用">"表示,而当它在内容中的字符串"]]>"中出现,但此字符串不表示一个CDATA段的结束时,出于兼容性考虑,必须用">"或一个字符引用转义得到。

在一个元素的内容中,字符数据可以是不包括任何标记的起始定界符的任意字符串。在一个CDA TA段中,字符数据可以是不包括CDATA段结束定界符"]]>"的任意字符串。

为了允许在属性值中包含单引号和双引号,省略符或称单引号(')可以被表示为"'",而双引号(")可以被表示为"""。

字符数据

[14] CharData ::= [^<&]* - ([^<&]* ']]>' [^<&]*)

2.5 注释

注释可以在其他标记之外的文档中的任何位置出现。另外,它们可以在文档类型声明中语法允许的地方出现。它们不是文档字符数据的一部分,XML处理器可以,但不必须,允许一个应用检索注释文本。出于兼容性考虑,字符串"--"(双连字符)不能在注释中出现。

注释

[15] Comment ::= ''

注释的一个例子:

2.6 处理指令

处理指令(PI)允许文档中包含由应用来处理的指令。

处理指令

[16] PI ::= '' Char*)))? '?>'

[17] PITarget ::= Name - (('X' | 'x') ('M' | 'm') ('L' | 'l'))

PI不是文档字符数据的一部分,但必须传递给应用。PI以用于指示传递给哪个应用的目标(PITarget)开头,目标名字"XML","xml",等等,保留用于本规范的此版本或后续版本的标准化。XML符号机制可以用于PI目标的形式化声明。

2.7 CDATA段

CDA TA段可以出现在字符数据可以出现的任何地方,它们用于转义包含会被识别为标记的字符串的文本块。CDATA段以字符串""结束:

CDA TA段

[18] CDSect ::= CDStart CData CDEnd

[19] CDStart ::= '

[20] CData ::= (Char* - (Char* ']]>' Char*))

[21] CDEnd ::= ']]>'

在一个CDATA段内,只有CDEnd字符串被识别为标记,因此左尖括号和"&"可以以它们的字面形式出现,不需要(也不能)被换码为"<"和"&"。CDATA段不能嵌套。

一个CDATA段的例子,其中""和""被识别为字符数据,而不是标记:Hello, world!]]>

2.8 序言(prolog)和文档类型声明

XML文档可以,也应该以一个XML声明开始,其中指明了所用XML的版本。例如,以

下是一个完整的XML文档,它是格式良好的,但不是有效的:

Hello, world!

下面这个也同样:

Hello, world!

版本号"1.0"应该用于表明对与本规范的此版本相一致,如果使用了值"1.0"但又与本规范的此版本不一致,那么这是文档的一个错误。XML工作组打算赋予本规范的后续版本不同于"1.0"的数值,但这并不代表开发后续版本的承诺,也不代表如果有后续版本,会使用任何特殊的命名方案的承诺。因为不排除有后续版本的可能性,提供了本构造(construct)作为一旦需要时进行自动版本识别的手段。当处理器收到的文档标有它们不支持的版本时,可以给出一个错误。

XML文档中标记的功能是描述文档的存储格式和逻辑结构,并将属性-值对和逻辑结构关联起来。XML提供一种称为文档类型声明的机制,用于定义对逻辑结构的约束,支持预定义存储单元的使用。如果一个XML文档有相应的文档类型声明并且它遵循其中的约束,则称它是有效的(valid)。

文档类型声明必须位于文档第一个元素之前。

序言

[22] prolog ::= XMLDecl? Misc* (doctypedecl Misc*)?

[23] XMLDecl ::= ''

[24] VersionInfo ::= S 'version' Eq (' VersionNum ' | " VersionNum ")

[25] Eq ::= S? '=' S?

[26] VersionNum ::= ([a-zA-Z0-9_.:] | '-')+

[27] Misc ::= Comment | PI | S

XML文档类型声明包含或指向标记声明,标记声明提供某一类文档的语法。这种语法被称为文档类型定义(document type difinition,DTD)。文档类型定义可以指向一个外部子集(一种特殊类型的外部实体),或者可以在一个内部子集中直接包含标记声明,或者两者兼用。一个文档的文档类型定义由这两个子集合在一起组成。

标记声明可以是元素类型声明,属性表声明,实体声明,或是符号声明。这些声明可以如下面规范性和有效性约束中所述,全部或部分地包含在参数实体中,完整的信息参见"4. 物理结构"。

文档类型定义

[28] doctypedecl ::= '' [ VC: 根元素类型]

[29] markupdecl ::= elementdecl | AttlistDecl | EntityDecl | NotationDecl | PI | Comment [ VC: 严格的声明/PE嵌套] [ WFC: 内部子集中的PE ]

标记声明可以全部或部分地由参数实体的置换文本组成。本规范后面的各个非终结符(elementdecl,AttlistDecl,等等)产生式描述的是在所有的参数实体被包含(include)之后的声明。

有效性约束: 根元素类型(Root Element Type)

文档类型声明中的Name必须匹配根元素的类型。

有效性约束: 严格的声明/PE嵌套

参数实体的置换文本必须用标记声明严格嵌套。即,如果一个标记声明(上面的markupdecl)的第一个或最后一个字符被包含于一个参数实体引用的置换文本中,两者必须都在此置换文本中。

格式约束: 内部子集中的PE

在内部DTD子集中,参数实体引用只能出现在标记声明出现的地方,而不能在标记声明内部出现。(这个约束不适用于出现在外部参数实体内的引用,也不适用于外部子集。)

同内部子集一样,外部子集和任何DTD中引用的外部参数实体,必须由一系列被非终结符markupdecl所允许的完整的标记声明组成,其中可以夹杂空白字符或参数实体引用。但是,外部子集和外部参数实体的部分内容可以通过使用条件段(conditional section)被有条件地忽略,在内部子集中则不允许这么做。

外部子集

[30] extSubset ::= TextDecl? extSubsetDecl

[31] extSubsetDecl ::= ( markupdecl | conditionalSect | PEReference | S )*

外部子集和外部参数实体与内部实体不同之处还在于:在外部子集和外部参数实体内,参数实体引用不仅可以出现在标记声明间,还可以出现在标记声明内。

有文档类型声明的XML文档的例子:

Hello, world!

系统标识符"hello.dtd"给出了文档DTD的URI。

声明也可以如同下面这个例子一样直接(locally)给出:

]>

Hello, world!

如果同时使用外部和内部子集,内部子集被看成出现在外部子集之前,这意味着内部子集中的实体和属性表声明的优先级要比在外部子集中的高。

2.9 独立文档声明

当文档从XML处理器递给应用时,标记声明可以影响它的内容,属性缺省值和实体声明是其中的例子。可以作为XML声明成分的独立文档声明,指明了对于文档实体而言,是否存在外部的声明。

独立文档声明

[32] SDDecl ::= S 'standalone' Eq (("'" ('yes' | 'no') "'") | ('"' ('yes' | 'no') '"')) [ VC: 独立文档声明]

在一个独立文档声明中,值"yes"表示对于文档实体没有外部标记声明(不论是在DTD外部子集中,还是在由内部实体引用的外部参数实体中)会影响从XML处理器传递给应用的信息。值"no"表示有或可能有这样的外部标记声明。注意独立文档声明只是表示外部声明的存在,如果文档中存在对外部实体的引用,而这些实体已在内部声明时,不影响它的独立状态。

如果不存在外部标记声明,独立文档声明没有意义。如果存在外部标记声明,但没有独立文档声明,就假定取值"no"。

某些网络传输应用也许需要独立的文档,任何满足standalone="no"的XML文档可以通过一定的算法转换为独立文档。

有效性约束: 独立文档声明

独立文档声明必须取值为"no",如果任何外部标记声明中包含:

?有缺省值的属性声明,如果适用这些属性的元素出现在文档中而又没有给这些属性赋

值的话。

?(除了amp,lt,gt,apos,quot的)实体声明,而对这些实体的引用出现在文档中的话。

?需要规范化的属性声明,这些出现在文档中的属性的值会因规范化而改变。

?具有元素内容的元素类型声明,如果在这些类型的任一实例中直接出现空白域的话。具有独立文档声明的XML声明的例子:

2.10 空白域处理

在编辑XML文档时,使用"空白域"(空格,制表符,空行,在本规范中用非终结符S表示)来分开标记以获得更好的可读性是很方便的。通常在文档的交付版本中不想包含这些空白域。另一方面,必须保留在交付版本中的有意义的空白域是很常见的,如在诗歌和源码中的空白域。

XML处理器必须始终把不是标记的所有字符传递给应用。一个进行验证的XML处理器必须同时通知应用这些字符中的那一些组成了出现在元素内容中的空白域。

可以在元素中附加一个名为xml:space的特殊属性,以通知应用应该保留此元素中的空白域。在有效的文档中,此属性和其他属性一样,使用时必须声明。它必须被声明为枚举类型,只有"default"和"preserve"两个可能的值。例如:

"default"表示可以对此元素使用应用的缺省空白域处理模式,"preserve"表示应用应该保留所有的空白域。这适用于其所处元素的内容中的所有元素,除非被另一个xml:space属性的实例所覆盖。

任何文档的根元素被认为对应用的空白域处理方式不作要求,除非它给此属性赋了值或将此属性声明为带缺省值。

2.11 行尾处理

为编辑的方便起见,存储XML已析实体的计算机文档经常用行来组织。通常这些行用回车符(#xD)和换行符(#xA)的一些组合来分隔。

为了使应用的工作简单化,对于一个外部已析实体或内部已析实体的字面实体值中包含的任何双字符序列"#xD#xA"或单独的#xD,XML处理器都应换成#xA传递给应用。(这可以通过在进行解析前将所有行定界符规范成#xA而方便地实现。)

2.12 语言标识

在进行文档处理时,标识出其内容所使用的自然或形式化语言经常是很有用的。可以在文档中插入一个名为xml:lang的特殊属性用于指出XML文档中任何元素的内容和属性所使用的

语言。在有效的文档中,此属性和其他属性一样,使用时必须声明。此属性的值是[IETF RFC 1766],"语言标识码"中定义的语言标识符:

语言标识

[33] LanguageID ::= Langcode ('-' Subcode)*

[34] Langcode ::= ISO639Code | IanaCode | UserCode

[35] ISO639Code ::= ([a-z] | [A-Z]) ([a-z] | [A-Z])

[36] IanaCode ::= ('i' | 'I') '-' ([a-z] | [A-Z])+

[37] UserCode ::= ('x' | 'X') '-' ([a-z] | [A-Z])+

[38] Subcode ::= ([a-z] | [A-Z])+

Langcode可以是下列值:

?[ISO 639],"语言名称的表示码"中定义的双字母语言码。

?在Internet Assigned Numbers Authority [IANA]注册的语言标识码,以前缀"i-"(或"I-")

开头。

?用户指定或经各方同意的专用语言标识符,必须以前缀"x-"或"X-"开头,以保证它们

不会和以后经IANA标准化或在IANA注册的名字相冲突。

可以有任意多个子代码段(subcode),如果第一个子代码段存在,并且子代码由两个字母组成,那么此子代码必须是[ISO 3166],"国家名称表示码"中定义的国家代码。如果第一个子代码多于两个字母,那么它必须是在IANA注册的语言代码所表示的语言的子代码,除非它Langcode以前缀"x-"或"X-"开头。

习惯上用小写字母给出语言代码,用大写字母给出国家代码(如果有的话)。注意这些值与XML文档中的其他名字不同,是大小写无关的。

举例如下:

The quick brown fox jumps over the lazy dog.

What colour is it?

What color is it?

Habe nun, ach! Philosophie,

Juristerei, und Medizin

und leider auch Theologie

durchaus studiert mit hei遝m Bem黨'n.

xml:lang所表示的语言选择适用于它所处元素的所有属性和内容,除非被此内容中的元素内的另一个xml:lang的实例所覆盖。

xml:lang的一个简单声明可以采用如下形式:

xml:lang NMTOKEN #IMPLIED

但是如果合适的话,也可以给出特定的缺省值。在一本供英国学生使用的法文诗歌集中,评注和注解使用英语,xml:lang属性可以这样声明:

3. 逻辑结构

每个XML文档包含一个或多个元素,它们的边界用起始标记和结束标记定界,或者,对于空元素,用一个空元素标记分隔。每一个元素有一个用名字标识的类型,有时称之为它的"通用标识符(generic identifier)"(GI),同时它可以有一个属性说明(attribute specification)集。每个属性说明有一个名字和一个值。

元素

[39]element ::= EmptyElemTag | STag content ETag

[ WFC: 元素类型匹配] [ VC: 元素有效]

除了那些开头匹配(('X'|'x')('M'|'m')('L'|'l'))的名字保留用于本规范的此版本和后继版本的标准化外,本规范不对元素类型和属性的语义,用法和名字(语法之外)作出限制。

格式约束: 元素类型匹配

元素结束标记中的Name必须和起始标记中的元素类型相匹配。

有效性约束: 元素有效

如果有一个与elementdecl相匹配的声明的Name与元素类型相匹配,且下述之一成立时,称此元素是有效的:

1.此声明与EMPTY相匹配,同时此元素没有内容。

2.此声明与children相匹配,同时子元素的序列属于内容模型中的正则表达式所产生的语言,在每对子元素间允许有空白域(匹配非终结符S的字符)。

3.此声明与Mixed相匹配,同时内容由其类型匹配内容模型中的名字的字符数据和子元素组成。

4.此声明与ANY相匹配,同时每个子元素的类型均已声明。

3.1 起始标记,结束标记和空元素标记

每一个非空XML元素以一个起始标记作为开始的标记。

起始标记

[40] STag ::= '<' Name (S Attribute)* S? '>' [ WFC: 唯一的属性说明]

[41] Attribute ::= Name Eq AttValue [ VC: 属性值类型]

[ WFC: 无外部实体引用]

[ WFC: 在属性值中没有< ]

起始标记和结束标记中的Name给出了元素的类型。Name-AttValue对被统称为元素的属性说明,其中每一对中的Name被称为属性名,AttValue的内容(在定界符'或"间的文本)被称为属性值。

格式约束: 唯一的属性说明

一个属性名只能在同一个起始标记或空元素标记中出现一次。

有效性约束: 属性值类型

属性必须被声明,其值必须是所声明的类型。(属性类型参见"3.3 属性表声明"。)

格式约束: 无外部实体引用

属性值不能包含对外部实体直接或间接的实体引用。

格式约束: 在属性值中没有<

在一个属性值中直接或间接引用的实体的置换文本(除了"<")不能包含<。

起始标记的一个例子:

由一个起始标记开始的每一个元素必须用一个结束标记标记其结束,结束标记中的名字必须与起始标记中给出的元素类型相同:

结束标记

[42] ETag ::= ''

结束标记的一个例子:

在起始标记和结束标记中的文本被称为元素的内容:

元素的内容

[43] content ::= (element | CharData | Reference | CDSect | PI | Comment)*

如果一个元素为空,它必须表示为一个起始标记紧跟一个结束标记或空元素标记。一个空元

素标记采用一种特殊的形式:

空元素标记

[44] EmptyElemTag ::= '<' Name (S Attribute)* S? '/>' [ WFC: 唯一的属性说明]

不论元素是否用关键字EMPTY声明,空元素标记都可以用于任何没有内容的元素。出于互操作性考虑,空元素必须用于,且只能用于声明为EMPTY的元素。

空元素的例子:

src="https://www.wendangku.net/doc/9a2115967.html,/Icons/WWW/w3c_home" />




3.2 元素类型声明

出于验证的目的,可以用元素类型和属性表声明限制XML文档中元素的结构。元素类型声明限制了元素的内容。

元素类型声明通常限制了子元素的类型。由用户选择,当声明提到的元素类型没有相应的声明时,XML处理器可以给出警告,但这不是一个错误。

元素类型声明形式如下:

元素类型声明

[45] elementdecl ::= '' [ VC: 唯一的元素类型声明]

[46] contentspec ::= 'EMPTY' | 'ANY' | Mixed | children

其中Name给出了所声明的元素类型。

有效性约束: 唯一的元素类型声明

元素类型只能声明一次。

元素类型声明的例子:

3.2.1 元素内容

当某一类型的元素只能包含用可选空白域(匹配非终结符S)分隔的子元素(无字符数据)时,此元素类型具有元素内容。在这种情况下,有内容模型作为类型限制之一,内容模型是决定子元素类型和子元素出现顺序的一种简单语法。此语法用内容粒子(cp)构建,内容粒子由名字,内容粒子的选择表(choice list)或内容粒子的序列表(sequence list)组成:

元素内容的模型

[47] children ::= (choice | seq) ('?' | '*' | '+')?

[48] cp ::= (Name | choice | seq) ('?' | '*' | '+')?

[49] choice ::= '(' S? cp ( S? '|' S? cp )* S? ')' [ VC: 严格的组/PE嵌套]

[50] seq ::= '(' S? cp ( S? ',' S? cp )* S? ')' [ VC: 严格的组/PE嵌套]

其中每一个Name是可以作为子元素的元素的类型。选择表中出现的任意内容粒子在元素内容中允许出现的位置对应于选择表在语法中的位置。序列表中出现的所有内容粒子必须以相同的顺序出现在元素内容中。在名字或表之后的可选字符(optional character)决定了表中元素或内容粒子可以出现一次或多次(+),还是零次或多次(*),或是零次或一次(?)。没有这样一个操作符意味着元素或内容粒子必须恰好出现一次。这种句法和意义和本规范中的产生式中所使用的相同。

当且仅当一个元素的内容可以通过满足内容模型中的选择,序列和重复操作符得到,并且内容中的每一个元素与内容模型中的一种元素类型相匹配时,称此元素的内容与一个内容模型相匹配。出于兼容性考虑,如果文档的某个元素可以和内容模型中的一种元素类型多次匹配,这是一个错误。更详细的信息参见"E. 确定型内容模型".

有效性约束: 严格的组/PE嵌套

参数实体的置换文本用括号括起的组严格嵌套。即,如果choice,seq或Mixed成分的开始或结束括号出现在某个参数实体的置换文本中,两者必须同在此置换文本中。出于互操作性考虑,如果一个参数实体引用出现在choice,seq或Mixed成分中时,它的置换文本不应为空,同时其置换文本的第一个和最后一个非空字符不应为一个连接符(|或,)。

元素内容模型的例子:

3.2.2 混合型内容(Mixed Content)

当某元素类型可以包含字符数据,其间可以随意穿插子元素时,称此元素类型具有混合型内

容。在这种情况下,对子元素的类型可能有所限制,但对它们的次序和出现次数没有限制:

混合型内容声明

[51] Mixed ::= '(' S? '#PCDA TA' (S? '|' S? Name)* S? ')*' | '(' S? '#PCDATA' S? ')'

[ VC: 严格的组/PE嵌套] [ VC: 无重复类型]

其中Name给出了子元素的元素类型。

有效性约束: 无重复类型

同一名字在单个混合型内容声明中只能出现一次。

混合内容声明的例子:

3.3 属性表声明

属性用于联系名字-值对和元素。属性说明只能在起始标记和空元素标记中出现; 因此,用于识别它们的产生式可参看"3.1 起始标记,结束标记和空元素标记"中。属性表声明可以用于:

?定义与一给定元素类型有关的属性集。

?确定这些属性的类型限制。

?提供属性的缺省值。

属性表声明详细说明了与给定元素类型相关联的每一个属性的名字,数据类型和缺省值(如果有的话):

属性表声明

[52] AttlistDecl ::= ''

[53] AttDef ::= S Name S AttType S DefaultDecl

AttlistDecl规则中Name是元素的类型。由用户选择,当元素类型中的属性没有被声明时,XML处理器可以给出一个警告,但这不是一个错误。AttDef规则中的Name是属性的名字。

当与某个给定元素类型相关的AttlistDecl超过一个时,这些声明中的内容被合并在一起。当给定元素类型的某个属性的定义超过一个时,绑定第一个定义,其余定义被忽略。出于互操作性考虑,DTD的作者可以选择一个给定的元素类型至多有一个属性表声明,一个给定的属性名至多有一个属性定义,以及每个属性表声明至少有一个属性定义。出于互操作性考虑,当一个给定元素有超过一个的属性表声明或一个给定属性有超过一个的属性定义时,由用户

选择,XML处理器可以给出警告,但这不是一个错误。

3.3.1 属性类型

XML属性有三种类型:字符串类型,一组记号化类型和枚举类型。字符串类型可以以任意字面字符串为值; 各个记号化类型有不同的词法和语义约束,如下:

属性类型

[54] AttType ::= StringType | TokenizedType | EnumeratedType

[55] StringType ::= 'CDA TA'

[56] TokenizedType ::= 'ID' [ VC: ID ] [ VC: 每种元素类型一个ID ] [VC: ID属性的缺省值]

| 'IDREF' [ VC: IDREF ]

| 'IDREFS' [ VC: IDREF ]

| 'ENTITY' [ VC: 实体名]

| 'ENTITIES' [ VC: 实体名]

| 'NMTOKEN' [ VC: 名字记号]

| 'NMTOKENS' [ VC: 名字记号]

有效性约束: ID

ID类型的值必须匹配Name产生式。作为此类型值的名字只能在XML文档中出现一次;即,ID类型的值必须能唯一标识元素。

有效性约束: 每种属性类型一个ID

每种属性类型只能有一个ID属性。

有效性约束: ID属性的缺省值

ID属性必须有一个声明为#IMPLIED或#REQUIRED的缺省值。

有效性约束: IDREF

IDREF类型的值必须匹配Name产生式,IDREFS类型的值必须匹配Names产生式;每一个Name必须匹配XML文档中某些元素ID属性的值;也就是说,IDREF类型的值必须匹配某些ID属性的值。

有效性约束: 实体名

ENTITY类型的值必须匹配Name产生式,ENTITIES类型的值必须匹配Names产生式;每一个Name必须匹配DTD中声明的未析实体的名字。

有效性约束: 名字记号

NMTOKEN类型的值必须匹配Nmtoken产生式;NMTOKENS类型的值必须匹配Nmtokens 产生式。

枚举类型的属性可以在声明中提供的取值表中取值。有两种枚举类型:

HSK语料库体例说明

HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

语料库术语中英对照

Aboutness 所言之事 Absolute frequency 绝对频数 Alignment (of parallel texts) (平行或对应)语料的对齐 Alphanumeric 字母数字类的 Annotate 标注(动词) Annotation 标注(名词) Annotation scheme 标注方案 ANSI/American National Standards Institute 美国国家标准学会 ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词 AWL/Academic word list 学术词表 Balanced corpus 平衡语料库 Base list 底表、基础词表 Bigram 二元组、二元序列、二元结构 Bi-hapax 两次词 Bilingual corpus 双语语料库 CA/Contrastive Analysis 对比分析 Case-sensitive 大小写敏感、区分大小写 Chi-square (χ2) test 卡方检验 Chunk 词块 CIA/Contrastive Interlanguage Analysis 中介语对比分析 CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy 干净文本原则 Cluster 词簇、词丛 Colligation 类联接、类连接、类联结 Collocate n./v. 搭配词;搭配 Collocability 搭配强度、搭配力 Collocation 搭配、词语搭配 Collocational strength 搭配强度 Collocational framework/frame 搭配框架 Comparable corpora 类比语料库、可比语料库 ConcGram 同现词列、框合结构 Concordance (line) 索引(行) Concordance plot (索引)词图 Concordancer 索引工具 Concordancing 索引生成、索引分析 Context 语境、上下文 Context word 语境词 Contingency table 连列表、联列表、列连表、列联表 Co-occurrence/Co-occurring 共现 Corpora 语料库(复数) Corpus Linguistics 语料库语言学 Corpus 语料库 Corpus-based 基于语料库的

XML文件格式及特点

XML文件格式的特点 1. 具有良好的格式 XML 文档格式属于良好格式的文件。HTML 文件中的标记,有些是不需要结尾标记的,如
,有些网页缺少若干结尾标记,照样能正确显示。而XML 的标记一定要拥有结尾标记,例如: 张三 即,XML 标记一定是成双成对的。如果没有结尾标记,那么在结束的“>”前,需要有“/”,表示开头和结尾是在同一标记内,例如: 2. 具有验证机制 XML 的标记是程序员自己定义的,标记的定义和使用是否符合语法,需要验证。XML有两种验证方法。一种是DTD,它是一个专门的文件,用来定义和检验XML 文档中的标记。另一种是XML Schema,用XML 语法描述。它比DTD 更优越,多个Schema 可以复合使用XML 名称空间,可以详细定义元素的内容及属性值的数据类型。 3. 灵活的Web 应用 在 XML 中数据和显示格式是分开设计的,XML 元数据文件就是纯数据的文件,可以作为数据源,向HTML 提供显示的内容,显示样式可以随HTML 的变化而丰富多彩。也就是说,HTML 描述数据的外观,而XML 描述数据本身,是文本化的小型数据库表达语言。HTML 数据和显示格式混在一起,显示出一种样式。XML 采用的标记是自己定义的,这样数据文件的可读性就能大大提高,也不再局限于HTML 文件中的那些标准标记了。由于XML 是一个开放的基于文本的格式,它可以和HTML 一样使用HTTP 进行传送,不需要对现存的网络进行改变。数据一旦建立,XML 就能被发送到其他应用软件、对象或者中间层服务器中做进一步的处理,或者可以被发送到桌面用浏览器浏览。XML 和HTML、脚本、公共对象模式一起为灵活的3 层Web 应用软件的开发提供了所需的技术。 4. 丰富的显示样式 XML 数据定义打印、显示排版信息主要有3 种方法:用CSS(Cascading Style Sheet)定义打印和显示排版信息,用XSLT 转换到HTML 进行显示和打印,用XSLT 转换成XSL(eXtensible Stylesheet Language)的FO(Formatter Object) 进行显示和打印。这些方法可以显示出丰富的样式,呈现漂亮的网页。 5. XML 是电子数据交换(EDI)的格式 XML 是为互联网的数据交换而设计的,它不仅仅是SGML 定义的用于描述的文档,而且在电子商务等各个领域使数据交换成为可能,如图1.2 所示。XML 能够应用于各种领域的原因,就是它具有到目前为止其他方法所不具备的数据描述特点,控制信息不是采用应用软件的独有形式,而是采用谁都可以看得懂的标记形式来表现,所以XML 最适合作为数据交换的标准,这也是XML 受人关注的原

电子专业词汇表

一、微电子学、电子电路、电子设计自动化等 Microelectronics 微电子学Bipolar transistor 双极型晶体管Unipolar transistor 单极型晶体管Capacitor 电容器Resistor 电阻器Inductor 电感器 Impedance 阻抗Diode 二极管Transistor 晶体管 F ield E ffect T ransistors 场效应晶体管Silicon 硅Germanium 锗 I ntegrated C ircuit 集成电路Discrete circuit 分立电路Discrete component 分立元件Operational amplifier 运算放大器Substrate 基片,衬底Semiconductor 半导体Monolithic IC 单片式集成电路Thick film IC 厚膜集成电路Thin film IC 薄膜集成电路Conductor 导体Insulator 绝缘体Analog IC 模拟集成电路Digital IC 数字集成电路Gain 增益Power dissipation 功耗 C ompl eme nta ry M etal-O xi de S e mi cond u cto r 互补型金属氧化物半导体M etal-O xi de S e mi cond u ct or F i el d-E ffe ct T ra n si st or 金属氧化物半导体场效应管 T ransistor-T ransistor L ogic 晶体管-晶 体管逻辑电路 N-channel M etal O xide S emiconductor N 沟道金属氧化物半导体P-channel M etal O xide S emiconductor P 沟道金属氧化物半导体 A pplication S pecific I ntegrated C ircuit 专用集成电路 Logic gate 逻辑门电路Grid electrode 栅极Source electrode 源极 Drain electrode 漏极Channel region 沟道区域Emitting electrode 发射极 Base electrode 基极Collecting electrode 集电极D irect C urrent 直流 A lternative C urrent 交流Rectifier 整流器Filter 滤波器 V oltage regulator 稳压器Adder 加法器Subtracter 减法器 Multiplier 乘法器Divider 除法器Integrator 积分器 Differentiator 微分器Register 寄存器Trigger 触发器 Flip-flop 触发器Oscillator 振荡器Quartz crystal 石英晶体 Boolean algebra 布尔代数Counter 计数器Comparator 比较器 Combinational logi c circuit 组合逻辑电路Sequential logical circuit 时序逻辑电路Clock generator 时钟发生器 p-n junction PN结DC-coupled 直流耦合的AC-coupled 交流耦合的 Inverter 反相器Mixer 混频器Modulator 调制器 Demodulator 解调器Amplifier 放大器Audio frequency 音频 Video frequency 视频Radio frequency 射频Multistage amplifier 多级放大器 V olt-ampere characteristic 伏安特性Anode 阳极Cathode 阴极 Open-loop 开环Closed-loop 闭环Common-mode rejection ratio 共模抑制比 V ery-L arge-S cale I ntegrated circuit 超大规模集成电路S mall S cale I ntegrated circuit 小规模集 成电路 M edium S cale I ntegrated circuit 中规模 集成电路 L arge S cale I ntegrated circuit 大规模集成电路Common-collector connection 共集电极 连接 Common-emitter connection 共发射极 连接 Common-base connection 共基极连接Common-gate connection 共栅极连接Common-drain connection 共漏极连接Common-source connection 共源极连接E lectroni c D esi gn A utomati on 电子设计自动化Prototype 原型机,样机 E rasable P rogrammable R ead O nly M emory (EPROM) 可擦除只读存储器E lectri c E rase P rogrammable R ead O nly M emory (E2PROM) 电可擦除只读存储器 F ield-P rogrammable G ate A rray 现场可 编程门阵列 Decibel 分贝Floating-point calculation 浮点计算Majority carriers多数载流子Minority carriers少数载流子C omputer A ided D esign 计算机辅助设计Intrinsic semiconductor 本征半导体Extrinsic semiconductor 掺杂半导体Leakage current 漏电流L ight E mitting D iode 发光二极管Matching 匹配Passive device 无源器件Active device 有源器件 Peak voltage 峰值电压A verage voltage 平均电压P hase-L ock L oop 锁相环 Photo diode 光电二极管Pin 管脚Saturation region 饱和区

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

计算机系统一些专业名词的中文英文对照

二,计算机组成原理中英对照篇 Computer systems consist of hardware and software. Hardware is the physical part of the system. Once designed,hardware is difficult and expensive to change. Software is the set of programs that instruct the hardware and is easier to modify than hardware. 计算机系统由硬件和软件组成。硬件是系统的物理部分。硬件一旦设计完毕,要修改是困难的,并且花费也大。软件是指挥硬件的程序集合,比硬件容易修改。 Every computer has four basic hardware components:每台计算机都有如下4种基本硬件部件: ? Input devices. 输入设备 ? Output devices. 输出设备 ? Main memory. 主存储器 ? Central processing unit(CPU).中央处理器 A PROCESSOR 处理器 A processor is composed of two functional units—a control unit and an arithmetic/logic unit—and a set of special workspaces called registers. 处理器由两个功能部件(控制部件和算术逻辑部件)与一组称为寄存器的特殊工作空间组成。 The Control Unit 控制部件 The Arithmetic and Logic Unit 算术逻辑部件 Registers 寄存器

HSK动态作文语料库代码说明

“HSK动态作文语料库”语料标注及代码说明 “HSK动态作文语料库”从字、词、句、篇、标点符号等角度,对所收入的作文语料中存在的外国人使用汉语的中介语偏误进行全面标注。 1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。 [F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。 例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。

例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。 例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。 把写错的词移至{CC}中CC的后面,并在{CC}前填写正确的词。 例如:首先{CC先首}、众所周知{CC众所知周}。 2)该用甲词而用乙词的。这种情况类似别字,但属于用词层面上的错误。 标示方法同上。 例如: 虽然现在还没有实现{CC实践},…… 它在{CC对}价格方面有点贵,所以没得到广大消费者的支持{CC持支}。 3)生造词。指考生自造的、或某些外语中可能有而汉语中不存在的词。

xml文件格式

XML文件结构 一个XML文件通常包含文件头和文件体两大部分 1. 文件头 XML文件头由XML声明与DTD文件类型声明组成。其中DTD文件类型声明是可以缺少的,关于DTD声明将在后续的内容中介绍,而XML声明是必须要有的,以使文件符合XML的标准规格。 在前面的Flowers.xml文件中的第一行代码即为XML声明: 其中: “”代表一条指令的结束; “xml”代表此文件是XML文件; “ version="1.0" ”代表此文件用的是XML1.0标准; “ encoding="gb2312" ”代表此文件所用的字符集,默认值为Unicode,如果该文件中要用到中文,就必须将此值设定为gb2312。 注意:XML声明必须出现在文档的第一行。 2. 文件体 文件体中包含的是XML文件的内容,XML元素是XML文件内容的基本单元。从语法讲,一个元素包含一个起始标记、一个结束标记以及标记之间的数据内容。

XML元素与HTML元素的格式基本相同,其格式如下: <标记名称属性名1="属性值1"属性名1="属性值1"……>内容 所有的数据内容都必须在某个标记的开始和结束标记内,而每个标记又必须包含在另一个标记的开始与结束标记内,形成嵌套式的分布,只有最外层的标记不必被其他的标记所包含。最外层的是根元素(Root),又称文件(Document)元素,所有的元素都包含在根元素内。 在前面的Flowers.xml文件中,根元素就是,根元素必须而且只能有一个,在该文件有三个子元素,这样的元素可以有多个。 4.1.2 XML的基本语法 1. 注释 XML的注释与HTML的注释相同,以“”结束。 2. 区分大小写 在HTML中是不区分大小写的,而XML区分大小写,包括标记,属性,指令等。 3. 标记 XML标记与HTML标记相同,“<”表示一个标记的开始,“>”表示一个标记的结束。XML中只要有起始标记,就必须有结束标记,而且在使用嵌套结构时,标记之间不能交叉。 在XML中不含任何内容的标记叫做空标记,格式为:<标记名称/>

计算机文化基础中国石油大学第九版第六章

第6章数据库技术与Access2003 本章导读 数据库技术是现代信息科学与技术的重要组成部分,是计算机数据处理与信息管理系统的核心。在信息技术日益普及的今天,数据库技术已经深入到人类社会的各个方面,我们的工作、学习和生活都已离不开数据库,并且随着计算机技术和互联网的迅猛发展,数据库技术的应用领域也在不断扩大,如企业管理、工程管理、数据统计、多媒体信息系统等领域都在利用数据库技术。 本章介绍了有关数据库技术的基础知识,然后以Access 2003为例,介绍了数据库管理系统的应用。通过本章的学习,要求熟练掌握数据库与数据库技术的基本知识、数据库技术包含的主要内容,掌握数据库管理系统的组成与功能、Access 2003的主要组件,了解Access 2003数据库管理系统的基本使用方法。 6.1 数据库技术基础 数据库技术产生于20世纪60年代末70年代初,其主要目的是有效地管理和存取大量的数据资源。数据库技术主要研究如何存储、使用和管理数据,是计算机数据管理技术发展的新阶段。 数据库技术是信息系统的一个核心技术,是一种计算机辅助管理数据的方法,它研究如何组织和存储数据,如何高效地获取和处理数据,是通过研究数据库的结构、存储、设计、管理以及应用的基本理论和实现方法,并利用这些理论来实现对数据库中的数据进行处理、分析和理解的技术。即,数据库技术是研究、管理和应用数据库的一门软件科学。 数据库技术是现代信息科学与技术的重要组成部分,是计算机数据处理与信息管理系统的核心。数据库技术研究和解决了计算机信息处理过程中大量数据有效地组织和存储的问题,在数据库系统中减少数据存储冗余、实现数据共享、保障数据安全以及高效地检索数据和处理数据。 数据库技术研究和管理的对象是数据,所以数据库技术所涉及的具体内容主要包括:通过对数据的统一组织和管理,按照指定的结构建立相应的数据库和数据仓库;利用数据库管理系统和数据挖掘系统设计出能够实现对数据库中的数据进行添加、修改、删除、处理、分析、理解、报表和打印等多种功能的数据管理相数据挖掘应用系统;利用应用管理系统最终实现对数据的处理、分析和理解。 近年来,数据库技术和计算机网络技术的发展相互渗透、相互促进,已成为当今计算机领域发展迅速、应用广泛的两大领域。数据库技术不仅应用于事务处理,并且进一步应用到情报检索、人工智能、专家系统、计算机辅助设计等领域。 6.1.1 数据库的基本概念 1.数据 数据是指存储在某一种媒体上能够识别的物理符号。数据的概念包括两个方面:其一是描述事物特性的数据内容;其二是存储在某一种媒体上的数据形式。 2.数据处理 数据处理是指对各种形式的数据进行收集、存储、加工和传播的一系列活动的总和。 3.数据库 数据库是长期存放在计算机内的、有组织的、可以表现为多种形式的可共享的数据集合。 4.数据库管理系统 数据库管理系统(DBMS)是对数据库进行管理的系统软件,它的职能是有效地组织和存僻数据,获取和管理数据,接受和完成用户提出的访问数据的各种请求。

XML语言的可视化编辑器

重庆交通学院 题目XML语言的可视化编辑器 系(全称)计算机与信息工程系 专业年级计算机科学与技术2001级 学生姓名龚锐学号01060118 指导教师闫果

摘要 【Abstract】: XML,what is called,is eXtensible Markup Language for short,which is not the simple expansion of HTML,but has combined the advantage of HTML and dispelled its shortcoming. XML is used more and more extensively,getting people's great concern as a kind of newly arisen and developing computer technology,and relevant research are emerging constantly.At present,XML editor which the developer can use is in a very large range,but there are too few use simply and conveniently,free XML editors that can be found now.This text has introduced the development process of visual XML editor:Have expatiated the proposition and meaning of the subject at first,then carry on the overall structural design according to the actual requirement situation,also introduce the function and application of DOM and MSXML parser,and the introductions to several API interfaces of DOM concretely,including each attribute,usage method,enclosed sample prove of function among them.At last there are parsing deals of XML and concrete realization of code. 【Key Words】:XML HTML editor DOM API 【摘要】: 所谓的XML,就是eXtensible Markup Language,即“可扩展标识语言”,它并不是HTML的简单扩展,而是XML结合了HTML的优点并消除了其缺点。XML作为一种新兴的计算机技术,应用越来越广泛,得到了人们的极大的关注,相关的研究不断涌现。目前,开发人员可以使用的XML编辑器的范围很广,可是现在能找到的使用简便、免费的XML 编辑器太少了。本文介绍了XML可视化编辑器的开发过程:首先说明了课题的提出及其意义,然后根据实际需求情况进行总体结构设计,还具体介绍了DOM和MSXML解析器的功能和应用,以及DOM几个API接口的介绍,包括其中各个函数的属性、使用方法、并附例子说明。最后是XML的解析处理及具体代码的实现。 【关键字】:可扩展标识语言超文本标识语言编辑器文档对象模型应用程序接口

标记语言复习资料

1计算机语言有多种,包括机器语言、编程语言、标记语言等。 2标记语言 标记语言是为处理、定义和表示文本而设计的语言。标记语言是一种将文档及其相关信息结合起来以展现文档结构和数据处理细节的编码。这种语言规定了用于格式文档布局和风格的代码即标签(tags) 标记语言广泛应用于网页和网络应用程序中 超文本标记语言(HyperText Markup Language,HTML) 脚本语言 与由计算机处理器编译的其他高级语言不同,脚本语言是在运行时由其它程序注释的高级编程语言,脚本语言(Script language)是为了缩短传统的编写、编译、链接和运行过程而创建的编程语言 标准通用标记语言(Standard Generalized Markup Language,简称SGML)是一种通用的组织和标记文档元素的语言,主要用来定义文献模型的逻辑和物理类结构。SGML是国际标准化组织(International Organization for Standards,简称ISO) SGML文档由三部分组成,即语法定义、文件类型定义(Definition Type Document,简称DTD)和文件实例。语法定义了文件类型定义和文件实例的语法结构;文件类型定义了文件实例的结构和组成结构的元素类型;文件实例是SGML语言程序的主体部分。 HTML文档的结构始于(“文档元数据”),而止于;Web页面中的信息包含于和之间。其他标签用于描述超链接、信息的布局和格式等。 可扩展超文本标记语言(eXtensible HyperText Markup Language,XHTML),是一种标记语言,表现方式与超文本标记语言(HTML)类似,符合XML语法规范。 XHTML是基于XML的标记语言,是扮演着HTML角色的XML。XHTML在本质上是桥接(过渡)技术,融XML的灵活性与HTML的简单特性于一体(与后两者有交集)WML是用来在手持设备上实施无线应用协议WAP的标记语言。WML它基于XML。WAP协议被设计为用来在诸如移动电话之类的无线客户端上展示因特网内容。 WML 页面通常称为deck。每个deck含有一系列的card。card元素可包含文本、标记、链接、输入字段、和图像等。卡片之间通过链接彼此相互联系。 Web基于三种创新:URL、HTML和HTTP。 WWW需要传输协议,即超文本传输协议(HyperText Transfer Protocol,简称HTTP)。万维网联盟(World Wide Web Consortium,W3C 第二章 HTML的特点是: ●独立于平台(计算机硬件和操作系统)。即文档可以在具有不同性能(即字体、图 形和颜色差异)的计算机上以相似形式显示文档内容。这个特性对用户至关重要。 ●超文本。允许文档中的文字、图片等链接到另一文档,这个特性将允许用户在不同 计算机中的文档之间及文档内部漫游。 ●精确的结构化文档。该特性将允许某些高级应用,如HTML文档和其他格式文档间 互相转换以及搜索文本数据库。 统一资源定位符(Uniform Resource Locator,简称URL),用于完整描述Internet上网页和其他资源地址的标识方法,如我们要访问某个网站,在IE等浏览器的地址栏中就输入URL。Internet上的每个网页都具有其唯一的URL地址,这种地址可以是本地磁盘,也可

xml是什么协议

竭诚为您提供优质文档/双击可除 xml是什么协议 篇一:xml作业题答案 第一章 一、填空题 1.html语言是如何显示数据的,xml是描述。 2.html语言遵循协议,而在网络运行的。 3.xml是一种和语言,xml具有自描述性、内容和显示相分离、可扩张、 独立于平台等特点。 4.xml解析器是 5.xml的技术优势有、、可扩展性、语法自由、结构化集成数据。答案: 1.数据是什么 2.http 3.描述数据和数据结构 4.xml和应用程序 5.数据重用,数据和表示分离 二、选择题

1.html语言中 a.b. c.d. 2.表单标记中,用来表示文本框或密码框输入字符最大数。 a.file b.maxlength c.size https://www.wendangku.net/doc/9a2115967.html, 3.下面不是xml语言的特点。 a.自我描述 b.可扩展 c.跨平台 d.修饰数据 4.下面不是xml使用的解析器。 a.ibmxml4jaachexerces b.sunprojectx c.microsoftmsxml d.java 5.下面不是xml的相关技术。 a.dtd b.xsl c.dhtml d.xpath 6.对表格的两行进行行合并,需用 a.rowspan b.clospan c.cellpadding d.table 7.html标记中,能够完成颜色设定的标记,除了标记不是外,其余全是。 a.bgcolor b.text

c.color d.href 8.html标记中能显示图片的标记是 a.embed b.src c.img d.a 9.对xml文档的显示样式修饰的是下面技术。 a.xsl b.xpath c.xlink d.xhtml 10.html语言中的预定义标记是标记。 a.address b.blockquote c.pre d.u 答案:abddcadcac 三、简答题 1.简述html表格有哪些标记。 2.简述xml和html的关系。 3.简述xml的应用的领域。 4.简述xml的特点。 5.简述xml的优势。 xml的语法 一、填空题 1.xml是一种设计特定领域标记语言的语言。 2.一个规范的xml文档由、主体和尾部三部分组成。 3.xml文档的声明中的编码方式常用的有gb2312.

第五章可扩展商务报告语言

第五章可扩展商务报告语言 第一节可扩展商务报告语言的产生及其发展 一、传统信息披露方式及其局限性 21 世纪,网络财务报告取代传统财务报告成为不可逆转的历史潮流,我国互联网上数据呈报主要采用的是HTML、PDF文档格式。HTML(Hyper Text Markup Language,超文本标记语言)是一种描述性语言,它只能规定内容是如何显示的,而不能表达数据内容如不能描述诸如价格、利润等特性,也不能根据需要自己定义标记,因此难以准确快捷地找到相关信息。PDF格式类似于图形文件,非常简洁明了,但不能对业务报告的基本信息结构提供任何描述,查阅者无法通过程序自动从中读取数据,必须对信息进行二次加工。 此时,无论是PDF格式还是HTML格式提供的数据都不可以直接利用,不能直接导入Excel或ACL等通用的分析和审计软件直接进行分析,数据需重新录入,从而增加了分析用户的工作量,增加了数据错误的风险;另外,根据需求者的不同要求,企业需提供多份不同格式的报告也需要重复对数据进行处理。另一方面,由于会计数据存储和交流没有统一的标准,不同信息加工主体按照自己设定的标准和格式来组织数据的方式,一方面增加了整个社会信息处理的成本,另一方面提高了数据交换和共享的难度,给不同行业、不同企业、不同时期的财务数据分析比较带来许多困难。 所以,信息发布者、信息监督者和信息使用者都没有充分享受到信息技术对数据传输、审查和利用带来的便捷,这些利益主体都迫切希望出现既规定了内容如何显示也能表达数据内容的具有统一标准的信息披露技术,能实现数据的提取再利用以及不同系统、不同主体之间的信息交换以提高数据的相关性、可比性和及时性同时降低信息处理成本。 二、可扩展商务报告语言的产生及其发展 可扩展商务报告语言(Extensible Business Reporting Language,XBRL),是一种基于可扩展标记语言(Extensible Markup Language,XML),为企业披露财务报告开发的一种语言。随着对XBRL认识和应用的深入,XBRL的应用范围也在扩大,可应用于会计主体包括企业、政府与非营利组织等的各种对内对外报告。XBRL通过对数据内容增加标记的方法,使得企业内部和外部信息的收集、处理、转化变得十分便捷,从而实现数据的提取再利用以及数据在不同的会计软件和技术条件下的交换。 XBRL最初由美国华盛顿Knight Vale & Cregory会计师事务所的注册会计师查尔斯·霍夫曼(Charles Hoffman)于1998年7月提出。1999年1月,美国注册会计师协会(AICPA)决定投资创建以XML为基础的财务报表框架标准,并正式将其命名为“可扩展财务报告标示语言(Extensible Financial Reporting Markup Language,XFRML)”。 1999年6月,由AICPA牵头成立XFRML指导委员会,联合会计师事务所、信息软件开发企业、系统公司正式成立了XFRML营运委员会。1999年10月,查尔斯等研制完成XFRML 的试用原型。同时,对10家公司采用XFRML进行财务报告的模拟测试,并将其在网上公开示范。2000年4月,在纽约召开的运营委员会上,AICPA将XFRML更名为XBRL。新的名称标志着XBRL技术将不仅仅应用于企业财务报表(FR),还将被广泛地应用于财务信息和管理信息的其他领域。 2000年7月,XBRL的研制开始取得初步成果。XBRL指导委员会发布第一份XBRL财务报表规范和分类标准,也称XBRL V1.0规格书。这份XBRL分类标准是根据美国制造业和商业适用的公认会计原则制定的。此后,该组织的成员迅速增加,当时已有70多个公司先后加盟。为了更好地推进这方面的应用,XBRL指导委员会决定成立XBRL国际组织(XBRL International)。该组织现有成员170多个,包括公司、企业和财务供应链上各个方面的

词性标注说明_128601491

人民日报标注语料库(PFR)使用说明书 本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。 PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。文章中的每个词语都带有词性标记。目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。

二.格式说明 1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。 2.文件名格式为“月-日-版号-篇章号”。 3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 4.标号之后,是2个单字节空格,然后开始正文。 5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最 后的词,在标记之后也有2个单字节空格,保持格式一致。 6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用 “[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后 空两个单字节空格,保持了格式的一致。 三.例子 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w …… 在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n

相关文档
相关文档 最新文档