文档库 最新最全的文档下载
当前位置:文档库 › wj中日韩统一表意文字

wj中日韩统一表意文字

中日韩越统一表意文字

维基百科,自由的百科全书

(重定向自中日韓統一表意文字)

跳转到:导航, 搜索

“Unihan”重定向至此。关于与其同名的其他主题,详见“Unihan (消歧义)”。

中日韩统一表意文字(英语:CJK Unified Ideographs),也称中日韩越统一表意文字(英语:CJKV Unified Ideographs)、统汉字(英语:Unihan),目的是要把分别来自中文、日文、韩文、越文、壮文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。

越南文后来加入此计划,所以亦有CJKV(中日韩越统一表意文字)的称呼。Unicode亦开始收录越汉字——喃字。

目录

[隐藏]

? 1 版本

? 2 历史

? 3 字源

o 3.1 最初期统一汉字

o 3.2 扩展A区

o 3.3 扩展B区

o 3.4 Unicode 4.1汉字

o 3.5 Unicode 5.1汉字

o 3.6 扩展C区

o 3.7 扩展D区

o 3.8 扩展E区

? 4 字源分离原则

? 5 批评

? 6 已统一汉字

?7 未统一汉字

?8 扩展B区的问题

?9 注释

?10 参看

?11 外部链接

[编辑]版本

ISO

10646

版本

Unicode 版本

新增 置放平面 字数

累计字数

1993 1.0

中日韩统一表意文字

基本多文种平面(BMP ,Basic

Multilingual Plane )

20,902

20,914

位于“相容表意文字区”中但实则独一的汉字(U+FA0E (﨎)、U+FA0F (﨏)、U+FA11(塚)、

U+FA13(﨑)、U+FA14(晴)、U+FA1F (﨟)、U+FA21(﨡)、U+FA23(﨣)、U+FA24(﨤)、U+FA27(逸)、U+FA28(都)、U+FA29(﨧)[1]

基本多文种平面 12

2000 3.0 中日韩统一表意文字扩展A 区

基本多文种平面

6,582 27,496

2001 3.1

中日韩统一表意文字扩展B 区 第二辅助平面(SIP ,

Supplementary Ideographic Plane ) 42,711 70,207

2003第一

修订版 4.1 HKSCS-2004中未加入ISO 10646的汉字(U+9FA6-U+9FB3??????????????)和GB

18030-2000中未加入ISO 10646

的印刷业常用的偏旁和字形部件(U+9FB4-

U+9FBB ????????)

基本多文种平

22 70,229

2003第四

修订版 5.1 7个日语汉字(U+9FBC -U+9FC2???????),U+4039? 拆分为 U+4039? 和 U+9FC3?

基本多文种平面 8 70,237

2003第五修订版 5.2

中日韩统一表意文字扩展C 区 第二辅助平面 4,149 74,394

2003第六修订版

2个日语用汉字(ARIB #47, #95,U+9FC4?-U+9FC5?)、1个新

增汉字(ARIB #93,U+9FC6?)、

在 HKSCS-2004 推出后新增的 5个香港汉字(U+9FC7-

基本多文种平

8

U+9FCB?????)

2010 6.0 中日韩统一表意文字扩展D区

(2B740-2B81F)

第二辅助平面222 74,616

2012 6.1 1个汉字(U+9FCC?) 基本多文种平

1 74,617

[编辑]历史

于1990年代初ISO 10646制订时,来自台湾的代表提出相同形式的中日韩汉字给以统一编码(Unify,ISO术语称为“认同”),可以大量节省编码空间,获其他代表接纳。

[编辑]字源

[编辑]最初期统一汉字

unicode范围是:0x4E00--0x9FCF。最初期的统一汉字(20,902字)字源来自以下字集:

?中国大陆的G源

o G0:GB 2312-80:6,763字

o G1:GB 12345-90:2,352字(含58个香港字和92个吏读字,不包括和GB 2312重复的字)

o G3:GB 7589-87 繁体版本:7,237字

o G5:GB 7590-87 繁体版本:7,039字

o G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)

o G8:GB 8565.2-89:290字(G0, 1, 3, 5未包括的字)?台湾的T源

o T1:CNS 11643-1986第一字面:5,401+9个计量用汉字

o T2:CNS 11643-1986 第二字面:7,650字

o TE:CNS 11643-1986 第十四字面:6,319+239个CCCII特字+10个Xerox Character Code Standard(XCCS)特字?日本的J源

o J0:JIS X 0208-90:6,335+非汉字1字(仝)[2]

o J1:JIS X 0212-90:5,801字

?韩国的K源

o K0:KS C 5601-87:4,888字(含268个重见字)

o K1:KS C 5657-91:2,856字

以上的来源字集会实施字源分离原则(下详)。

另外还有:美国国会图书馆之东亚字符编码(East Asia Character Code,简称EACC;标准号ANSI Z39.64-1989)[2]、Big5、CCCII第一面、GB 12052-89、JEF、中国电报码、台湾电报码、Xerox Chinese等字集来源。

从Unihan数据库中的数据来看,G3中收入CJK的汉字有4835个,G5中收入CJK 的汉字有2841个。G3、G5中除去收入CJK的汉字,余下的有一部分收入CJK-EXTA。

[编辑]扩展A区

扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得:

?中国大陆地区(中华人民共和国)

o《康熙字典》5357字(独有1892字)

o《汉语大字典》5888字(独有339字)

o G3:GB 7589-87 繁体版本:2391字

o G5:GB 7590-87 繁体版本:1226字

o G7:120字

o GS:新加坡汉字226字

?台湾地区(中华民国)

o T3:CNS 11643-1992第三字面(原本为CNS 11643-1986第十四字面)新加入字符

o T4:CNS 11643-1992 第四字面

o T5:CNS 11643-1992 第五字面

o T6:CNS 11643-1992 第六字面

o T7:CNS 11643-1992 第七字面

o TF:CNS 11643-1992 第十五字面

?日本

o JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993

?韩国

o K2:PKS C 5700-1:1994

o K3:PKS C 5700-2:1994

?越南

o V0:TCVN 5773:1993

o V1:TCVN 6056:1995

[编辑]扩展B区

扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:

?《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现的汉字);

?《汉语大字典》中出现的28,914个未收录汉字;

?《辞源》中出现的66个未收录汉字;

?《辞海》中出现的247个未收录汉字;

?《汉语大词典》中出现的553个未收录汉字;

?《中国大百科全书》中出现的86个未收录汉字;

?北大方正排版系统中出现的65个未收录汉字;

?《四库全书》中出现的522个未收录汉字;

?香港增补字符集中出现的1,081个未收录汉字;

?日本工业标准的JIS X 0213第3水平及第4水平的302个未收录汉字;

?韩国PKS 5700-3:1998中出现的166个未收录汉字;

?北朝鲜KPS 9566-97和KPS 10721-2000国家标准所收录的5,642个汉字;

?台湾CNS 11643的第4至7和15平面所收录的30,177个汉字;

?越南TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃;

这些汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。

另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。

[编辑] Unicode 4.1汉字

为使 Unicode 向下兼容GB 18030和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个中国香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。

另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。

[编辑] Unicode 5.1汉字

在2008年4月推出的 Unicode 5.1 版本,收录7个由日本 Adobe 公司递交的日语汉字(U+9FBC-U+9FC2)[3],和目字旁加?(大字加两个入字,就如陕西省的陝字换上目字旁)的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾(大字加两个人字)字的“?”(U+4039),目字旁加?字的字,与“?”无论在意义和发音均不相同,故魏安(Andrew West)和井作恒(John H. Jenkins)申请追加此字[4]。

[编辑]扩展C区

于2009年10月发布的Unicode 5.2涵盖了扩展C区,共收录4,149个汉字,包括来自中国大陆、中国澳门、台湾、日本、越南等尚未被编码的汉字。位置在

U+2A700—U+2B734。这四千多个汉字分别从以下字典或字集中取得:?中国大陆共1119字

o G_BK:《中国大百科全书》74字

o G_FZ:北大方正排版系统1字

o G_HZ:《汉语大字典》1字

o G_HC:《汉语大词典》14字

o G_GH:《古代汉语词典》50字

o G_GJZ:商务印书馆用字61字

o G_XC:《现代汉语词典》25字

o G_CH:《辞海》264字

o G_KX:《康熙字典》及补遗6字

o G_CYY:中国测绘科学研究院用字55字

o G_ZFY:《汉语方言大辞典》202字

o G_ZJW:《殷周金文集成引得》366字

?台湾共1751字

o TC:CNS 11643-1992第12字面634字

o TD:CNS 11643-1992 第13字面767字

o TE:CNS 11643-1992 第14字面350字

?澳门

o MAC:澳门资讯系统字集16字

?日本

o JK:日本国字集(Japanese KOKUJI Collection)367字?韩国

o K5H:韩国 IRG 汉字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)404字

?朝鲜

o KP1:KPS 10721:2003 8字

?越南共784字 V4:

o喃字词典(T??i?n ch?N?m), 阮光红(Nguy?n Quang H?ng), 2006

o T??i?n ch?N?m Tày, Hoàng Tri?u ?n, 2003

o B?ng tra ch?N?m mi?n Nam, V? V?n Kính, 1994 ?UTC来源共75字 UTC:

o ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of

Hawaii Press

o耶稣基督后期圣徒教会香港分会用字

o Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press

o宋本《广韵》

o《中国鸟类系统检索》,郑作新等(2000),北京,科学出版社

o段玉裁《说文解字注》

[编辑]扩展D区

扩充区D包含的都是所谓的“急用汉字”,合共222个新汉字,于2010年下旬发布的Unicode 6.0中,编码范围为 U+2B740-U+2B81F。

扩展D区原本计划放置扩展C区未收录的16,000多个汉字,但在2007年5月,台湾撤消了6,545个第二部份字集内私用汉字,不再使用字,原因是那些人名用字的拥有人或已去世或已移居外地[5],此后扩展D区缩减到大约10,000字左右。

[6],由于各种阻碍,协议先把数量较少,又急切要收录的汉字提交出来,就是“急用汉字”,以便和统一码6.0.0版一起发表。提出的急用汉字只有二百二十二字(本来有二百二十三字,但中国大陆撤回其中一字)。现在文字小组把第二部份字集延后到扩充E区。

扩展D区汉字主要来自:

?中国大陆:公安部身份证系统人名和地名用字。

o G_CH:《辞海》1字

o G_IDC:公安部身份证用字3字

o G_IDCX:公安部身份证用字29字

o G_XC:《现代汉语词典》4字

o G_ZH:《中华字海》39字

?台湾:教育部台语用字

o TB:CNS 11643-2007 第11平面24字(闽客方言用字)?日本:

o JH:Hanyo-Denshi Program (汎用電子情報交換環境整備プログラム)108字(日本经济产业省提出的人名和地名用字)?UTC:Unicode technical report #45

o UTC:19字

[编辑]扩展E区

扩展E区现正处于研究阶段,计划放置于编码范围 U+2B820-U+2F7FF 中。

扩展E区将包含1,277个新越南汉字[7]、被台湾的闽南语和客家话所使用的24个台湾汉字[8]以及2个中华人民共和国地名用字。[9][10]

[编辑]字源分离原则

字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。

由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇“戶”、中国香港及中国作点“户”、日本作横“戸”,这种程度的差异,理想上是整并为

一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。

例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。而且,如果将多个不同地区字形合并会影响阅读者,令使用者不习惯并非以往所见字形;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)、学习错误的字形。于是,字源分离原则因而诞生。

而在不同地区而有不同写法的部首,如“?(中)、?(港台旧字体)、辶(港台)”、“?(新字体)、卝?(旧字体)”、“?(中)、爫(港台)”等就会交由字体处理,例如使用依中国汉字标准《印刷通用汉字字形表》的字体下(如中易宋体、微软雅黑体)便会出现“?、?”;使用港台字体标准字体下(如微软正黑体,但非旧版细明体[11])就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。

字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。

由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。

[编辑]批评

合并同义字,虽有助减少收录字数,但在研究学术时,如古籍、历史及文字研究等,部份文献确要将字形不同之字同时并列,已合拼各字,变得各有各意思。学者若用Unicode,遇此情况,就要用同码不同电脑字形,甚至要自行造字,或舍Unicode而用其他编码。一来寻转电脑字形不便,二来有损Unicode记录只只字之用意,三来不能以纯文本交换。另外亦不能以Unicode准确记录文献,原本不同字形之字合拼,原有有别义,转Unicode而讹误,不利于文本存于电脑。

另外,同一部件,有分有合,原则不一致。如真真分而直直合,令人混淆。

不同字形之字合拼后,若检索方法以字形为本,会混乱而难以检索。例如笔划检字,艸部之草花头,日本大陆计三划,而传统中文四划,留有艸形则六划。Unicode 同一字码,源于字形不同,就有几种笔划,检索混乱。即使检出字,笔划与显示之字亦不符。

文化上,东亚各国用字形有别,用电脑字形亦有别,在日本难以用传统字之电脑字体,在港台难以用日本电脑字体,故合拼后,文本要显示文化差异之字形,则大有困难。

[编辑]已统一汉字

原则上ISO 10646只对字(Character),而非字形(Glyph)编码。同一字各地可使用自己的标准写法。下例中使用HTML标示同一编码的字在不同地区中的写法(但只是读者电脑提供的字型,未必代表该地区的标准写法)。

例子:

Unicode 中文

日文韩文

中国大陆台湾中国香港

U+6E2F 港港港港港

U+6F22 漢漢漢漢漢

U+76F4 直直直直直

U+7A97 窗窗窗窗窗

U+89D2 角角角角角

U+8D77 起起起起起

U+9AA8 骨骨骨骨骨

注:不是所有网页浏览器均可分辨全部HTML的语言代码(Language Code)并使用不同字形。如非某一地区的使用者看到的字形和当地通用的字形一样,表示该用户的浏览器不能分辨此标签,或设定两者以同一种字形显示。具体情况请参考Test results: Automatic font assignment for CJK text。

[编辑]未统一汉字

主条目:未统一汉字列表

有些字只是同一字在不同地区的写法,理应统一,但因为字源分离原则而只好分开编码。值得注意的是字源分离原则由“Unicode联盟决定把不正统的编入位于基本多文种平面的‘相容表意文字区’(Compatibility Ideographs)”时起废弃,原因是CNS中有太多字形非常接近,按 Unicode 标准应该统一的字。这些

字只有正统的会编入正式字集(包括扩展A、B、C区)中,不正统的编入位于“第二辅助平面”的“相容表意文字补充区”(Compatibility Ideographs Supplement)中。

例子:

Unicode 字Unicode 字Unicode 字

U+4E1F 丟 U+4E22 丢

U+514C 兌 U+5151 兑

U+518A 冊 U+518C 册

U+5433 吳 U+5434 吴 U+5449 呉

U+543F 吿 U+544A 告

U+5965 奥 U+5967 奧

U+5968 奨 U+596C 奬 U+734E 獎

U+5986 妆 U+599D 妝

U+59CD 姍 U+59D7 姗

U+5C13 尓 U+5C14 尔

U+5F54 彔 U+5F55 录

U+6236 戶 U+6237 户 U+6238 戸

U+63FA 揺 U+6416 搖 U+6447 摇

U+66A8 暨 U+66C1 曁

U+69D8 様 U+6A23 樣

U+6A2A 横 U+6A6B 橫

U+6B65 步 U+6B69 歩

U+7155 煕 U+7199 熙

U+7D55 絕 U+7D76 絶

U+7DA0 綠 U+7DD1 緑

U+9AEA 髪 U+9AEE 髮

U+9EAA 麪 U+9EAB 麫

U+9EBC 麼 U+9EBD 麽

U+9EC3 黃 U+9EC4 黄

U+9ED1 黑 U+9ED2 黒

自上表发表后,WG2 亦调查过其他汉字[12],认为以下属于基本多文种平面的汉字,亦可考虑收编到 ISO 10646 Annex S3:

Unicode 字Unicode 显示▼字

[编辑]扩展B区的问题

扩展B区使用了辅助平面来摆放汉字,以致不少文书处理软件都不能支援。例如,Microsoft Office 2000或之前的版本,即使电脑拥有扩展B区汉字字体,也只会显示两个方格。

另外,因扩展B区在整理上有缺陷,收录了以下5个本来应该与其他汉字统一的字[13]:

?U+20457 ? = U+34A8 ?

?U+2420E ? = U+3DB7 ?

?U+27144 ? = U+8641 虁

?U+23515 ? = U+204F2 ?

?U+249E9 ? = U+249BC ?

而在 WG2 N1155[12]文件中,亦列出了152对可考虑统一的汉字。

[编辑]注释

1.^这个十二个字放到兼容区不是因为和其他字同形或为异体,而是因为它

们只收录在厂商用字中,但未有收录在官方标准(C-、T-、J-、K-Source)中。他们有独立的形、音、义,即“独一”(Unique),Unicode 5.0, 第412 页[1]

2.^http://fonts.jp/hanazono/

3.^http://std.dkuug.dk/JTC1/SC2/WG2/docs/n3210.pdf

4.^http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3196.pdf

5.^IRG N 1306: Request to Withdraw 6545 T-Source from CJK D candidate

6.^

https://www.wendangku.net/doc/1d2038824.html,.hk/~irg/irg/irg28/IRGN1319A1_MoveToCJK_

D.pdf

7.^

https://www.wendangku.net/doc/1d2038824.html,.hk/~irg/irg/irg28/IRGN1279_CJK_DVietNam

.pdf

8.^

https://www.wendangku.net/doc/1d2038824.html,.hk/~irg/irg/irg28/IRGN1305_CJKD_24Char_

TCA.pdf

9.^IRGN1324 Submitted To D_China (PDF)

10.^CJK Unified Ideographs: To Infinity and Beyond

11.^旧版细明体指 Windows XP 或以前版本之新细明体及细明体。

12.^ 12.012.1

https://www.wendangku.net/doc/1d2038824.html,.hk/~irg/irg/irg25/IRGN1155_Possible_Dup

licates.pdf

13.^http://std.dkuug.dk/JTC1/SC2/wg2/docs/n2644.pdf

[编辑]参看

?辅助平面

?字形

?ISO 10646 - Unicode - 国际表意文字核心(IICore)

?CJKV

?喃字

?Wikipedia:Unicode扩展汉字

?Unihan数据库

[编辑]外部链接

?JTC1/SC2/WG2 - ISO/IEC 10646 - UCS

?Unicode

o Han Unification History

o Unihan(统汉码)汉字搜寻工具

o Unicode Roadmap to the SIP

o中日韩统一表意文字(PDF,5.11MB)

o中日韩兼容汉字(PDF,650kB)

o扩展A区汉字(PDF,1.68MB)

o扩展B区汉字(PDF,12.3MB)

o扩展B区兼容汉字(PDF,608kB)

o扩展C区汉字(PDF,2.47MB)

?ISO表意文字工作组

o ISO表意文字工作组网站

o ISO/IEC 10646 Annex S 汉字统一及编排步骤

o扩展C区编码网站

o扩展C区汉字(ZIP,6.32MB)

o急用汉字(UNC)多栏列表

?CJK-CODE

?UTF-8 and Unicode FAQ for Unix/Linux

?中华民国教育部异体字字典附录-中日韩共用汉字表

Unicode字符列表 | Unicode联盟 | Unicode技术委员会 | ISO 10646(通用字符集)| UTF-7 | UTF-8 | UTF-16 / UCS-2 | UTF-32 / UCS-4

Unicode字符平面映射 | 中日韩统一表意文字 | CJKV| 表意文字小组(IRG) | IICore

| 完整Unicode编码表

“https://www.wendangku.net/doc/1d2038824.html,/w/index.php?title=%E4%B8%AD%E6%97%A5%E9%9F% 93%E8%B6%8A%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97&old

3个隐藏分类:

个人工具

?登录/创建账户

名字空间

?条目

?讨论

大陆简体

变换

?大陆简体

?港澳繁體

?马新简体

?台灣正體

查看

?阅读

?编辑

?查看历史

操作

搜索

导航

?首页

?分類索引

?特色内容

?新闻动态

?最近更改

?随机条目

帮助

?帮助

?维基社群

?方针与指引

?互助客栈

?询问处

?字词转换

?IRC即时聊天

?联系我们

?关于维基百科

?资助维基百科工具

?链入页面

?链出更改

?上传文件

?特殊页面

?打印页面

?永久链接

?引用此文

其他语言

?Deutsch

?English

?Fran?ais

?日本語

????

?本页面最后修订于2012年3月15日 (星期四) 12:20。

?本站的全部文字在知识共享署名-相同方式共享 3.0协议之条款下提供,附加条款亦可能应用。(请参阅使用条款)

Wikipedia?和维基百科标志是维基媒体基金会的注册商标;维基?是维基媒体基金会的商标。

维基媒体基金会是在美国佛罗里达州登记的501(c)(3)免税、非营利、慈善机构。

?隐私政策

?关于维基百科

?免责声明

?移动浏览

?

?

相关文档
相关文档 最新文档