文档库 最新最全的文档下载
当前位置:文档库 › 汉字简繁转换的复杂性和陷阱

汉字简繁转换的复杂性和陷阱

汉字简繁转换的复杂性和陷阱
汉字简繁转换的复杂性和陷阱

The Pitfalls and Complexities of Chinese to Chinese Conversion
汉字简繁转换的复杂性和陷阱 漢字簡繁轉換的複雜性和陷阱
春遍雀来 (Jack Halpern)
日中韓辭典研究所 所长
華留萬陽貳 (Jouni
Kerman) Kerman)
日中韓辭典刊行會软件开发总工程师
目录
0. 摘要 1. 序 2. 转换的四级 3. 讨论和分析 4. 转换的新技术 鸣谢 参考材料 附录 作者介绍 日中韓辭典研究所
(株)日中韓辭典研究所 The CJK Dictionary Institute, Inc.
〒352-0001 日本国埼玉県新座市東北2-34-14 小峰ビル 3?4F
电话:048-473-3508 Fax:048-486-5032 E-mail:jack@https://www.wendangku.net/doc/65361232.html, 网址:https://www.wendangku.net/doc/65361232.html,
-1-

汉字简繁转换的复杂性和陷阱
春遍雀来,日中韓辭典研究所 所长 春遍雀来 華留萬陽貳,日中韓辭典刊行會软件开发总工程师 華留萬陽貳
0. 摘要
汉语有两种书面形式:中华人民共和国和新加坡使用的简体中文 简体中文,和台湾、香港、澳门以及 简体中文 大多数海外华人使用的繁体中文 繁体中文。但是存在一种常见的误解,认为这两个体系之间具有直接 繁体中文 的对应关系,相互转换只需要从一个字符集对应到另一个字符集就可以了,例如从国标码 (GB2312-80)转换到大五码(Big5)。 虽然很多代码转换工具实现了这种转换, 但事实却是截然相反的。 这两种体系在不同级别上 都存在重要的差异,不论是字符集,编码,拼写法(字的选择),词汇(词的选择),还是语义 (词义),都有着显著的差别。 随着东亚在世界经济里的地位日益重要, 地方化公司和翻译公司都有着对中文简繁体转换的 迫切需求,但也必须克服以下障碍:(1)现有的转换工具产生的结果不能令人满意;(2)缺乏 发展好的转换工具所需的知识;(3)无法得到高质量数据的字典;(4)手工转换费用太高。 1996年, 日中韓辭典研究所 日中韓辭典研究所(The CJK Dictionary Institute, Inc.)开始深入调查这些问题,并建 立了一个总括了中文简繁互转的数据库(300 300万条,且仍在发展中),其目的是要使转换软件 300 的准确性接近百分之百. 这篇论文解释了涉及的复杂问题,并展示这项基于Unicode的新技术将如何大大减少中文地 方化和翻译项目的时间和费用。
1. 序 1.1 历史背景
汉字在它几千年的历史中经历了许多变迁。很多书法风格,异体字,和字体设计都有逐步的 演变。有些完整的,复杂的字体被提升为“正字”,而那些令人眼花缭乱、泛滥成灾的变体 则往往被降级为“俗字”。 在中华人民共和国于1949年成立后不久, 新政权就发起了一场积极的运动, 贯彻大规模的书 面语改革。在五十年代,毛泽东和周恩来提出了简化汉字是一项应该优先完成的任务。1952 年成立的语言改革委员会开始深入研究这一问题,并从事编纂简化字表的任务。 这些行动导致了许多书面语的改革,最重要的有:建立了一套标准化的罗马字系统(拼音), 限制日常用字的数量,以及大大地简化了数以千计的字形。一度,这项运动的目的是完全废 除汉字,以罗马字母表代之,但后来还是倾向于使用简化字形而放弃了这项政策。 随后几年出版了几种简化字表,其中最著名的是1964年出版的“权威”简化字总表 简化字总表,之后又 简化字总表 重新发行了几次并作了次要的修改。最新版本是1986年出版的,收录了2244个简体字[简体 字总表 1986]。 台湾、香港和多数海外华人没有实行简化。尤其是台湾,还在严格地遵循着繁体的形式。台
-2-

湾教育部出版了几种字符表,例如有4808个字的“常用國字標準字體表”,作为正确字形的 标准。
1.2 简体与繁体中文
虽然简体与繁体中文的最大区别在于字形, 我们将会看到两者之间还有字符集、 编码方式和 词汇选择方面的差异。 从实用角度来说,简体中文 简体中文一词通常指满足以下条件的中文文本: 简体中文 1.字形 字形:简体中文必须是用简体的字形书写的(除非不存在简体的形式)。 字形 2.字符集 字符集:简体中文通常使用国标码字符集,或其扩充版本,国家标准扩展码(GBK)。 字符集 3.编码 编码:简体中文通常将国标码编为EUC-CN或用于互联网传送数据的HZ的文本。 编码 4.词汇用法 词汇用法:词汇的选择采用中国大陆的用法。 词汇用法 与此类似,繁体中文 繁体中文一词一般指满足以下条件的中文文本: 繁体中文 1.字形 字形:繁体中文必须是用繁体的字形书写的。 字形 2.字符集 字符集:繁体中文通常使用大五码字符集。 字符集 3.编码 编码:繁体中文通常编为大五码。 编码 4.词汇用法 词汇用法:词汇的选择采用台湾或香港的用法。 词汇用法 以上只有第一条是必要条件。“简体”中文的定义决定它不能用繁体的字形书写,除非一个 繁体字形不存在对应的简体形式。同样,“繁体”中文除了某些次要的例外情况(如某些专 有名词)之外必须不能以简体字形书写。 字符集和编码方式的限制要小一些, 下面1.4节会讨 论这一点。 词汇的用法上也有一些变化。 例如台湾文本可能会包括某些中华人民共和国式的词汇, 而新 加坡的文本可能会采用台湾而不是大陆的计算机术语。 尽管如此, 总的来说简体中文和繁体 中文两词的用法如上文所述。
1.3 问题本质
中华人民共和国的语言改革对书面汉语产生了重大影响。 从处理中文数据的角度出发, 最相 关的问题有以下几个: 1. 许多字形经过了较大的简化,以至无法辨认它们的繁体形式。例如,繁体中文中的 徵变为简体中文中的征。 征 2. 在很多情况下,一个简体字与多个繁体字对应(相反的情况较为少见),例如简体中 文的征与繁体中文的徵和征对应。根据上下文意思,通常只有一个是对的。 征 徵 征 3. 有时一个简体字与多个繁体字对应,根据上下文意思,每个对应的繁体都可能是对 的。 4. 简体中文使用的国标码标准与繁体中文使用的大五码标准互不相容, 因此双方都产 生了无数的漏字。
-3-

上述的第二条是中文简繁转换的关键问题,也是这篇文章的重点。在对此的讨论中采用的 “经典”例子是繁体字發和髮。从词源学来看它们是两个不同的字,被合并成了一个简体 發 髮 字发。下表展示了这个以及其它一个简体字对应到多个繁体字的例子。 发
表1:简繁一对多的对应
简体源字 繁体标字 语义 Emit Hair Dry Trunk Intervene tree trunk Noodles Face After Queen 繁体例子
发 发 干 干 干 干 面 面 后 后
fā fà gān gàn gān gàn miàn miàn hòu hòu
發 髮 乾 幹 干 榦 麵 面 後 后
出發 頭髮 乾燥 精幹 干渉 楨榦 湯麵 面具 後天 王后
start off hair dry able, strong interfere with central figure noodle soup mask day after tomorrow queen
如上所示, 成功地把这些简体字转换为对应的繁体字取决于它们的上下文, 尤其是它们所在 的词。转换往往不能仅从一个码点对应到另一个码点,而是必须建立在更大的语言单位上, 比如词。 除上表之外, 数以百计的其它简体字也与多个繁体字对应, 产生了语义不清的以一对多的对 应,只有上下文能决定它们的关系。在这篇文章里,这些对应被称为多字体 多字体的对应,因为一 多字体 个简体字——或书写单位——可能会与多个的繁体字对应,而相反情况也成立。
1.4 字符集和编码
这篇文章主旨不是对中文字符集和编码方法进行深入的讨论。小林剑(Ken Lunde)的重要著 作 CJKV Information Processing 有对此的讨论。[Lunde 1999]这一节只简单地概括一些 重要问题,因为我们的主要目的是论述更高一级的语言学问题。 简体中文通常使用国标码字符集,或其扩充版本国家标准扩展码,并通常被编为EUC-CN。在 互联网上传送数据时,它常常被编为HZ,或是更早的zW。繁体中文通常被编为大五码,有时 也被编为基于台湾国家标准(Chinese National Standard) CNS 11643-1992字符集上的 EUC-TW。 在日本,有些文字处理系统通过JIS X 0208:1997字符集及其附加部分处理中文字符。同样, 也可以把中文编为韩国的KS X 1001:1992字符集。但是,这两种情况都没有足够的简体或繁 体中文字供日常中文之用。此外还有用来编辑中文的字符集CCCII(仍在使用的台湾早期标 准),可见情况的复杂程度。 从简繁码转换的角度出发, 一个重要问题是国标码和大五码互不相容。 前者包括了6763个字, 而后者有13053个字。国标码大约三分之一的字是大五码里没有的简体字。这一点导致了双 方的许多漏字现象,如下表所示。
-4-

表2:国标码和大五码的不相容性
汉字 国标码(EUC) 国标码(EUC) * * * CDB7 B7A2 BCC6 B8C9 C0EF 大五码 C059 B56F AD70 * * * A47A A8BD Unicode 982D 767C 8A08 5934 53D1 8BA1 5E72 91CC
頭 發 計 头 发 计 干 里
简繁互转中的困难并不仅限于国标码和大五码字符集。 其实, 大五码只包括了繁体字的一个 子集。出乎意料的是,国标码也不包括某些简体字,如下表所示。
表3:国标码和大五码中没有的简繁对应
简体Unicode 简体Unicode 简体源字 7EBB 8BEA 8D51 94D4 9613 98CF 9978 9A89 9C97 9E40 繁体标字 繁体Unicode 繁体Unicode 7D35 8B78 8D14 930F 95E0 98BA 9904 9A6B 9C02 9D50
纻 诪 赑 铔 阓 飏 饸 骉 鲗 鹀
紵 譸 贔 錏 闠 颺 餄 驫 鰂 鵐
国际标准ISO-2022:1994[ISO 1994]试图建立一个紧缩字编码系统来处理这些不相容的问 题,用逸出顺序机构表示字符集之间的转换,但这并没有完全解决这一问题。 国际标准字符集Unicode/ISO 10646解决了许多与简繁码互转有关的问题。[Unicode 1996] 因为Unicode是这两种标准的超大集, 在允许Unicode的系统里可以表现所有的大五码和国标 码的码点,并在同一个文件中展示它们。这大大简化了简繁在码点一级的互转。尽管还有一 些问题需要处理(例如现有版本排除了许多字[Meyer 1998]),Unicode有效地解决了大五码 和国标码字符集之间不相容而导致的问题。
2. 转换的四级
自动把简体中文转换为繁体中文的过程(在一定程度上,从繁体中文到简体中文也是如此)
-5-

潜在着许多复杂问题和常见错误。这个转换是从容易引起无数错误的一级码对转换开始,直 到会参考语义和句法的四级语境转换,通过这从浅入深的四级转换方法进行处理,以期达到 近乎完美的效果。下表描述了每一级。
表4:转换的四级
一级 二级 三级 四级 码对的 字对的 词对的 语境的 字对字,码基础上的替换 词对词,词基础上的转换 词对词,词汇基础上的转换 词对词,语境基础上的翻译
一级: 2.1 一级:码对转换
2.1.1 基本概念
最简单但也是最不可靠的简繁或繁简转换的方法是在码点对码点的基础上进行转换;就是 说,在硬编码的,一对一的对应表里找到源点,然后用另一个字符集(例如大五码0xB0EA的 繁体國)的标码点取代这个字符集的一个源码点(例如国标码(EUC)0xB9FA的简体国), 國 国 进行简 单的替换。 这种转换可被描述为字对字,码基础上的替换,又称码对 码对转换,因为参与转换过程的单位仅 码对 限于单个码点。也就是说,文本没有被分解为更高级的语言单位,而是作为互不相关的多字 节字的一序列编码值被进行处理。 以下是一个一对一的编码对应例表。
表5:编码对应表
简体源字 国标码(EUC) 国标码(EUC) B3F6 B7A2 B8C9 B0B5 C0EF D5F7 C3C5 CCC0 繁体标字 大五码 A558 B56F A47A B774 B8CC BC78 AAF9 B4F6 省略的候选项
出 发 干 暗 里 征 门 汤
出 發 幹 暗 裡 徵 門 湯
齣 髮 乾 干 榦 闇 里 裏 征
由于这种表把每个源字只对应到一个标字,其它有可能的候选项就被忽略了(见“省略的候 选项”一栏),经常导致错误的转换。
-6-

例如,一个简体的字符串“头发”不是作为一个单位处理,而是被逐字转换。由于简体的头 头 只与繁体的頭对应,转换是成功的。但是,由于简体的发与繁体的髮(用于头发)和繁体的發 頭 发 髮 發 (用于发射)对应, 转换就可能失败。 就是说, 一种经常出现的情况是, 如果表把发对应到發, 发 發 结果将是无意义的頭發 頭發:“头”+“发射”。另一方面,如果表把发对应到髮,头发 发 髮 头发会被正 頭發 头发 确地转换为頭髮 頭髮,但其它的常见词汇,如简体的出发 出发,会被转换为无意义的出髮 出髮:“出去” 頭髮 出发 出髮 +“头发”。 如果一个复合词的每个语素都与多于一个的字对应的话(多字体的复合词), 这些问题就更加 复杂了,因为这样排列的数目会以几何级数增长,如下表所示。
表6:简繁多字体的复合词
简体源字 词义 characteristic start off dry secretly long distance a swing 正确繁体 其它繁体候选项
特征 出发 干燥 暗里 千里 秋千
特徵 出發 乾燥 暗裡 千里 鞦韆
特征 出髮 干燥 暗里 韆里 秋千
齣髮 幹燥 闇里 千裡 秋韆
齣發 榦燥 闇裡 暗裏 闇裏 韆裡 千裏 韆裏 鞦千
很明显,当存在几个候选项供挑选时,一对一的码对转换很有可能产生错误的结合。这表 明在没有(显著的)人为干预时不能靠码对转换提供准确的结果。
2.1.2 转换过程
有三种不同的,越来越复杂的方式进行码对转换: 1.简单化的转换 简单化的转换:指基于一对一的对应表的系统,在几个选项中选择标码点时没有充 简单化的转换 分考虑它的出现频率。简单化的转换经常产生不令人满意的结果,需要很大的人为 编辑的努力。不幸的是,很多转换手段采取这种方法。它唯一的优点是使用简单, 花费不多。 2.基于频率的转换 基于频率的转换:指建立在一对一对应表上的一种系统,其中标码点是几个选项中 基于频率的转换 的第一个,从按出现频率排列的表中被选择出来。2.1.1节里的表5是一个基于频率 的对应的例表。 尽管这种方法经常产生正确的结果,在许多情况里,多标对应里的第二个(或第三 个)选项本身也是高频率的,这时它就有可能失败。比如发这个例子,与繁体的發 发 發 和髮都对应。 髮 我们调查了几个基于频率的系统,发现了很多错误和遗漏。建立一个基于频率的码 对转换程序的最大困难是迄今为止还不存在建立在可靠统计上的准确全面的对应 表,需要进行广泛的研究。附录C给出了一个知名转换程序里的错误对应的例子, 并与日中韓辭典研究所发展扩充的对应表作了比较。 3.基于候选项的转换 基于候选项的转换:指建立在一对多的对应表上的系统,候选项按出现频率排列。 基于候选项的转换 在一对多对应的情况下,用户得到一串候选项,或是直接出现在用户界面(UI)上,
-7-

或是一个括号里的表。 几个声称支持繁体中文的主要中文电子字典和文字处理程序似乎是建立在简单化的方法上 的。有些中文输入系统结合了(1)和(2)。第三种方法很少见,用于我们内部的码对转换程 序之一。 概括地说,码对转换有以下缺点: 1.如果使用简单化的转换,通常会产生不满意的结果。 2.即使使用较复杂的转换(如上述的(2)和(3)),也还可能需要大量的人为干预,如需 选择候选项和/或进行事后编辑。 3.彻底地忽略了词汇用法上的区别(详见下文)。
二级: 2.2 二级:字对转换
2.2.1 基本概念
简繁转换的更复杂的下一级可被描述为词到词,词基础上的转换。我们称之为字对转换 字对转换,因 字对转换 为参与转换过程的单位是拼字单位: 也就是说, 在字典和对应表里被作为单个条目处理的字 或有意义的字的结合。 在此文中, 我们称之为词的单位 词的单位代表有意义的语言单位, 词的单位。 例如单字词(自由形式), 词的单位 象词缀这样的语素(黏附语素), 多字复合词(自由和黏附), 甚至更大的单位, 比如成语词组。 为简短起见,如果不会造成混乱的话,我们有时会使用词作为词的单位的同义词。
2.2.2 转换过程
字对转换通过四个步骤在词的单位的基础上进行。 1.把源句或词组分词为词的单位。 2.在拼字(词的单位)的对应表里查找词的单位。 3.产生标词的单位。 4.在需要的编码里输出标词的单位。 例如, 简体词组梳头发 梳头发先被分词为梳这个词的单位(单字自由语素)和头发 头发(两字复合词), 把 梳头发 梳 头发 每个单位都在对应表里查找一遍, 然后被转换为标字符串梳頭髮 要点在于头发没有被分解, 梳頭髮。 头发 梳頭髮 而是被作为单个词的单位处理。(实际上,这个例子由于梳頭 梳頭也是一个正当的词的单位而更 梳頭 加复杂了。) 以下是一个拼字(词的单位)的对应例表。附录B给出了一个更详细的表。
表7:拼字对应表
简体词的单位 繁体词的单位 拼音 tóufa tèzhēng chūfā
-8-
词义 Hair Characteristic Start off
头发 特征 出发
頭髮 特徵 出發

干燥 暗里 千里 秋千
乾燥 暗裡 千里 鞦韆
gānzào ànl? qiānl? qiūqiān
Dry Secretly long distance a swing
值得注意的是,在码对转换和字对转换中,结果都必须和源有拼字上的对应 拼字上的对应。就是说,源和 拼字上的对应 标都不过是同样的底层词位的拼字变体(见下2.3.1节)。这意味着每个源字都必须和标字一 致,或是精确的一对一对应。 例如,在把简体的计算机 计算机转换为繁体的計算機 計算機时,计与計对应,算与算对应(同样的文字), 计算机 計算機 计 計 算 算 機 计算机“翻译”为繁体 机和機有一对一的对应。和词对转换(三级)不同的是,没有把简体的计算机 计算机 的電腦 電腦的企图。 電腦
三级: 2.3 三级:词对转换
2.3.1 基本概念
只要源词和标词有拼字上的对应,如简体的头发 头发和繁体的頭髮 頭髮,字对转换是有效的。然而, 头发 頭髮 台湾,香港,和中华人民共和国有时在创造技术术语时采取了不同的途径。结果是在很多情 况下简体和繁体对同一概念有完全不同的词。 也许最有名的例子就是计算机了, 在简体里通 常叫做计算机 计算机,而在繁体里是電脳 電脳。 计算机 電脳 简繁互转更复杂的下一级是把这些不同之处考虑进去,从一个“翻译”出另一个,也可被形 词对转换,因为参与转换过程的单位是语义 容为词到词的,词汇基础上的转换。我们称之为词对转换 词对转换 单位,或词位。 一个词位 词位是词汇的基本单位,例如单字词,词缀,或复合词。在这篇文章里,它也代表更大 词位 的单位,例如成语词组。为了实用的目的,它和字对转换里用的词的单位类似,但词位用在 这里强调这个转换过程的语义上的本质。 在某种意义上, 把一个词位转换为另一个和翻译两种语言有相似之处, 但我们称之为词对转 换而不是“翻译”,因为它局限于一门标准语言的几种互相有紧密关系的变体的词和词组, 而且不象普通的双语翻译那样变动词的顺序。
2.3.2 转换过程
让我们用简体字符串信息处理 信息处理作例子。 它先被分词为词位信息 处理 在词位对应表里查找 信息和处理 信息处理 信息 处理, 每个词位,然后转换为标字符串資訊處理 資訊處理。 資訊處理 值得注意的是,信息 資訊 信息和資訊 信息 資訊在拼字上是不对应的;就是说,他们本身是不同的词位,而不只 是同一个词位的拼字变体。 这和美式英语的 “汽油” (gasoline)及英式英语的 “汽油” (petrol) 之间的差别是类似的。 另一方面, 处理和處理 處理之间的区别和美式英语的 “颜色” (color)和英式英语的 “颜色” (colour) 处理 處理 相似,是同一个词位的拼字变体。一定不能太刻板地理解这个与英语的类比,因为英语和中 文书面系统是根本不同的。 词对转换和字对转换有类似之处,但在两个方面有重要的区别:
-9-

1.对应表必须把一个词位在语义一级上对应到另一个。比如,简体计算机 计算机必须被对应 计算机 到它的繁体的词位的同义词電腦 不是它拼字的对应词計算機 電腦, 計算機。 電腦 計算機 2.分词的算法必须复杂到可以确认专有名词的地步,因为标字的选择有可能取决于某 词位是否是专有名词(见下2.3.3节)。 下面是一个词位对应的例表。
表8:词位对应表
英语 Bit Byte CD-ROM Computer Database File Information Internet Software Week 简体词位 简体拼音 wèi zìjié guāngpán Jìsuànjī Shùjùkù Wénjiàn Xìnxī Yīntèw?ng Ru?njiàn xīngqī 繁体词位 繁体拼音 wèiyuán wèiyuánz? guāngdié diànn?o zīliàokù dàng’àn zīxùn w?ngjì-w?nglù ru?nt? l?baì
位 字节 光盘 计算机 数据库 文件 信息 因特网 软件 星期
位元 位元組 光碟 電腦 資料庫 檔案 資訊 網際網路 軟體 禮拜
可以看到, 上表把一种中文词位的语义的内容对应到另一种, 在这方面与双语词汇的结构是 一样的。
2.3.3 专有名词
词对转换的另一个方面是对专有名词的处理。 专有名词简繁互换在分词过程和编纂对应表时 都造成特殊的问题。 一个主要的困难是许多非中文的(甚至一些中文的)专有名词在拼字上不 对应。在这种情况下,码对转换程序和字对转换程序都会不可避免地产生错误的结果。 转换专有名词时的主要问题有: 1.分词 分词:分词的算法必须复杂到可以确认专有名词的地步,因为标字的选择有可能取 分词 决于某词位是否是专有名词。 2.非中文名字 非中文名字:在有些非中文的专有名词里,简体和繁体中文用字不同。例如,简体 非中文名字 的肯尼迪 “Kennedy” 肯尼迪是 的音译, 与繁体的甘迺迪 甘迺迪对应。 注意肯和尼与甘和迺不对应。 肯尼迪 甘迺迪 肯 尼 甘 迺 3.二维对应 二维对应:有时一个源必须沿着二维对应到标:普通的词汇和专有名词。例如,简 二维对应 体周在一般词里对应到繁体的周或週(甚至賙),但在人名中只对应到周。 周 周 週 賙 周 下面是拼字上不对应的非中文名字的对应例表。
表9:非中文名字的词位对应表
英语 简体源 正确繁体
- 10 -
错误繁体

Berlin Wall Chad Georgia Kennedy Wisconsin
柏林墙 乍得 佐治亚 肯尼迪 威士康星
柏林圍牆 查德 喬治亞 甘迺迪 威士康辛
柏林牆 乍得 佐治亞 肯尼迪 威士康星
这种例子还有很多。这些区别不仅本身非常有趣,还有实际意义的后果。就是说,忽视它们 的码对和字对转换程序会产生上面“错误繁体”一栏里列出的不令人满意的结果。 下面是如上(3)条里解释的二维对应的例子:
表10:二维对应 10:
简体源 拼音 zhōu fā cái 繁体(人名) 繁体(人名) 繁体( 繁体(词)
周 发 才
周 發 才
周 週 賙 發 髮 才 纔
这意味着简体的发作人名时必须总被转换为繁体的發,不可被转换为繁体的髮。这是相当 发 發 髮 困难的,因为分词程序必须复杂到可以区分作词用和作专有名词用的字。这是一个复杂的 问题,本身就值得写一篇文章来论述。
2.4 语境转换
2.4.1 基本概念
简繁互转的最高级可以被形容为词到词,语境基础上的翻译。我们称此为语境转换 语境转换,因为必 语境转换 须分析语义和句法的语境才能正确地把语义不清、一词多义的词位对应到多个标词位。 我们已经看到, 字对转换程序和码对转换程序比起来的一大好处是它们处理词的单位, 而不 是单个码点。这样,简体的特征 特征就被正确地转化为繁体的特徵 特徵(而不是错误的特征 特征)。与此类 特征 特徵 特征 似,词对转换程序处理词位。例如,简体光盘 光盘被转换为词位对应的繁体光碟 不是和它拼字 光碟, 光盘 光碟 相应但是错误的光盤。 光 在大多数情况下这是有效的,但有些特殊情况下一词多义的简体词位对应到多个繁体词位, 取决于语境,每一个都有可能是对的。我们把这些称为语义不清的多字体复合词 语义不清的多字体复合词。 语义不清的多字体复合词 一词多义的简体复合词一对多的对应在拼字和词位级上都会出现。简体文件 文件是个合适的例 文件 子。作“文件”一义时,它与自己对应,也就是繁体的文件 文件;但作“数据档案”时,它与繁 文件 体的檔案 檔案对应。这种情况也可能发生在繁简转换的时候.比如,繁体資料 資料与简体资料 资料作“材 檔案 資料 资料 料,方法”时对应,但在作“数据”时和简体的数据 数据对应。 数据
2.4.2 转换过程
据我们所知, 能自动转换语义不清的多字体复合词的转换程序还不存在。 这需要类似于双语 机器翻译使用的高级技术。 这样的系统通常可以把文本流分解成词组, 确认它们的句法功能, 把词组分词为词位, 确认它们的词类, 并进行语义分析以确定使用语义不清的多字体复合词
- 11 -

的特别意义。 日中韓辭典研究所现正在发展一个能部分解决这一难题的“伪语境的”转换系统。它不做句 法和语义的分析, 但通过一个允许用户起交互作用的半自动过程来达到高准确度。 为了达到 这一目标我们正在: 1. 为语义不清的多字体复合词建立一个一对多的数据库。 2. 发展一个用户界面,以使用户从候选项的表中手动选择。 以下是为拼字和词位级上语义不清的多字体复合词设立的对应例表。
表11:语义不清的多字体复合词 11:
简体源 繁体选项1 繁体选项2
编制 制作 白干 阴干 文件
編制 制作 白幹 陰乾 檔案
organize; establish creation (music etc.) do in vain let pickles dry (data) file
編製 製作 白干 陰干 文件
make by knitting manufacture strong liquor even numbers document
2.4.3 最高级的转换程序
我们的最终目的是发展一个能达到近乎完美的转换准确性的语境转换程序。 这样的转换程序 至少要能做到以下几点: 1.在句法和语义的基础上进行复杂的分段。 2.确认专有名词和其它语态。 3.包括全面的,建立在频率基础上的一对多的编码对应表。 4.包括全面的拼字的和词位的一对多对应表。 5.包括全面的二维的一对多的专有名词的对应表。 6.自动转换多字体的词位,包括语义不清的多字体复合词。 7.用批处理方式或与用户互动的方式操作。 下面的简体句无疑会使甚至最复杂的转换程序感到困惑:
发!请发这封传真可以吗?发点了点头发了传真。
Hey, Fa! Could you please send this fax? Fa nodded his head and sent the fax. 今天最先进的转换程序最好也只能做到:
發!請發這封傳真可以嗎?發點了點頭髮了傳真。
说中文的人会感到好笑。 转换程序把简体的独立词头和发和复合词头发 头发混淆起来了。 理想的 头 发 头发
- 12 -

语境转换程序应该能认出偶然相邻的独立词,并能产生正确的结果:
發!請發這封傳真可以嗎?發點了點頭發了傳真。
有讽刺意味的是, 因为一个简单化的码对转换程序无法辨识词的单位, 正 它也许能在这个情 况里给出正确的结果,但却是因为错误的原因!应该承认的是,这个例子很复杂。但是它是 一个很自然的中文句子,清楚地证明了中文简繁转换的常见错误和复杂情况。
3. 讨论和分析
3.1 简繁转换的样本
下列是一个简繁词位(三级)的转换。
普通话简体字
根据《计算机周报》的报道,佐治亚软件研究所所长威廉肯尼迪氏和 广东大学的信息处理研究所所长周东丰教授在香港举办了关于“因特 网的现状”及“信息高速公路的未来”的发表会,并且对于明年两研 究所将合并开发的因特网信息数据库进行了讨论。
臺灣的國語繁體字
根據《計算機週報》的報導,喬治亞軟體研究所所長威廉甘迺迪氏和 廣東大學的資訊處理研究所所長周東豐教授在香港舉辦了關於“網際 網路的現狀”及“資訊高速公路的未來”的發表會,並且對於明年兩 研究所將合併開發的網際網路資訊資料庫進行了討論。
英文译文 According to the Computer Weekly, the director of the Georgia Software Research Institute William Kennedy, and the director of Canton University's Information Processing Institute Professor Dongfeng Zhou, held a press conference in Hong Kong on the topics “The Internet Today” and “The Future of the Information Superhighway.” They also discussed the plans of both institutes to build a “Database of Internet Information.”
上面一段是繁简词对转换的例子。它有几个有趣的特点,证明达到近乎完美的转换必须克 服的主要挑战。下面我们来研究与前三级每级转换过程相关的问题。
3.2 码对转换问题
让我们先考虑一下如果用普通码对转换程序转换以上段落会出现什么情况。 我们使用了某中 国大学发展的很受欢迎的文字处理程序,得到了以下(很不令人满意的)结果:
根據 《[計算機]{周報}》 的[報道],[佐治亜][軟件]研究所所長威廉[肯 尼迪]氏和廣東大學的[信息]處理研究所所長周{東丰}教授在香港舉
- 13 -

辦了{關于}“[因特網]的現狀”及“[信息]高速公路的未來”的發表 會,{并且}{對于}明年兩研究所將{合并}開發的[因特網][信息][數據 庫]進行了討論。
上面这段简短的文字包括六个在括号里的拼字错误,和11个方括号里出现的词位错误。 105个字里有29个,即百分之28,被转换错了。它在转换所有词位时都出现了错误。现 在我们先忽略词位错误(比如把计算机 计算机转换成計算機 計算機)。下表展示了拼字错误(“繁体结 计算机 計算機 果”),正确的繁体对应和其它的候选项。
表12:简繁转换结果 12:
简体源 繁体结果 正确的繁体 正确 是 是 是 是 是 否 否 否 否 否 否 其它候选项
所长 大学 香港 未来 发表 东丰 周报 并且 合并 关于 对于
所長 大學 香港 未來 發表 東丰 周報 并且 合并 關于 對于
所長 大學 香港 未來 發表 東豐 週報 並且 合併 關於 對於
發表 東丰 周報 併且 合并 關于 對于
髮表 發錶 髮錶 賙報 并且 合並
只对应到一个繁体字的简体字组成的复合词只有一个繁体候选项, 所以转换的准确率达到百 分之百。有些包括多字体字的复合词,例如简体发(与繁体的發和髮对应),有时被正确地转 发 發 髮 换过来,比如从发表 發表 发表到發表 发表 發表。但在其它情况下,例如简体周(与繁体周,週和賙对应),它们 周 周 週 賙 经常不能被正确地转换,正如把周报 周报转换为周報 周報,还有在其它的五个例子里也是这样。 周报 周報 上述分析证明了码对转换是多么不可靠。
3.3 字对转换问题
没有正确地转换简体的周报 并且 周报, 分词程 周报 并且和其它词的问题可以通过使用二级字对转换解决。 序认出这些复合词是词的单位, 在拼字对应表里查找它们, 然后明确地把它们转化为正确的 繁体对应。 下面是一个在拼字一级上把简体词的单位对应到繁体词的单位的例表。
- 14 -

表13:拼字对应 13:
简体源 繁体标 拼音 Dàxué J?bàn Su?zh?ng Ch?l? Dōngfēng Zhōubào Bìngqi? Hébìng Guānyú Duìyú 英语 University Conduct, hold Chief Processing Donfgeng (a name) weekly publication Moreover Merge about, concerning Regarding
大学 举办 所长 处理 东丰 周报 并且 合并 关于 对于
大學 举辦 所長 處理 東豐 週報 並且 合併 關於 對於
使用这种表保证了在词的单位一级上正确的转换,也避免了一对一码对转换程序内在的问 题。
3.4 词对转换问题
我们已经看到, 码对和字对转换程序不能处理简体计算机 计算机和繁体電腦 電腦这样的词位区别, 因为 计算机 電腦 同样的概念有不同的词位。还有许多非中文的专有名词在音译时用字不同。例如,简体的佐 佐 治亚,是“Georgia”的音译,应该对应到繁体的喬治亞 喬治亞,而不是它的拼字对应佐治亞 佐治亞。 治亚 喬治亞 佐治亞 如下表“正确”一栏所示,所有简体和繁体拼字不对应的词位和专有名词都没能被正确地转 换。
表14:词位对应 14:
英语 Computer 简体词位 简体拼音 Jìsuànjī Shùjùkù Zu?zhìyà xīnxī yīntèw?ng k?nnídí bàodào ru?njiàn 繁体词位 繁体拼音 diànn?o zīliàokù qiáozhìyà zīxùn w?ngjì-w?nglù gānn?idí bàod?o ru?nt? 正确 否 否 否 否 否 否 否 否
计算机 Database 数据库 Georgia 佐治亚 Information 信息 Internet 因特网 Kennedy 肯尼迪 Report 报道 Software 软件
電腦 資料庫 喬治亞 資訊 網際網路 甘迺迪 報導 軟體
上述分析表明使用词位对应表对达到转换的高准确度是至关重要的。
- 15 -

3.5 繁简转换
一对多的对应问题并不局限于简繁转换。 实际上, 大多数简繁转换中遇到的困难在繁简转换 中也存在。但是,拼字一级上一对多的对应在繁简转换中要少得多。 尽管如此,我们找到了数十个对应到两个简体字的繁体字,如下表所示。
表15:繁简一对多对应 15:
繁体源 简体标 意义 Particle 简体例子
著 著 乾 乾 徵 徵 於 於
zhe zhù gān qián zhēng zh? yú yú
着 著 干 乾 征 徵 于 於
沿着 Writings 著作 Dry 干燥 Male 乾坤 go on journey 长征 Ancient note 宫商角徵羽 at, in 关于 Yu (a surname) 於先生
有些字,例如繁体的著对应到简体的著和着,频繁出现在数以百计的复合词里,所以繁简 著 著 着 转换不象开始看上去那么无足轻重。 值得指出的是,繁简对应不总是可逆的。比如,简体的后对应到繁体的後和繁体的后,而 后 後 后 繁体的姓後只与简体的後对应。这意味着简繁对应表必须和繁简对应表分开保持。 後 後
问题到底有多严重 多严重? 3.6 问题到底有多严重?
问题的程度到底是怎样的?让我们看看统计数字。 几个调查(例如[Xiandai 1986])证明最常 用的2000个简体字占当代简体素材中出现的所有字的百分之97。 其中, 有238个简体字(几乎 百分之12)是多字体的;就是说,它们与两个或多个繁体字对应。这个百分比是相当大的, 也是简繁准确转换的主要困难之一。 在另一个方向的繁简转换,问题的程度要小得多,但我们发现,基于1亿7千万的繁体字素材 (Huang 1994)上最常用的2000个大五码字中有20个与多个简体字对应。 但这些数字只表现了问题的一面, 因为它们是建立在单字的基础上的。 要正确地体会问题的 严重性,我们必须研究所有包括多字体字的词的单位。 在我们现有的,简繁体各有100多万字条的全面的中文词汇数据库基础上[Halpern 1994, 1998],据初步计算表明,大约97000个最常用的简体词的单位中有20000多有至少一个多字 体的字,导致了一对多的简繁对应。这一比率达到了惊人的百分之21。类似的繁简对应的计 算在大约87000个最常用的繁体词的单位中产生了3025个多字体的字,占全体的百分之3.5。 这些数字证明仅仅从一个码点转换到另一个码点, 尤其是简繁的方向, 会导致不令人满意的 结果。
- 16 -

由于许多高频率的多字体字是数以百计, 甚至数以千计的复合词的组成部分, 错误的转换会 经常出现,除非一对多对应能(1)把字节串分词为语义上有意义的单位(词的单位或词位), (2)分析语境以决定几个候选项中的正确选择,使意义明白无误。
4. 转换的新技术
4.1 项目概述
1996年,以日中韩计算辞书学[Halpern 1994, 1998]为专攻的日中韓辭典研究所 日中韓辭典研究所,着手发展 日中韓辭典研究所 了一个中文简繁体转换系统.其最终目的是为了能得到近乎完美的转换结果。这是一项重大 举措,需要投入大量的人力,物力。 为了达到这一目的,我们进行了以下研究和发展活动: 1.深入研究所有和中文简繁转换有关的技术和语言问题。 2.为前三级建立了简繁相互对应表。 3.展了中文分词技术。 为了达到转换的高准确度,我们的对应表很全面,包括大约100万以上普通词汇的词位,技 术术语,和专有名词。它们还包括一些其它特征,比如拼音读法,语法信息,语态,和语义 分类编码。
4.2 系统组成部分
以下是对转换系统,尤其是我们的对应表的主要组成部分的概述: 1.编码对应表 编码对应表:我们的简繁编码互应表非常全面。它们不局限于国标码和大五码字符 编码对应表 集,而是包括所有Unicode的码点。在一对多的情况下,候选项按频率排列,作为它 的基础的数据是从一个庞大的1亿七千万字的素材以及我们繁体字专家组几年的研 究中得出的。例见附录A。 2.字对对应表 为数以万计的多字体复合词建立准确的字对对应表需要很多手工劳动。 字对对应表: 字对对应表 我们的繁体字专家组检查和复查了每个字。例见附录B。 3.词对对应表 词对对应表:建立准确的词位对应表更加困难,因为简体和繁体字之间没有词对对 词对对应表 应,而且(似乎)不存在显示简体繁体区别的词典。每个词都得单独检查,还要考虑 到词义不清的多字体复合词带来的额外难题(见2.4.2节)。例见2.3.2节。 4.专有名词对应表:专有名词,特别是人名和地名,都经过了特殊处理。我们的中文 专有名词对应表 专有名词对应表 和非中文的对应表现有约180万个专有名词。 与词位表不同的是, 这些表由于需要二 维对应而特别的复杂。细节及例子见2.3.3节。 5.转换引擎 转换引擎:转换引擎的主要构成部分有:(1)复杂的中文分词程序 中文分词程序,把文本流分词为 转换引擎 中文分词程序
- 17 -

词的单位并确认它们的语法功能; 转换模块 在对应表里查找词的单位并产生标 (2)转换模块 转换模块, 的编码输出。
4.3 结论
中文简繁转换对地方化、 翻译和出版业, 及想要进入东亚市场的软件发展公司来说都变得日 益重要。但是,我们看到问题是复杂的,建立对应表和发展分词技术需要很大努力。 日中韓辭典研究所占据了得天独厚的位置, 向软件发展公司提供高品质的中文词汇资源和可 靠的转换技术,消除了昂贵的手工劳动,显著地降低了费用。我们坚信,我们在这方面正在 进行的研究和发展努力必将使我们接近建立完美的转换程序这一很难达到的目标。
鸣谢
对以下阅览了此文并提供了建设性批评建议的人士, 在此我们表示衷心的感激。 按字母表排 列,包括:Glenn Adams, James Breen, Carl Hoffman, Timothy Huang, Ken Lunde, Dirk Meyer, 钱溯宁, Tsuguya Sasaki, David Westbrook, and Christian Wittern。评论组的 几位成员都是中日韩信息处理领域的知名权威。感谢程似锦翻译本文。 同时特别向详细阅览了此文并提出了许多宝贵建议的 Glenn Adams 和 James Breen 致谢。
参考材料
[Halpern 1990] Halpern, Jack (1990): “New Japanese-English Character Dictionary: A Semantic Approach to Kanji Lexicography” Euralex '90 Proceedings. Actas del IV Congreso Internacional, 157-166. Benalmádena (Málaga): Bibliograf. [Halpern 1990] Halpern, Jack (1990): New Japanese-English Character Dictionary (Sixth Printing). Tokyo: Kenkyusha. [Halpern 1994] Halpern, Jack, Nomura Masaaki, and Fukada Atsushi (1994): “Building a Comprehensive Chinese Character Database,” Euralex '94 Proceedings. International Congress on Lexicography in Amsterdam. [Halpern 1998] Halpern, Jack (1998): “Building A Comprehensive Database for the Compilation of Integrated Kanji Dictionaries and Tools,” 43rd International Conference of Orientalists in Tokyo. [Halpern 1999] Halpern, Jack (1999): The Kodansha Kanji Learner's Dictionary. Tokyo: Kodansha International. [Huang 1994] Huang, Shih Kun (1994): Chinese Usenet Postings. Department of Computer Science and Information Engineering, National Chiao-Tung University, Taiwan (https://www.wendangku.net/doc/65361232.html,.tw/).
- 18 -

[ISO 1994]: ISO 2022:1994 Information Technology -- Character Code Structure and Techniques. [Lunde 1999] Lunde, Ken 1999: CJKV Information Processing. Sebastopol: O'Reilly & Associates. [Meyer 1998] Meyer, Dirk (1998): “Dealing With Hong Kong Specific Characters,” Multilingual Computing & Technology, Vol. 9 No. 3. Multilingual Computing, Inc. [Unicode 1996]: The Unicode Standard, Version 2.0. Reading: Addison-Wesley. ` [Xiandai 1986] 现代汉语频率词典 xiàndaì hànyu pínlü cídi?n (1986). Beijing: Beijing Language Institute. [Zongbiao 1986]: 国家语言文字工作委员会 (1986): 简化字总表 ji?nhuàzì z?ngbi?o (Second Edition): 语文出版社.
- 19 -

附录
附录A:码对转换对应表 附录A
表A-1:简繁编码对应表 1:简繁编码对应表
国标码 B0B5 B2C5 B3D4 B5D6 B6AC B7E1 B8F6 C0DB C3B9 CAAC D5F7 DAD6 F3BD 简体源 繁体标 大五码 B774 EEEE A47E C5D7 A659 B3F0 A9E8 ACBB DBD3 A556 C35D C2D7 A4A5 ADB7 ADD3 BAE7 B2D6 F5EC BE60 C5F0 ABCD A472 BC78 A9BA EBAC EEB0 F96E F8BE
暗 才 吃 抵 冬 丰 个 累 霉 尸 征 谥 蠼
暗 才 吃 抵 冬 豐 個 累 霉 屍 徵 諡 蠼
闇 纔 喫 牴 觝 鼕 丰 風 箇 纍 黴 尸 征 謚 蠷
表A-2:繁简编码对应表
大五码
AB5D ADB7 B054 B0A2 B0AE B16A B3CA B3F2 B6C4 BAE0 BBB1 BC78 BECA BFFD
繁体源
简体标
国标码(EUC) 国标码(EUC)
BED6 B7E7 B7E1 D1B6 C9C2 B8C9 C7AC C7BF C9A1 CEA7 D3B6 BCE3 BED6 D5F7 E1E7 C7BF C2BC
侷 風 訊 陝 乾 強 傘 圍 傭 箋 跼 徵 彊 錄
局 风 丰 讯 陕 干 乾 强 伞 围 佣 笺 局 征 徵 强 录
- 20 -

繁简字对照表

非对称繁简字对照表 2006年10月3日 12:04:01 发布:振之 此表来自网络,此表主要说明汉字繁简转换并不简单,包括word转换工具有时候也会出错,汉字中有些字在某些义项上繁简异形,存在简体转繁体的问题;而有些义项繁简同形,下列字加“○”以后的字的义项表示它的繁体在作该义项使用时与简化字同形,不变化。如老板的繁体是“老闆”,而木板的繁体还是“木板”,不能写成“木闆”。 沈如泉2010-11-7 以下文中,“○”表示字形无变化。 (一)同音兼并类(41组) 1 板bǎn闆①老板,私营工商业的财产所有者。○②其它义项:木~,门~,鼓~,~眼,死~,~结。 2 表biǎo錶①计时的器具:钟~、手~。○②其它义项:外~,~叔,发~,~述,~汗,~率,报~,水~。 3 才cái纔①副词:刚~,~不呢。○②名词:~能,英才。 4 丑chǒu醜①形容词:~陋,~态,出~。○②其它义项:~角,~时,子~寅卯。 5 出chū齣①量词:一~戏。○②动词:~门,~席,~众,~力,~人才,~气,~丑,~数,~纳。 6 淀diàn澱①沉淀:~粉。○②浅的湖泊:白洋~。 7 冬dōng鼕①象声词:丁~、~~响。○②冬季:寒~腊月。 8 范fàn範①其它义项:铁~,模~,~围,防~。○②姓:~仲淹。 9 丰fēng豐①其它义项:~富,~碑。○②美好的容貌和姿态:~采、~韵。 10 刮guā颳①风吹:~风。○②其它义项:~脸,~糨子,搜~。 11 后h?u後①其它义项:~门,前~,无~(子孙)。○②君主的妻子:皇~。

12 胡hú鬍①~须。○②其它义项:~人,~琴,~闹,~乱,~同。 13 回huí迴①曲折环绕:~旋。○②其它义项:~还,~头,~报,~禀,~绝,一~事,章~,~族。 14 伙huǒ夥①~计,团~,~同。注:表示多时不简化。○②~食,~房。 15 姜jiāng薑①草本植物:生~。○②姓:~子牙。 16 借jia藉①假托、凭借:~口,~题发挥。注:其它义项以及读jí时不简化。○②借进或借出:来~钱,不~给他。 17 克ka剋攻~,~食,~期。注:读kēi时不简化。○③~勤~俭,以柔~刚;千~。 18 困kùn睏①睡或想睡:~倦,~觉。○②其它义项:~苦,围~,~乏。 19 漓lí灕①~江。○②淋~。 20 里lǐ裏①表示跟“外”、“表”相对或处所意义:衬~,~边,~面,这~。○②其它义项:邻~,乡~,一~路。 21 帘lián簾①窗~、垂~听政。○②旗子状的标志:酒~。 22 霉 m?i ○虹雨~风,~变。黴~变,同“霉变”;~黑。 23 面miàn麵①食物、粉末义:~粉,粉笔~,~条,~糊。○②其它义项:脸~,~壁,表~,当~,平~,反~,下~,一~墙。 24 蔑mia衊①原指血污,比喻毁谤:污~、诬~。○②其它义项:~视,轻~,~以复加。 25 千qiān韆①秋~。○②其它义项:一~,~秋基业。 26 秋qiū鞦①~千。○②其它义项:~季,大~,多事之~,千~万代。 27 松sōng鬆①跟紧相对:~散,放~,~弛,手头~。/绒状或碎末状食品:肉~、鸡~。○②~树。 28 咸xián鹹①味道:~鱼、~菜。○②全、都:老少~宜。 29 向xiàng嚮①其它义项:面~,~暮,~前走。○②方~,偏~。

感受汉字之美

《感受汉字之美》综合性学习设计 教学目标 1、通过综合性学习,帮助学生了解汉字的起源,感受汉字的有趣和神奇,激发学生学习语文的兴趣。 2、通过社会用字调查,增强学生规范用字的意识,努力为纯洁祖国语言文字做些力所能及的事。 3、能根据老师的要求自主收集信息,筛选信息,能与同学团结合作,共同完成探究任务。在集体讨论与展示成果时,能做到表达清晰,态度大方。 4、培养学生对祖国语言文字的自豪感,提高对纯洁祖国语言文字的认识,学习欣赏汉字书法艺术的方法。 教学重点、难点:了解汉字的有关信息,感受汉字之美,并能认真书写汉字。 教学准备:1、老师自制ppt课件 2、学生准备:搜集资料,分组调查用字情况 教学过程 (一)激趣导入课题 (二)揭秘汉字之源 几千年使用汉字过程中,为了记录语言,相互交际的需要,人们不断地改进文字的形体,字体的演变经历了一个又一个阶段。 小组汇报 1、一组:汉字起源的传说故事。 2、二组:介绍汉字的演变过程 3、三组:学生板书几个汉字的演变。 4、四组:介绍汉字造字的几种方法。 (三)、游汉字趣味园 1、慧眼识字 抢答:甲骨文“象、老、儿、男、女、母、小、米” 必答:甲骨文十二生肖 2、游字谜村 猜一猜:出示搜集的字谜,学生抢答。 编一编:小组合作自己编写字谜。 3登“歇后语”塔 各小组开火车背谐音歇后语 老师出示谐音歇后语 老师出示谐音歇后语齐读 各小组赏析其中意思。 (四)啄木鸟在行动 汉字的规范是一个国家,一个民族文明水平的重要标志之一,然而我们身边却滋生漫延着一种病毒――错别字。 1、小组分别汇报用字调查情况:一组:街头,二组:学校三组:小巷四组:同学作业 2、写错或读错汉字都会给我们造成不良后果,甚至严重的损失,请听故事〈〈一字毁千军〉〉。(出示视屏) 3、为了规范汉字使用,请听我们发起的倡议书。 (五)、书写汉字之美

繁简切换注意事项

简体繁体相互转换注意事项 关于繁简转换,很多人习惯用电脑字体之间的繁简来转换。在很多时候,很多简体字不只有一个繁体字。这时候再转换,可能就会出错,这里附上部分繁简转换容易错的字以便参考,以下内容来自互联网: 几,象形。仅用作家具名称。这个意义也可以写作“机”。《书谱》“。。。书机。。。”。与“幾个”的“幾”不通用。机,作为家具名称时,与“機器”的“機”也不通用。 后,上古与王意义相近。如“后羿”意思即“王羿”。据说是个反“司”。与“前後”之“後”不通用。 饑,仅用于“饑荒”。与“饥饿”之“饥”不通用。 征,仅用于征讨,征伐。“徵”在征伐征讨等词语中与“征”不通用。而作为五音之一的“徵”(zhi)也不能写作“征”。“徵”可以用于徵收、应徵入伍。 逰,在“游泳”中与“游”不通用。其他的旅游、游玩中可以通用。 (另外,有几个字简繁汉时即通用,如:“无”与“橆”,“万”与“萬”。“万”用于复姓“万俟”时,好像与“萬”不通用。还有个特殊现象,即通假借用,如六朝时有“皇后”的“后”借用为“前後”的“後”,这个是特殊现象,以后另帖讨论。) 大家熟知的“司母戊方鼎”铭文“司母戊”,近来有说应读“后母戊”。可为“后”字参照。 “余”与“餘”也不通用。如作为“多出”的意思,“闰餘成嵗”不能写作“闰余成嵗”。作为第一人称“余”时,也不可写作“餘”。(顺便说一下,嵗,上面是从“止”,由于形近,也有讹为“山”的隶书楷书,也是可以的。但是写篆书就得回复本形“止”。有无知者如WENHUAISHA之流,按楷隶书的讹文反推为篆书,就是大错特错了。) “雲雾”也不可写作“云雾”。“子曰诗云”也不能写作“子曰诗雲”。 并非“反清复明”恢复繁体,而是在假设书法作品通是繁体情况下,列出较为规范的繁体写法。完全简体也可以。 “暴”,写作隶书楷书时,“暴怒”“暴晒”是无区别的。但是若是篆书,就是俩不同的字。不知道为何不能发图片了。暴晒,也可读PUSHAI。 “读”右半边,“卖”。楷书隶书无区别。篆书是俩不同的字。“读”右边是声旁。(这俩字打的是简化字) “极”“極”,也不通用。不过“极”古代极其少用,《说文》解释为“驴上负也。” “个”,“個”,古代不通用。“个”竹枝,一说半个“竹”。而“個”就是咱们通用的一个

感受文字之美 尽享读书之乐 21天打卡活动(优选.)

最新文件---------------- 仅供参考--------------------已改成-----------word文本 --------------------- 方便更改 赠人玫瑰,手留余香。 “感受文字之美尽享读书之乐” 21天打卡活动 主题: 感受文字之美尽享读书之乐 活动内容: 我和爸妈同读一本书 我是小小朗读者 好书换换看 我家的创意阅读 我最爱读的一本书 优秀家书家训家风家教故事亲子诵读 活动倡议: “一本好书,两人阅读,三周坚持,终生受益。”一个好习惯,无论其大小都有益于一生。 世界著名心理学家威廉?詹姆士曾说: 播下一个行动,收获一种习惯; 播下一种习惯,收获一种性格; 播下一种性格,收获一种命运。 你们猜,一个人想要养成一个习惯至少需要多久呢?

答案是:21天! 感谢孩子的到来让我们成为“父亲”和“母亲”,作为父母的我们能为孩子做哪些更有意义、更值得回忆、并且是孩子乐意接受的事情呢? 陪孩子阅读吧!一件简单可行,马上就可以做到的事情。亲子共读的乐趣只要你去实践,就会深刻体会! 21天,你能持续不断的陪伴孩子共读吗? 试试看!相信自己! 一、活动时间: 2018年4月23日-5月31日,开始晚的爸妈们们可以依次把时间往后顺延。 二、阅读书籍: 绘本、国学、文学名著、科学探索……所有孩子喜欢阅读的都可以。 三、交流方式: 必做:1.每天发布读的书目和照片,或者读书感受,发到班级朗读群即可。 更近一步:2.小朋友也可以用“为你诵读”、微信读故事,电台读故事的方式记录下来有声故事、视频故事。 四、参与活动要求: 1.参与家庭需不间断每天发布一条阅读信息在班级阅读微信群和朋友圈里。如果间断某天,自动归零,重新计时。每天坚持才能养成习惯哦! 2.阅读感受反馈信息格式如下: 打卡内容如图:

感受文字之美 尽享读书之乐 21天打卡活动

“感受文字之美尽享读书之乐” 21天打卡活动 主题: 感受文字之美尽享读书之乐 活动内容: 我和爸妈同读一本书 我是小小朗读者 好书换换看 我家的创意阅读 我最爱读的一本书 优秀家书家训家风家教故事亲子诵读 活动倡议: “一本好书,两人阅读,三周坚持,终生受益。”一个好习惯,无论其大小都有益于一生。 世界著名心理学家威廉?詹姆士曾说: 播下一个行动,收获一种习惯; 播下一种习惯,收获一种性格; 播下一种性格,收获一种命运。 你们猜,一个人想要养成一个习惯至少需要多久呢? 答案是:21天!

感谢孩子的到来让我们成为“父亲”和“母亲”,作为父母的我们能为孩子做哪些更有意义、更值得回忆、并且是孩子乐意接受的事情呢? 陪孩子阅读吧!一件简单可行,马上就可以做到的事情。亲子共读的乐趣只要你去实践,就会深刻体会! 21天,你能持续不断的陪伴孩子共读吗? 试试看!相信自己! 一、活动时间: 2018年4月23日-5月31日,开始晚的爸妈们们可以依次把时间往后顺延。 二、阅读书籍: 绘本、国学、文学名著、科学探索……所有孩子喜欢阅读的都可以。 三、交流方式: 必做:1.每天发布读的书目和照片,或者读书感受,发到班级朗读群即可。 更近一步:2.小朋友也可以用“为你诵读”、微信读故事,电台读故事的方式记录下来有声故事、视频故事。 四、参与活动要求: 1.参与家庭需不间断每天发布一条阅读信息在班级阅读微信群和朋友圈里。如果间断某天,自动归零,重新计时。每天坚持才能养成习惯哦!

2.阅读感受反馈信息格式如下: 打卡内容如图: 【杨凌高新小学悦读群“感受文字之美尽享读书之乐”21天打卡活动】第()天 悦读X班记录成长 日期: 地点: 书名: 悦读时间: 照片: 五、评价与考核 此项活动将作为六一评选书香班级、书香家庭和读书标兵的必备条件和加分项目计入期末考核。 班主任做好以下几点: 1.开展活动前,每个班级通过QQ群,微信群召集家长,深入宣传,把活动的意义、目的和方法,给家长进行了详细讲解沟通,此次活动需要做好以下工作: 2.老师每天作业布置要有关于读书的相关内容。 3.家长坚持每天用照片和文字记录孩子的读书生活,并发到班级阅读群和朋友圈打卡,班主任组织统计。

简体繁体转换

简体繁体转换 // 网页简繁体转换 // 日期:2007年4月1日 // 作者:niker // 本js用于客户在网站页面选择繁体中文或简体中文显示,默认是正常显示,即简繁体同时显示 // 在用户第一次访问网页时,会自动检测客户端语言进行操作并提示.此功能可关闭 // 本程序只在UTF8编码下测试过,不保证其他编码有效 // -------------- 以下参数大部分可以更改-------------------- //s = simplified 简体中文t = traditional 繁体中文n = normal 正常显示 var zh_default = 'n'; //默认语言,请不要改变 var zh_choose = 'n'; //当前选择 var zh_expires = 7; //cookie过期天数 var zh_class = 'zh_click'; //链接的class名,id为class + s/t/n 之一 var zh_style_active = 'font-weight:bold; color:green;'; //当前选择的链接式样 var zh_style_inactive = 'color:blue;'; //非当前选择的链接式样 var zh_browserLang = ''; //浏览器语言 var zh_autoLang_t = true; //浏览器语言为繁体时自动进行操作 var zh_autoLang_s = false; //浏览器语言为简体时自动进行操作 var zh_autoLang_alert = true; //自动操作后是否显示提示消息 //自动操作后的提示消息 var zh_autoLang_msg = '歡迎來到本站,本站爲方便台灣香港的用戶n1.采用UTF-8國際編碼,用任何語言發帖都不用轉碼.n2.自動判斷繁體用戶,顯示繁體網頁n3.在網頁最上方有語言選擇,如果浏覽有問題時可以切換n4.本消息在cookie有效期內只顯示一次'; var zh_autoLang_checked = 0; //次检测浏览器次数,第一次写cookie为1,提示后为2,今后将不再提示 //判断浏览器语言的正则,ie为小写,ff为大写 var zh_langReg_t = /^zh-tw|zh-hk$/i; var zh_langReg_s = /^zh-cn$/i; //简体繁体对照字表,可以自行替换 var zh_s = '皑蔼碍爱翱袄奥坝罢摆败颁办绊帮绑镑谤剥饱宝报鲍辈贝钡狈备惫绷笔毕毙闭边编贬变辩辫鳖瘪濒滨宾摈饼拨钵铂驳卜补参蚕残惭惨灿苍舱仓沧厕侧册测层诧搀掺蝉馋谗缠铲产阐颤场尝长偿肠厂畅钞车彻尘陈衬撑称惩诚骋痴迟驰耻齿炽冲虫宠畴踌筹绸丑橱厨锄雏础储触处传疮闯创锤纯绰辞词赐聪葱囱从丛凑窜错达带贷担单郸掸胆惮诞弹当挡党荡档捣岛祷导盗灯邓敌涤递缔点垫电淀钓调迭谍叠钉顶锭订东动栋冻斗犊独读赌镀锻断缎兑队对吨顿钝夺鹅额讹恶饿儿尔饵贰发罚阀珐矾钒烦范贩饭访纺飞废费纷坟奋愤粪丰枫锋风疯冯缝讽凤肤辐抚辅

常见繁体字错误汇总

繁体电子书稿易错字举例(增扩版) 在鲍国强先生基础上增扩 简体字由繁体字演变而来。但有些在古代分别有不同义和形的繁体字却归并成同一个简体字,所以繁体字和简体字并不是简单的一一对应关系。把这些简体字转变为繁体字时很容易出错。在繁体字电子书稿中,这些字就更容易被疏忽了。其产生差错的原因:或由五笔字形输入(字形相近)有误,或是输入法字表选择有误(眼误、手误),或因简繁字自动转换不准确(该转的不转或不该转的转了),或缘于字义理解偏差(没查核准确),或校对不细(漏了过去)等。现据有关校对记录整理了若干组容易出错的字,分为笔画简化、形义合并、异体统一、形义近误和特殊情形五类,每类中按各组首字笔画为序略加说明和举例,供同行审校时参考。 一、笔画简化 1.厂厂 两字本无关联,因“厂”简化为“厂”,就与古时的“厂”(音hǎn,山崖边的石洞)相混。古时之“厂”亦读ān。古籍中“厂”照录即可,不能转为“厂”。如撰《恕堂诗》的(清)宫鸿厂、《晋石厂丛书》等。

2.历历历 “历”与“历”应注意区分。如“万历”、“弘历”、“时宪历”与“经历”、“历下”等的区别,应重点校对,如《永历纪事》、《历代帝王法帖释文考异》、《乙酉日历》、《历城县志》等。“历”是它们的简化字。 3.只只只只 “只”有两读:读zhī有“单独的、量词”的意思,其繁体为“只”,如“只言片语”、“只身”等;读zhǐ有“副词表示限于某个范围、仅有”的意思,其繁体为“只只”,如“只许”等。 4.饥饥饥 “饥”是“饿”的意思,如“充饥”、“如饥似渴”等;“饥”则指“谷物不熟”,如“饥荒”、“饥馑”等;现均简化为“饥”。 5.汇汇滙 着作方式和版本类型中一般用“汇”字,不用“滙”字。书名等处照录即可。“汇”是它们的简化字。 6.发发发 古时,“发fā”与“发fà”是两个字,“毛发”,“发”的繁体作“发”。 7.达达逹 “达”与“逹”:中间有三横是对的。“达”的繁体字

感受汉字之美作文

感受汉字之美作文 从小到大,我多次听到或看到外国人夸赞中国的文字,他们中有很多人来到中国学习汉字,而学习的原因是他们认为汉字是种古老而又美丽的文字。 如今,各种各样的汉字比赛如雨后春笋般的出现,这些节目旨在唤醒人们学习汉字的热情,让那些平时只停留在古籍中的文字真正地走入我们日常的生活,让它们活起来。 有时间,我们如果能轻轻地翻开词典,或许就会发现一些生僻汉字。而当我们在读过意思之后,就会发现汉字的形态与含义的完美结合,这或许就是汉字美的根源。我们在初中课本上学过“葳蕤”一词,这两个字全带有草字头,一看就知道是描绘草木的,而它形容的是草木茂盛的样子。这个词或许生活中并不常用,就算知道的人也不知道该怎样去用,但一看它,闭上双眼,在脑海中就会浮现这样的一幅画面:在一片旷野之上,一只猪(就是“蕤”中的“豕”)在草丛间奔跑,而这是一片生机勃勃的景象。正当我沉浸在这派富有生机的画面时,我闻到了远处飘来的花香,这有让我想到了“搴芳”一词,于是我从旁边的花丛间轻轻地采摘了一株花草。跑过这片旷野,我望到了远处的山坡上,有一座小亭,只见上面有两个人在对酒畅饮,还没等接近小亭,就闻到了飘来的酒香,我问道:“你们是不是在品尝香

醪?”“不是,就是普通的酒。”睁开双眼,回到了现实,原来几个词语就能构成一幅美好的画面。 还有一部分汉字,如果拆开,那么它们就是现在的常用字,如果放在一块儿,就或许成为了一个生僻的词汇。而这种美,可以称之为一种冷酷之美。比如“猬集”,指的是事情繁多而集中,虽然我们都认识这两个字,并且看了这个词后就能体会到这个词的含义,但它的确是一个让人感到陌生的词。 汉字的美还是一种神奇的美,其中很多的成语就能完美地体现。那一次,我翻开词典查阅一个不认识的词语,指尖在翻书时停住了,眼前出现了一个令人感到神奇的词--魑魅魍魉,只见它们都带了个“鬼”字旁,这引起了我极大的兴趣。于是我查阅了一下这个词,原来“魑魅”和“魍魉”都是古代人们对于怪物的称呼,本来“鬼”字就能带给人们以神秘的感受,在一看笔画,就能在人们的脑海中出现“鬼怪纵横”的画面。诸如这样的词,还有“江河湖泊”,这几个字都同样带有三点水,本来三点水就能带给人们水的感受,更何况是四个含有三点水的字,让人能够轻松地联想到川流不息,河流纵横的景象。或许汉字的魅力在于人们一看到它,就能联想到相应的事物,让人 __领悟其中的含义。

汉字繁简转换的对应关系

汉字繁简转换的对应关系 本文是关于汉字繁简转换的对应关系,感谢您的阅读! 汉字繁简转换的对应关系中国大陆地区从60年代开始全面使用简化字,而台港澳地区以及其他华人华语社区依然使用繁体字。此外,在古籍出版、古汉语教学研究以及某些对外交往中,仍然使用繁体字。汉语繁简并存这一客观情况,对汉字的繁简文本转换提出了要求。在汉字繁简转换的过程中,有一些问题不容回避,有一些难题需要解决。 由于不能正确进行汉字繁简转换,曾经造成许多汉字使用的混乱和错误。下面是从简体字转换为繁体字时经常会出现的错误:以上错误既可能在手工转写、转排时出现,也可能在计算机繁简字体自动转换时出现。造成这种错误的原因大致有三个:一是不了解汉字发展演变过程中因音义不同而造成的字型分化;二是把古已有之、同时并存的两个汉字误以为是简单的繁简对应关系;三是计算机依据单字一对一原则进行汉字繁简自动转换,造成对汉字繁简的简单化处理。事实上,繁体字和简体字之间并非简单的一一对应关系,而是既有“一对一”的情况,又有“多合一”的情况。 其中,“一对一”的情况有两种: 一是繁简同形,无字形变化,即:A→A。如:中→中 “多合一”的情况也分两种: 一是几个繁体汉字简化后合为另外一个笔画数有所减少的新造字,即:

A1→AA2→AAn→A 二是几个繁体字简化后合为其中之一,不再另造新字,即: A→AA1→AA2→AAn→A 又如:后(皇后)→后後(先後)→后 “一对一”的情况中,第一种(A→A)繁简同形,不存在转换的问题。第二种(A1→A)繁简完全一一对应,转换也不成问题。 “多合一”的情况比较复杂,繁简转换中往往产生错误。下面是以国家语委1988年制定的《现代汉语通用字表》为依据,对表中7000个汉字中涉及到繁简转换“多合一”情况的汉字进行的整理和归类。 一A1→AA2→AAn→A 4.匯(匯合)→汇彙(詞彙)→汇5.獲(捕獲)→获穫(收穫)→获 6.儘(儘管)→尽盡(盡力)→尽 7.歷(經歷)→历曆(日曆)→历 8.簽(簽名)→签籤(求籤)→签 9.縴(qiàn縴夫)→纤纖(xiān纖細)→纤 10.壇(文壇)→坛罎(酒罎)→坛 11.團(團結)→团糰(湯糰)→团 12.須(必須)→须鬚(鬍鬚)→须 13.髒(骯髒)→脏臟(内臟)→脏 14.隻(zhī隻身,一隻鳥)→只祗(祗能)→只 15.鐘(鐘錶)→钟鍾(鍾情)→钟

繁体字转换表

繁体字转换表 A 皑(皚)嗳(噯) 蔼(藹) 霭(靄) 爱(愛) 暧(曖) 碍(礙)谙(諳) 鹌(鵪) 暗(闇)肮(骯)袄(襖) 鳌(鼇)袄(襖) B 坝(壩)罢(罷)摆(擺) 败(敗) 颁(頒) 板(闆)办(辦)绊(絆)帮(幫) 绑(綁) 谤(謗) 镑(鎊) 龅(齙) 饱(飽) 宝(寶)鸨(鴇) 报(報) 鲍(鮑) 贝(貝) 狈(狽) 备(備) 辈(輩) 惫(憊) 呗(唄) 绷(繃)笔(筆)币(幣)毕(畢) 闭(閉) 毙(斃) 边(邊) 编(編) 贬(貶) 变(變、変) 辩(辯) 辫(辮)标(標) 镖(鏢) 表(錶) 别(彆) 鳖(鱉) 瘪(癟)宾(賓)傧(儐) 滨(濱) 缤(繽) 槟(檳) 膑(臏) 摈(擯) 殡(殯) 鬓(鬢) 饼(餅) 拨(撥)饽(餑) 驳(駁) 铂(鉑) 卜(蔔) 补(補) 布(佈) C 才(纔) 财(財) 参(參) 残(殘) 蚕(蠶) 惭(慚) 惨(慘) 灿(燦) 仓(倉) 苍(蒼) 沧(滄) 舱(艙) 厕(廁) 侧(側) 测(測) 恻(惻) 层(層) 锸(鍤) 诧(詫) 钗(釵) 掺(摻) 搀(攙) 禅(禪) 蝉(蟬) 缠(纏) 谗(讒) 婵(嬋) 产(產) 铲(鏟) 阐(闡) 忏(懺) 颤(顫) 长(長) 肠(腸) 尝(嘗) 偿(償) 厂(廠) 场(場) 伥(倀) 畅(暢) 车(車) 彻(徹) 尘(塵) 陈(陳) 衬(襯) 称(稱) 蛏(蟶) 诚(誠) 惩(懲) 乘(乗) 撑(撐) 痴(癡) 驰(馳) 迟(遲) 齿(齒) 炽(熾) 冲(衝)

虫(蟲) 宠(寵) 绸(綢) 筹(籌) 踌(躊) 丑(醜) 出(齣) 刍(芻) 锄(鋤) 雏(雛) 础(礎) 储(儲) 处(處) 触(觸) 传(傳) 疮(瘡) 闯(闖) 创(創) 怆(愴) 锤(錘) 纯(純) 莼(蓴) 唇(脣) 鹑(鶉) 绰(綽) 辍(輟) 词(詞) 辞(辭) 赐(賜) 苁(蓯) 聪(聰) 冲(衝) 从(從) 丛(叢) 撺(攛) 蹿(躥) 窜(竄) 锉(銼) 错(錯) D 哒(噠) 达(達) 鞑(韃) 带(帶) 贷(貸) 担(擔) 单(単、單) 殚(殫) 掸(撣) 胆(膽) 惮(憚) 诞(誕) 当(當、噹) 裆(襠) 铛(鐺) 挡(擋) 党(黨) 荡(蕩) 档(檔) 导(導) 岛(島) 捣(搗) 祷(禱) 邓(鄧) 灯(燈) 籴(糴) 敌(敵) 涤(滌) 诋(詆) 谛(諦) 缔(締) 递(遞) 颠(顛) 巅(巔) 癫(癲) 点(點) 电(電) 垫(墊) 淀(澱) 钓(釣) 谍(諜) 钉(釘) 顶(頂) 订(訂) 冬(鼕) 东(東) 冻(凍) 栋(棟) 动(動) 斗(鬥) 窦(竇) 独(獨) 读(讀) 渎(瀆) 犊(犢) 牍(牘) 椟(櫝) 黩(黷) 笃(篤) 镀(鍍) 断(斷) 缎(緞) 锻(鍛) 队(隊) 对(對) 吨(噸) 钝(鈍) 顿(頓) 夺(奪) 铎(鐸) 堕(墮) (嶋) (闘) E 讹(訛) 鹅(鵝) 额(額) 轭(軛) 恶(惡、噁) 饿(餓) 谔(諤) 鳄(鱷) 儿(兒) 尔(爾) 迩(邇) 饵(餌) 贰(貳) F 发(發、髮) 罚(罰) 阀(閥) 矾(礬) 烦(煩) 贩(販) 饭(飯) 范(範) 访(訪) 纺(紡) 飞(飛) 诽(誹) 绯(緋) 废(廢) 费(費)

感受汉字之美

汉字不仅积淀着中华民族的睿智,更凝聚着中华民族的灵魂,而且历史悠久,它记录和承载着中华民族的文明。一个汉字一幅画,一个汉字就是一段历史。它的发展演变的过程本身就是中华文明发展的缩影。汉字的出现使我们的祖先告别了荒芜年代,书写了世界上最为古老的文明之一。使我们能够清晰地感受到中华民族的兴衰更替、风云变幻。每个汉字的点、画转折之间,都是历史留下的痕迹,都积淀了我们祖先无数的智慧和财富。 鲁迅先生曾经说过:汉字有三美并且蕴含着智慧。意美可以感染我们的心灵,音美可以愉悦我们的耳朵,形美可以闪亮我们的眼睛,而汉字的智慧是可以育人。汉字的间架结构,点、撇、折、捺形成了汉字的形美。从变化的四声,抑扬顿挫中我们领略着其音色之美;而汉字的意义又给人们带来了丰富的想象,而智慧是我们育人的根本。汉字像一群活泼可爱的孩子在纸上玩笑嬉戏,像一朵朵美丽多姿的鲜花愉悦我们的眼睛。有人说:汉字其实是长眼睛的,她观察、再现、描摹着这个世界;汉字也是有耳朵的,她倾听、接纳、记录着这个世界。这是对汉字多么形象而又生动的描摹啊﹗ 著名的学者罗丹曾经这样说过:生活中到处都是美,只是缺少发现美的眼睛。你们看:汉字它有坠石之势的点、肩挑昆仑的横、如剑出鞘的撇、一柱擎天的竖等汉字笔画的神韵。汉字之美,还美在她只对真正爱她、懂得撩开她神秘的人。你看成千上万个汉字就像一个个小魔块,在语言大师的“点化”下,时而成了惊世骇俗的不朽巨著,时而成了清新隽永的美文,时而是浅吟低唱,时而是疾风骤雨,时而是行云流水,时而是欲说还休……汉字的形与义有着千丝万缕的联系,让人展开无穷无尽的遐思:“笑”字,活泼可爱;“哭”字,愁眉苦脸;“巍峨”,山的高大顿显在眼前;“妩媚”,少女的娇颜潜入心底。 汉字具有丰富的文化内涵。它们可不是僵硬的符号,而是有着独特性格的精灵。你听汉字的趣味对话:“比”对“北”说:夫妻一场,何必闹离婚呢!“巾”对“币”说:你戴上博士帽,也就身价百倍了。“尺”对“尽”说:姐姐,结果出来了。你怀的是双胞胎。看,汉字多像一个个有灵性的精灵。 汉字是中华民族文化的表征,是民族精神的体现。我们应该亲近汉字、亲近母语充分享受汉字带来的美,让心灵在美中得到熏陶。汉字是音、形、义的结合体,这是世界上任何一个国家的文字所无法比拟的,几乎所有的老外都感到中国字难学,单凭这一点就足以让中国人自豪,为什么中国人学得来而他们学不来呢?汉字,不但表音,而且表意,词汇之多,连词海都容纳不下。而且它还随着社会的进步、科学的发展,信息的传播,新词还会不断地被创造出来,它真是无穷无尽!妙不可言! 汉字是华夏民族几千年的文化瑰宝,是我们终身的良师益友,每个人的精 神家园。让我们用自身的行动来维护汉字,让我们共同说一声:我爱你,汉字! 1

常见繁体字错误汇总(整理打印版)

. 繁体电子书稿易错字举例(增扩版) 在鲍国强先生基础上增扩 简体字由繁体字演变而来。但有些在古代分别有不同义和形的繁体字却归并成同一个简体字,所以繁体字和简体字并不是简单的一一对应关系。把这些简体字转变为繁体字时很容易出错。在繁体字电子书稿中,这些字就更容易被疏忽了。其产生差错的原因:或由五笔字形输入(字形相近)有误,或是输入法字表选择有误(眼误、手误),或因简繁字自动转换不准确(该转的不转或不该转的转了),或缘于字义理解偏差(没查核准确),或校对不细(漏了过去)等。现据有关校对记录整理了若干组容易出错的字,分为笔画简化、形义合并、异体统一、形义近误和特殊情形五类,每类中按各组首字笔画为序略加说明和举例,供同行审校时参考。 一、笔画简化 1.厂廠 两字本无关联,因“廠”简化为“厂”,就与古时的“厂”(音hǎn,山崖边的石洞)相混。古时之“厂”亦读ān。古籍中“厂”照录即可,不能转为“廠”。如撰《恕堂诗》的(清)宫鸿厂、《晉石厂叢書》等。 2.历曆歷

“曆”与“歷”应注意区分。如“万曆”、“弘曆”、“时宪曆”与“经歷”、“歷下”等的区别,应重点校对,如《永曆紀事》、《歷代帝王法帖釋文考異》、《乙酉日曆》、《歷城縣誌》等。“历”是它们的简化字。 3.只隻祇衹 “只”有两读:读zhī有“单独的、量词”的意思,其繁体为“隻”,如“隻言片语”、“隻身”等;读zhǐ有“副词表示限于某个范围、仅有”的意思,其繁体为“衹祇”,如“衹许”等。 4.饥飢饑 “飢”是“饿”的意思,如“充飢”、“如飢似渴”等;“饑”则指“谷物不熟”,如“饑荒”、“饑馑”等;现均简化为“饥”。 5.汇彙滙 著作方式和版本类型中一般用“彙”字,不用“滙”字。书名等处照录即可。“汇”是它们的简化字。 6.发發髮 古时,“发fā”与“髮fà”是两个字,“毛髮”,“发”的繁体作“發”。 7.达達逹 “達”与“逹”:中间有三横是对的。“达”的繁体字是“達”;“逹”是“達”的讹字。因电脑字库有“逹”字,2

传承中华文化感受汉字之美

传承中华文化感受汉字之美 汉字是中华民族文化与文明的载体,是最有生命力的一种语言,汉字形美如画,音美如歌,意美如诗,以图像为基本形态,实现了字形字义相统一。汉字识字教学是小学阶段一切知识学习的基础,更是小学语文教学的重点和难点。大量的汉字要在小学低年级阶段学会,枯燥、乏味的识字过程降低了孩子的学习兴趣,识字效果也大打折扣。怎样才能做到使孩子对枯燥的汉字教学产生浓厚的兴趣,在识字、写字过程中感受到汉字之美呢?在信息化高速发展的今天,汉之星汉字教学给我们带来了一缕春风。 1.识字中感受汉字灵性美 汉字是汉文化表述工具,因而理解汉字要从文化入手, 文化的理解离不开文化"溯源" ,只有在一个历史的场景中才能理解文化。中国的每个汉字,都有来源。懂得字的来源,才能更规范化地使用和书写汉字,把字写得准确合理而且好看,克服汉字混乱和写错别字的现象。我们在识字教学中利用汉之星平台上的字源功能,引导学生识字,符合学生现有阶段识字认字的能力。利用字源识字的方法,就是将我们正在学习和使用的汉字,从图画式的甲骨文,到线条化的金文、小篆、汉隶、草书,直到现在的简化字,引导孩子观察汉字由图画到线字,直观的有一个简单的了解,以帮助学生快速的识字

认字。 在备课时,每一课,我根据教学的需求,选择几个有代表的,有趣味的汉字来进行字源识字。在教学"鼠" 时,我打开汉之星平台,利用字源来进行教学。当学生看到一只小老鼠偷吃粮食的动画时,马上情绪高涨,兴致勃勃地盯着大屏幕。汉之星字源形象地展示了"鼠" 由动画到甲骨文,到金文,再到篆书,到现在的楷书的演变过程。通过观看字源,有的孩子说:"老师,' 鼠'的最后一笔是老鼠的尾巴。"有的说:"下面那四个点是老鼠的四只小爪子。"有的说:"上面'臼'里面的两横是老鼠的牙齿。"还有的说:" 看到这个字,我仿佛看到一只老鼠在偷吃粮食。"形象的演示,使" 鼠"在孩子们的心中活起来了,此刻,它已不再是一个静态的方块字,而变成了一个充满灵性的、具有动态美的符号,识字教学也变得充满活力。小试牛刀后,孩子们对资源教学的喜爱程度令我欣喜,孩子们为了到看字源,在课堂上总是要控制一些了,专注一些。 汉之星"字源识字"方法的运用,为识字教学注入活力, 让汉字充满了灵性,更好地提高了识字效率。 2.写字中感受汉字形体美汉字是中华文明的标志,也是传承中华文化的工具。" 横平竖直写汉字" 与" 堂堂正正做真人" 被放在了同等重要的位置。在网络时代,我们不能"握着鼠标忘了笔杆" ,汉字不能沦为失落的文明。新课标规定

繁体字和简体字转换容易出错的字总结

简体转繁体 =============================辨识区============================ (一)“只”读zhi1,作量词时作“隻”(区别于“双”的繁体“雙”),读zhi3时作“衹”、“只”均可,“衹”更为正式。 (二)“后”在“皇后、太后、皇天后土”等义时作“后”,其余诸如“前后、以后”等时作“後”。特别注意“后宫”特指“皇后居住的宫殿”时写作“后宮”,而常指的后宫则写作“後宮”。 (三)“杨”的繁体是“木+昜(昜)”,而不是“木+易”,区别于锡、赐等字。汤、畅、肠、荡、觞等字类推,另外提醒“伤”作“傷”,“阳”作“陽”。 (四)“制”在仅仅含“制造”义时作“製”,其余作“制”。例词:制定計劃,制止,制裁,限制,社會主義制度,制服,全日制;製作,監製,精製,製版。 (五)“尽”读jin3时作“儘”,读jin4时作“盡”。 (六)“干”的繁体有三个:干、乾和幹。读gan4时一律作“幹”,读gan1时,如有相对于湿之义作“乾”,其余均作“干”,另外“干妈”作“乾媽”。例词:干擾,干預,干支,干犯,干涉,干城,干戈,干將劍;主幹,幹部,幹練,幹活;乾淨,乾燥,牛肉乾,烘乾,乾脆。 (七)“范”作姓氏时作“范”,其余均作“範”。“余”作姓氏或指本人时作“余”,其余均作“餘”。 (八)“什么”的繁体可以写作什麼、什麽、甚麼、甚麽都可以,建议使用“什麽”。 (九)“杆”读gan1时作“杆”,读gan3时作“桿”。例词:大腸桿菌,槓桿原理,球杆,欄杆。

(十)“为”的可以作“為”或者“爲”。前一个是港澳繁体,后一个是台湾正体。 (十一)“台湾”的正式繁体应该是“臺灣”,而现在港澳台地区通用的写法是“台灣”(官方文件仍是“臺灣”)。注意“臺”的写法。 (十二)“冲”有“向前冲”义时作“衝”,其余像冲凉,冲剂,相冲等作“沖”,另外常见地名也作“沖”,如“沖繩島”。 (十三)“鸟”作“鳥”(鳥),不光只是把丶换成横,还要在中间加一横。另外“凫”的作“鳧”(中间有四点),而“枭”作“梟”(中间没有四点)【这些加或不加四点是现行写法,更古老文字中均有四点】。而“乌”则作“烏”(烏)。 (十四)“于”作“於”,但港澳繁体中,“于”作为姓氏时仍作“于”,其余作“於”。 (十五)“纟”部的繁体除了第三笔要变为三点外,上面还要变成“幺”,即糹,也可作“糸”(去掉倒数第二笔的勾)。 (十六)“变”作“變”(變),下面是“攵”,而不是“又”或者“夂”。上面是“糹”+“言”+“糹”。注意不能把“弈”、“奕”等上部是“亦”的字也类推成“變”字头。 (十七)“采”除了喝采、神采奕奕,神采飞扬、丰采、文采等名词时作“采”,其余均作“採”(即动词),如採購、採訪、採花、採礦。 (十八)“致”除了“标致”“细致”和“精致”三词作“緻”外,均作“致”。 (十九)“隽”作“雋”,“镌”等类推,但“携”作“攜”(左边扌,上面山,中间隹,下面冏)。 (二十)“帘”除了“酒帘”(即旗子的意思)义作“帘”外均作“簾”。

java 中文繁简体转换工具框架 opencc4j 入门介绍

opencc4j Opencc4j支持中文繁简体转换,考虑到词组级别。 Features 特點 ?嚴格區分「一簡對多繁」和「一簡對多異」。 ?完全兼容異體字,可以實現動態替換。 ?嚴格審校一簡對多繁詞條,原則爲「能分則不合」。 ?詞庫和函數庫完全分離,可以自由修改、導入、擴展。 ?兼容 Windows、Linux、Mac 平臺。 ?支持 jdk1.7(v1.0.3) ?支持自定义分词(v1.1.0) V1.2.0 版本新特性 ?支持判断单个字(词)是否为简体/繁体 ?支持返回分词后的列表信息 ?支持返回字符串中简体/繁体的列表信息 测试代码 见 test 文件夹。 可以用来学习相关方法的使用方式。 快速开始 maven 引入 com.github.houbb opencc4j 1.2.0 转为简体 String original = "生命不息,奮鬥不止"; String result = ZhConverterUtil.convertToSimple(original);

结果为 生命不息,奋斗不止 转为繁体 String original = "生命不息,奋斗不止"; String result = ZhConverterUtil.convertToTraditional(original); 结果为 生命不息,奮鬥不止 其他支持 上述两个方法都默认使用的花瓣分词,都有第二个参数,是否启用花瓣分词。如果不启用,则默认使用普通的一个 char 作为一个转换的对象。(不建议,唯一的优势性能好一点,但是准确性不行) /** *转换为简体 * @param original 原始内容 *@param huabanSegment 是否花瓣分词 *@return 转换后的内容 */ public static String convertToSimple(String original, boolean huabanSeg ment); 引导类方式 为什么需要引导类 v1.1.0 之后引入了类ZhConvertBootstrap 可以提供更加灵活的功能,支持 fluent 语法。 对比静态方法的优势 工具类的静态方法使用起来很方便,但是不是很利于拓展变化。 后期想添加更多的方法,就会发现静态方法开始有些不够优雅,方法数量也会变得较多。所以自定义分词没有暴露静态方法, 建议用户根据 ZhConvertBootstrap 灵活创建属于自己的工具类。 引导类使用案例 和工具类类似。

感受汉字之美知识讲解

感受汉字之美

汉字不仅积淀着中华民族的睿智,更凝聚着中华民族的灵魂,而且历史悠久,它记录和承载着中华民族的文明。一个汉字一幅画,一个汉字就是一段历史。它的发展演变的过程本身就是中华文明发展的缩影。汉字的出现使我们的祖先告别了荒芜年代,书写了世界上最为古老的文明之一。使我们能够清晰地感受到中华民族的兴衰更替、风云变幻。每个汉字的点、画转折之间,都是历史留下的痕迹,都积淀了我们祖先无数的智慧和财富。 鲁迅先生曾经说过:汉字有三美并且蕴含着智慧。意美可以感染我们的心灵,音美可以愉悦我们的耳朵,形美可以闪亮我们的眼睛,而汉字的智慧是可以育人。汉字的间架结构,点、撇、折、捺形成了汉字的形美。从变化的四声,抑扬顿挫中我们领略着其音色之美;而汉字的意义又给人们带来了丰富的想象,而智慧是我们育人的根本。汉字像一群活泼可爱的孩子在纸上玩笑嬉戏,像一朵朵美丽多姿的鲜花愉悦我们的眼睛。有人说:汉字其实是长眼睛的,她观察、再现、描摹着这个世界;汉字也是有耳朵的,她倾听、接纳、记录着这个世界。这是对汉字多么形象而又生动的描摹啊﹗ 著名的学者罗丹曾经这样说过:生活中到处都是美,只是缺少发现美的眼睛。你们看:汉字它有坠石之势的点、肩挑昆仑的横、如剑出鞘的撇、一柱擎天的竖等汉字笔画的神韵。汉字之美,还美在她只对真正爱她、懂得撩开她神秘的人。你看成千上万个汉字就像一个个小魔块,在语言大师的“点化”下,时而成了惊世骇俗的不朽巨著,时而成了清新隽永的美文,时而是浅吟低唱,时而是疾风骤雨,时而是行云流水,时而是欲说还休……汉字的形与义有着千丝万缕的联系,让人展开无穷无尽的遐思:“笑”字,活泼可爱;“哭”字,愁眉苦脸;“巍峨”,山的高大顿显在眼前;“妩媚”,少女的娇颜潜入心底。 汉字具有丰富的文化内涵。它们可不是僵硬的符号,而是有着独特性格的精灵。你听汉字的趣味对话:“比”对“北”说:夫妻一场,何必闹离婚呢!“巾”对“币”说:你戴上博士帽,也就身价百倍了。“尺”对“尽”说:姐姐,结果出来了。你怀的是双胞胎。看,汉字多像一个个有灵性的精灵。 汉字是中华民族文化的表征,是民族精神的体现。我们应该亲近汉字、亲近母语充分享受汉字带来的美,让心灵在美中得到熏陶。汉字是音、形、义的结合体,这是世界上任何一个国家的文字所无法比拟的,几乎所有的老外都感到中国字难学,单凭这一点就足以让中国人自豪,为什么中国人学得来而他们学不来呢?汉字,不但表音,而且表意,词汇之多,连词海都容纳不下。而且它还随着社会的进步、科学的发展,信息的传播,新词还会不断地被创造出来,它真是无穷无尽!妙不可言! 汉字是华夏民族几千年的文化瑰宝,是我们终身的良师益友,每个人的精神家园。让我们用自身的行动来维护汉字,让我们共同说一声:我爱你,汉字! 收集于网络,如有侵权请联系管理员删除

感受汉字之美优秀作文-我爱汉字优秀作文

感受汉字之美优秀作文|我爱汉字优秀作文 中国之美,美在鬼斧神工的山光湖色没在贯彻千年的礼仪,没在民族间的融合,更美在神秘的汉字之中。 感受汉字之美,就是感受中国历史的变迁。汉字,作为文明的起源,本身就有非凡的魅力。 汉字之美在于其规律,易学的音。记得年幼时与父亲一起识字,声母,韵母来回颠倒的组合竟构成了中国语言的脉络。父亲教我人,举一反三,我就认得了认让从从丛怂,汉字之音,有特殊的旋律——押韵令文章或诗赋朗朗上口。再大了些,父亲拿回来一本唐诗300首,初读李白举头望明月,低头思故乡。总觉不如床前明月光,疑是地上霜,好看好背。皆因前两句押韵的音,不论是读或是背,都仿佛有奇妙能力似的。 汉字之美还在于其形象,象形。我们说暮,太阳落在草堆里,可不就是傍晚时分,太阳落山?笔画复杂,可因为形象,变得好玩儿。我曾追问父亲,为什么给我取这样的名字,父亲的解释让我觉得文字的形可以包含爱与期望;四月,大旱,故有三点水,属羊,食草,故有草字头,父亲是希望我健康成长,才取了一个既带水又带草的名字。这份美好的爱与期盼,由汉字来成全。 汉字的音形,皆可融会贯通。其中最常见的是象形与象音。山,三个竖有长有短,便是山峦的叠嶂起伏。兽,有两只耳朵,

一张口,又在田野里践踏,一联想,兽的形象便在脑中浮现。歪,直为正,不正就是斜。歪,这两个字组合在一起的文字别具魅力。 汉子之美,美在其义。故时曹操得了一盒酥饼,提笔写了“一合”,众人不明,唯有杨修深谙中文之巧义。一人一口即为合。汉字之义在于理解。邹忌讽谏,大王一字“善”结束了会谈。“善”字既表现了大王的认可与赞同,又表现了大王广开言路的决心。古代人们皆愿有一子一女承思膝下,皆因一个“好”字,美好幸福之意。汉字的义缔造了中国语言独特的魅力,令人浮想联翩,回味无穷。 感受汉字之美,其音悦耳,其形优美,其义深重,这是独特的美,是独一无二的宝藏。

古今字异体字繁体字

附言:拙文是笔者多年地教学讲稿,最大地特点是应用数学地公式表明和概述古今字、异体字、繁简字地特点和关系,搜集例证很翔实. 摘要:本文比较细致深入地讲述了古今字·异体字·繁简字地定义、特点、辨别方法、发展变化情况、容易出现地误解和偏差,以及应注意地问题.这是学习古汉语地基础知识,解决一些学生不认识繁体字地困难,应很好地认识和理解此文,才能提高我们掌握文字地水平和学好古代汉语.拙文有自己地见解,并用数学公式表明这三种字地特点.多年来,本讲稿曾多次作为教案和刻印给学生参考,得到不少专家学者和广大学生地称赞..资料个人收集整理,勿做商业用途 关键词:古今字异体字繁简字 一、古今字 古今字,是指在某一种意义上先后产生地书写形体不同地字.一个字分化成两个或两个以上地对应字,分化字和原来字出现地时间有先后,代表地义项有多少,这种文字现象就叫做古今字.古今字,是古字和今字地省称,古字是指古代使用地字,如甲骨文、金文、籀文;今字是指由汉隶一直通行到今天还在使用地字,如汉隶、宋体、楷体等字.资料个人收集整理,勿做商业用途 (一)古今字产生地原因 汉字在发展变化地过程中,随着书写工具地发达,人类社会生活和科学文化地进步,人们逐渐要求文字在记录语言上更精确细致,尽量减少文字兼职过多而造成歧义地现象,因而为适应这种形势地需要,便另造了一批新字,尽量以求一字一职,更好地清楚地记录语言,便出现了古今字.例如“贾”是一个古字,它地本义是“商贾”地“贾”(ǔ),引申为“物贾”地“贾”(à)使用,甚至读音也变了,为了便于区分,人们便另造了一个新字“價”(à)来代表这个引申地意义,形成了古今字“贾價”.又如“说”在先秦具有“解说”、“喜悦”等意义,为了加以区别,人们便造了一个从竖心旁地“悦”来加以区分这两个不同地意义.总之,古今字地产生主要是通假字、同源字地逐渐分化、孪生,以及多义字在书写形式上地分工所造成地,这是一种文字繁化地趋势.设若古字形用“”代表,它有多个义项、、……,新字形为“”、“”等,那么用一个数学公式来表达即为:(、、……)=() +()+() ……资料个人收集整理,勿做商业用途 (二)常见地古今字 古今字实际上也是一种使用有时间先后地异体字,是语言中地同词异形现象.阅读古书时,常见地古字是该词早期地写法,故文字学家又称为“初文”;今字是根据所要代表地意义在古字上添加偏旁造成地,又称为“后起字”.大多数古今字都是一对一地,例如(古字在前,今字在后):大太、弟悌、閒間、說悅、孰熟、竟境、赴訃、馮凴、賈價、屬囑、伯霸、皃貌、康糠、采採、云雲、責債、禽擒、知智、田畋、反返、錯措、戚慼、景影、莫暮、嘗嚐、縣懸、取娶、道導、章彰、虛墟、卷捲、舍捨、斂殮、沽酤、自鼻、其箕、然燃、要腰、奉俸、展輾、原源、昏婚、州洲、內納、見現、志誌、益溢、暴曝、契鍥、冥暝、合盒、兩輛、尊樽、陳陣、為偽、名銘、隊墜,等等.资料个人收集整理,勿做商业用途有地古字兼职过多,因此同它对应地今字不止一个.例如:敝蔽弊、厲礪勵、或域國、豈愷凱、共供拱恭、辟避嬖僻闢,等等.资料个人收集整理,勿做商业用途还有一种情况也得注意:有地古字产生今字以后,随着时间地推移,今字又会产生较晚地今字,可称为“再今字”或“再后起字”,形成古今字地一种递变关系.如“猒厭”是古今字,稍后地“厭饜”又成为古今字.“气氣餼”、“或域國”也是这样地关系.资料个人收集整理,勿做商业用途 (三)古今字地造字关系 形声字地构字能力最强,故大部分地今字都是用形声字地方法造成地.归纳起来,今字地造字方法大致有如下几种:资料个人收集整理,勿做商业用途

相关文档