文档库 最新最全的文档下载
当前位置:文档库 › 干货分享之达梦数据库汉字存储知多少

干货分享之达梦数据库汉字存储知多少

干货分享之达梦数据库汉字存储知多少
干货分享之达梦数据库汉字存储知多少

达梦数据库汉字存储知多少

1、前言

当我们在DM7中处理汉字的时候,经常会用到varchar的数据类型。但是,根据数据库初始化时的参数不同,varchar中能存储的汉字的个数也不尽相同。那么在每种情况下,字符的存储有什么区别呢?本文就将带大家一探究竟

2、参数简介

在使用DMINIT初始化数据库的时候,我们有以下这两个跟字符集有关的参数,UNICODE_FLAG和LENGTH_IN_CHAR。

UNICODE_FALG:此参数表示了数据库中所有数据的字符集,包括数据字典的字符集。需要注意的是,数据库一旦初始化完成,字符集就将无法修改。我们可以使用select unicode来查询当前数据库的字符集种类,0代表

gb18030,1代表UTF-8。

LENGTH_IN_CHAR:此参数决定了,数据库中的VARCHAR类型对象的长度是否以字符为单位。取值为1则设置为以字符为单位,将存储长度值按照理论字符长度进行放大。取值为0则所有 VARCHAR 类型对象的长度以字节为单位。

同样,如果我们采用DBCA助手来创建数据库,也可以在初始化参数那一步来修改这两个参数的值。

3、测试

根据Unicode和length_in_char的取值不同(0或1),我们总共初始化四个不同的数据库,针对不同的情况进行测试。

本文演示环境: DM Database Server x64 V7.1.6.48-Build(2018.03.01-89507)ENT

3.1、UNICODE_FLAG=0,LENGTH_IN_CHAR=0

根这种情况是初始化数据库时的默认配置,即字符集为gb18030,varchar 长度以字节为单位。相关测试如下

SQL> create table test(name varchar(3));

操作已执行

SQL> insert into test values('测');

影响行数 1

SQL> insert into test values('测a');

影响行数 1

SQL> insert into test values('测试');

[-6169]:列[NAME]长度超出定义.

我们知道,gb18030下一个汉字或者全角字符一般需要占用两个字节。所以varchar(3)型可以插入一个汉字加上一个半角字符,但是无法插入两个汉字。

3.2、UNICODE_FLAG=1,LENGTH_IN_CHAR=0

字符集为utf-8,varchar长度以字节为单位,相关测试如下:

SQL> create table test(name varchar(3));

操作已执行

SQL> insert into test values('测');

影响行数 1

SQL> insert into test values('测试');

[-6169]:列[NAME]长度超出定义.

SQL> insert into test values('测a');

[-6169]:列[NAME]长度超出定义.

Utf-8的情况下,一个汉字一般需要占据三个字节,所以varchar(3)只能插入一个汉字。

3.3、UNICODE_FLAG=0,LENGTH_IN_CHAR=1

字符集为utf-8,varchar长度以字符为单位,测试如下

SQL> create table test(name varchar(3));

操作已执行

SQL> insert into test values('测试');

影响行数 1

SQL> insert into test values('测试姓');

影响行数 1

SQL> insert into test values('测试姓名');

[-6169]:列[NAME]长度超出定义.

我们知道在length_in_char=1的情况下,varchar的实际可存储字节数会按一定比例放大。所以在使用gb18030的时候,varchar(3)实际可以存储3个汉字,也就是3*2=6个字节的数据。

3.4、UNICODE_FLAG=1,LENGTH_IN_CHAR=1

字符集为utf-8,varchar长度以字符为单位

SQL> create table test(name varchar(3));

操作已执行

SQL> insert into test values('测试姓');

影响行数 1

SQL> insert into test values('测试姓名');

影响行数 1

SQL> insert into test values('测试姓名a');

[-6169]:列[NAME]长度超出定义.

这里我们会发现一个奇怪的情况,明明设置是varchar(3),为什么可以插入4个汉字呢。这是因为在DM7中数据库实际存储数据是以字节为单位。在

lengtg_in_char=1且字符集为utf-8的时候,VARCHAR类型对象的实际存放的最大长度是VARCHAR类型定义的长度*4字节。也就是说,这里一个varchar(3)的结构可以存放的数据为3*4=12个字节。然而事实上UTF-8中的一个汉字一般只用占用3个字节,所以这里我们可以插入12/3=4个汉字。

4、总结

当LENGTH_IN_CHAR=0的情况下,varchar()的长度是以字节数为单位。这时我们只需要考虑汉字和全角字符所占用字节数,其中gb18030的一个汉字是两个字节,utf-8的一个汉字一般是三个字节。如果插入数据的总字节数大于varchar定义的长度,则会插入失败。

当LENGTH_IN_CHAR=1的情况下,varchar()所能存储的字节数将会按照一定比例扩展。字符集为gb18030时varchar的字节数等于定义长度*2,字符集为utf-8时varchar的字节数为定义长度*4。

达梦数据库安装部署

达梦数据库安装部署文档 一.数据库安装过程 1. Windows环境安装 基本上就是下一步下一步,按照默认安装就好,安装路径根据自己的要求选择。在利用我们的数据库配置助手dbca工具初始化库的过程中,需要将下图红色框选部分改为如图所示即可。详细的安装细节可以参考我们的文档。 注意:页大小除去Clob、Blob等大字段外,数据库中一行记录的所有字段的实际长度的和不能超过页大小的一半; 日志文件的大小数据库redo日志文件的大小(正式环境一般设置为2048); 字符串比较大小写敏感默认为大小写敏感的,根据具体情况进行设置; 建议:在开发环境和测试环境的页大小、字符串大小写敏感这两个参数一 定要保持一致,不然当涉及到用.bak文件还原的时候就会因这两个参数不 一致导致无法还原。 2. Linux环境安装 在中标麒麟的系统中打开一个终端窗口,通过命令:ulimit –a查看,如下图所示: 如果open files这个参数的值为65536表示之前修改过,如果没有修改按照下面的方法进行修改。 Linux系统在安装之前先确认打开文件数的那个参数的设置情况,现在在中标麒麟的操作系统上安装我们DM7数据库,在使用我们的数据库配置助手dbca进行初始化数据库时经常会碰到“打开文件数过多的问题”。

解决办法如下: 用vim打开/etc/profile文件,在该文件最后加上一行ulimit -n 65536,(注意在添加的时候只需添加ulimit –n 65536即可,后面不需要标点符号。)然后重启服务器即可。修改好操作系统的打开文件这个参数后就可以按照下面的安装步骤进行安装了。 详细安装流程如下: (1)确定当前用户是不是root用户(在命令行窗口中输入: who am i),最 好在root用户下安装,否则有可能有些权限不够; (2)进入到我们安装文件所在的目录,并赋予它777权限(命令为:chmod 777 ; (3)执行安装 ./ –i (4)在安装的过程中按照提示一步一步操作,基本上选择默认的就可以了。 只有在时区的选择上注意选择中国的时区; (5)选好之后等待安装过程结束,会有相应的提示信息; (6)初始化库,切入到我们安装目录的bin目录,一般默认安装路径为 /opt/dmdbms/bin, 执行命令./dminit path=/opt/dmdbms/data page_size=16 log_size=2048 case_sensitive=n。当然如果我们能够 直接接触到服务器的话,也可以利用桌面上我们DMDBMS文件夹里面的 client文件夹里面有一个数据库配置助手初始化我们的数据库,使用方 法与Windows平台相同; (7)切入到到我们安装目录的bin目录,一般路径为/opt/dmdbms/bin, 在 该目录下有个dmserverd的文件,用vim打开这个文件后, 把这一行改为如上图所示的情况path=/opt/dmdbms/data/DAMENG/,然后保存退出。 (8)至此我们的数据库就已经安装配置完成了,现在我们可以切入到安装 目录的bin,路径为/opt/dmdbms/bin,执行命令 ./dmserverd start 就

达梦数据库集群选择及介绍

达梦数据库集群选择及介绍 武汉达梦数据库有限公司 2019年9月

版本历史

目录 1 达梦公司介绍 (1) 1.1核心研发能力 (1) 1.2运维保障能力 (2) 1.2.1 保障体系的组织方式 (2) 1.2.2 服务保障流程 (5) 2 数据库集群选择及介绍 (8) 2.1路线规划 (8) 2.2集群种类 (10) 2.2.1 达梦数据守护集群(DataWatch) (10) 2.2.2 达梦读写分离集群(DMRWC) (15) 2.2.3 达梦大规模并行处理框架(DMMPP) (18) 2.2.4 达梦数据共享集群(DMDSC) (23) 3 成熟案例介绍 (28) 3.1国家智能电网调度指挥系统D5000 (28) 3.2南方电网-OS2地级主站系统 (28) 3.3中航信在线事务处理系统 (29) 3.4中国铁建集团财务大共享系统 (29) 3.5海南社保 (30) 3.6南京公安警务平台系统 (30) 3.7江苏监狱管理局项目 (31) 3.8国家发改委-投资审批系统 (31) 3.9国家发改委-信用交换平台 (32)

1达梦公司介绍 达梦数据库有限公司成立于2000年11月,注册资金3637万,为国有控股的大型基础软件企业。其前身是华中科技大学数据库与多媒体研究所,是国内最早从事数据库管理系统研发的科研机构,得到国家各级政府的强力支持,是中国数据库标准委员会挂靠单位,湖北省数据库工程技术研究中心。在北京、石家庄、上海、广州、南宁、西安和成都等地设有分支机构。 达梦公司是国家规划布局内重点软件企业,首批获得国家“双软”认证的高新技术企业,专业从事数据库管理系统研发、销售和服务。公司管理规范,锐意进取,通过了国家保密局“涉及国家秘密的计算机信息系统集成软件单项资质”认证和工业信息化部“计算机信息系统集成资质二级”认证,并通过了国际IS09001质量体系和CMMI软件成熟度模型五级认证,AAA资信。 达梦人经过30年的努力拼搏,在学习、分析国际上众多优秀数据库产品的基础上原始创新,投入上千人年,耗资过亿,开发源代码上千万行,形成了具有完全自主知识产权的DBMS产品系列,先后完成了近80项国家级、省部级的科研开发项目,取得了50多项研究成果,皆为国际先进、国内领先水平,其中30多项获国家、省部级科技进步奖,在国内同行中处于领先地位。 达梦数据库是国内第一家通过国家安全三级认证,国内第一家通过10TB数据库容量测试的数据库产品,也是唯一通过中国人民解放军目前最高级别军B级认证的国产数据库。达梦数据库产品已成功用于我国国防军事、公安、安全、财政金融、电力、水利、审计、交通、信访、电子政务、税务、国土资源、制造业、消防、电子商务、教育等20多个行业及领域,装机量超过10万套,打破了国外数据库产品在我国一统天下的局面,取得了良好的经济效益和社会效益。 达梦数据库(DM)具有完全知识产权,是达梦人近30年的智慧、心力和汗水的结晶,是中国人的骄傲,必将为中国信息化做出贡献。 1.1核心研发能力 达梦数据库历来注重新的技术发展趋势和技术研发工作,工作70%以上人员为技术人员。DM7.0推出后,在国内数据库领域引起了强烈反响。在这一款产品上,达梦推出了目前

达梦数据库安装部署

达梦数据库安装部署集团文件版本号:(M928-T898-M248-WU2669-I2896-DQ586-M1988)

达梦数据库安装部署文档 一.数据库安装过程 1. Windows环境安装 基本上就是下一步下一步,按照默认安装就好,安装路径根据自己的要求选择。在利用我们的数据库配置助手dbca工具初始化库的过程中,需要将下图红色框选部分改为如图所示即可。详细的安装细节可以参考我们的DM7_Install_zh.pdf文档。 注意:页大小除去Clob、Blob等大字段外,数据库中一行记录的所有字段的实际长度的和不能超过页大小的一半; 日志文件的大小数据库redo日志文件的大小(正式环境一般设置为2048); 字符串比较大小写敏感默认为大小写敏感的,根据具体情况进行设置; 建议:在开发环境和测试环境的页大小、字符串大小写敏感这两个参数 一定要保持一致,不然当涉及到用.bak文件还原的时候就会因这两个参 数不一致导致无法还原。 2. Linux环境安装 在中标麒麟的系统中打开一个终端窗口,通过命令:ulimit –a查看,如下图所示: 如果open files这个参数的值为65536表示之前修改过,如果没有修改按照下面的方法进行修改。

Linux系统在安装之前先确认打开文件数的那个参数的设置情况,现在在中标麒麟6.0的操作系统上安装我们DM7数据库,在使用我们的数据库配置助手dbca进行初始化数据库时经常会碰到“打开文件数过多的问题”。 解决办法如下: 用vim打开/etc/profile文件,在该文件最后加上一行ulimit -n 65536,(注意在添加的时候只需添加ulimit –n 65536即可,后面不需要标点符号。)然后重启服务器即可。修改好操作系统的打开文件这个参数后就可以按照下面的安装步骤进行安装了。 详细安装流程如下: (1)确定当前用户是不是root用户(在命令行窗口中输入: who am i), 最好在root用户下安装,否则有可能有些权限不够; (2)进入到我们安装文件所在的目录,并赋予它777权限(命令为: chmod 777 DMInstall.bin); (3)执行安装 ./DMInstall.bin –i (4)在安装的过程中按照提示一步一步操作,基本上选择默认的就可以 了。只有在时区的选择上注意选择中国的时区; (5)选好之后等待安装过程结束,会有相应的提示信息; (6)初始化库,切入到我们安装目录的bin目录,一般默认安装路径为 /opt/dmdbms/bin, 执行命令./dminit path=/opt/dmdbms/data page_size=16 log_size=2048 case_sensitive=n。当然如果我们能够 直接接触到服务器的话,也可以利用桌面上我们DMDBMS文件夹里面的 client文件夹里面有一个数据库配置助手初始化我们的数据库,使用

Unicode汉字编码表

Unicode汉字编码表 1 unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode 对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来编码,看一下Unicode对汉字的编码: ------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯

达梦数据库性能测试软件操作

(1)创建用户benchmarksql/123456789,并开通权限。 (2)./runSQL.sh props.dm sqlTableCreates (3)./runLoader.sh props.dm numWAREHOUSES 10 (4)disql执行sqlSequenceCreate.sql,在数据库管理工具中执行。 (5)./runBenchmark.sh props.dm 备注:编辑props.dm, driver=dm.jdbc.driver.DmDriver conn=jdbc:dm://localhost:5236 user=benchmarksql password=123456789 warehouses=100 terminals=20 //To run specified transactions per terminal- runMins must equal zero runTxnsPerTerminal=0 //To run for specified minutes- runTxnsPerTerminal must equal zero runMins=60 //Number of total transactions per minute limitTxnsPerMin=0 //The following five values must add up to 100 //The default percentages of 45, 43, 4, 4 & 4 match the TPC-C spec newOrderWeight=45 paymentWeight=43 orderStatusWeight=4 deliveryWeight=4 stockLevelWeight=4 warehouses 是仓库建立库,增加内容,服务器一般可以建立100个。 Terminals是终端并发数量,服务器一般是建立20个。 Runmins是运行时间,服务器一般设置2小时。 Measured tpmc是测量每分钟tpmc即tpcc每分钟的吞吐量。按有效tpcc配置期间每分钟处理的平均交易次数测量。单位是tpmc,每分钟系统处理的新订单个数。

达梦数据库DM8集群代理使用手册-D

DM8 集群代理使用手册Service manual of DM8_DCP

前言 概述 本文档主要介绍DM 集群代理的架构、提供的功能、以及如何搭建和使用DM 集群代理。读者对象 本文档主要适用于DM 数据库的: ●开发工程师 ●测试工程师 ●技术支持工程师 ●数据库管理员 通用约定 在本文档中可能出现下列标志,它们所代表的含义如下: 表0.1 标志含义

在本文档中可能出现下列格式,它们所代表的含义如下: 表0.2 格式含义

目录 1DM8 集群代理简介 (1) 2体系架构 (2) 3功能模块管理 (3) 3.1集群配置 (3) 3.2代理管理 (4) 3.3连接池 (5) 3.4登录管理 (5) 3.5语句请求管理 (5) 4接口管理 (6) 4.1添加MPP 站点信息 (6) 4.2清除MPP 站点信息 (6) 4.3设置用户名和密码信息 (6) 4.4获取MPP 配置信息 (6) 4.5手动释放DCP 连接缓存 (7) 5动态视图管理 (8) 5.1V$SESSIONS (8) 5.2V$SYSSTAT (8) 5.3V$DCPINSTS (8) 5.4V$DCP_CONNPOOL (9) 6典型案例 (10) 6.1经典情景一:普通MPP 环境 (10) 6.2经典情景二:MPP 主备环境 (14) 6.3经典情景三:多个DCP 同时提供服务 (32)

1DM 集群代理简介 DM 集群代理(DM CLUSTER PROXY,简称DCP)是达梦数据库公司为其大规模并行处理集群DM MPP 研发的一款具有高效、智能、安全特性的集群代理服务器产品。 DM MPP 是达梦公司研发推出的完全对等无共享式集群,支持多个DM 节点。DM MPP 系统工作起来就像是一台单独的计算机,对外提供统一数据库服务。用户可连接DM MPP 系统内任意一个EP 节点进行数据操作。 DCP 是存在于应用和DM MPP 之间的一个组件。DCP 并不是一个必要组件。但是,用户使用DCP 后,可以大幅提高数据库的使用效率和系统的安全性。具体受益如下: 表1.1 使用DCP 的益处 目前版本的DCP 在使用上存在以下限制: ●不支持通讯加密 ●不支持快速装载工具 ●语句提交后,不支持再次获取结果集 ●DCP 配置仅支持一套MPP 环境

unicode中的中文编码说明

编码表 平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP). 平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP). 平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP). 平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP). 平面4 to 13 (40000–DFFFF)尚未使用 平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP) 平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA) 平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA) 注意1 现在网上大多数用于判断中文字符的是U+4E00..U+9FA5这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等; 2E80-A4CF加上F900-FAFF加上FE30-FE4F。 其中: 2E80-A4CF 包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根 F900-FAFF 中日朝兼容表意文字 FE30-FE4F 中日朝兼容形式 所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF || F900-FAFF||FE30-FE4F 注意2 全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

常用汉字的Unicode码表

包含汉字: 的一是了我不人在他有这个上们来到时大地为子中你说生国年着就那和要她出也得里后自以会家可下而过天去能对小多然于心学么之 都好看起发当没成只如事把还用第样道想作种开美总从无情己面最女但现前些所同日手又行意动方期它头经长儿回位分爱老因很给 名法间斯知世什两次使身者被高已亲其进此话常与活正感见明问力理尔点文几定本公特做外孩相西果走将月十实向声车全信重 三机工物气每并别真打太新比才便夫再书部水像眼等体却加电主界门利海受听表德少克代员许稜先口由死安写性马光白或住难 望教命花结乐色更拉东神记处让母父应直字场平报友关放至张认接告入笑内英军候民岁往何度山觉路带万男边风解叫任金快原 吃妈变通师立象数四失满战远格士音轻目条呢病始达深完今提求清王化空业思切怎非找片罗钱紶吗语元喜曾离飞科言干流欢约 各即指合反题必该论交终林请医晚制球决窢传画保读运及则房早院量苦火布品近坐产答星精视五连司巴奇管类未朋且婚台夜青 北队久乎越观落尽形影红爸百令周吧识步希亚术留市半热送兴造谈容极随演收首根讲整式取照办强石古华諣拿计您装似足双妻 尼转诉米称丽客南领节衣站黑刻统断福城故历惊脸选包紧争另建维绝树系伤示愿持千史谁准联妇纪基买志静阿诗独复痛消社算 义竟确酒需单治卡幸兰念举仅钟怕共毛句息功官待究跟穿室易游程号居考突皮哪费倒价图具刚脑永歌响商礼细专黄块脚味灵改 据般破引食仍存众注笔甚某沉血备习校默务土微娘须试怀料调广蜖苏显赛查密议底列富梦错座参八除跑亮假印设线温虽掉京初 养香停际致阳纸李纳验助激够严证帝饭忘趣支春集丈木研班普导顿睡展跳获艺六波察群皇段急庭创区奥器谢弟店否害草排背止 组州朝封睛板角况曲馆育忙质河续哥呼若推境遇雨标姐充围案伦护冷警贝著雪索剧啊船险烟依斗值帮汉慢佛肯闻唱沙局伯族低 玩资屋击速顾泪洲团圣旁堂兵七露园牛哭旅街劳型烈姑陈莫鱼异抱宝权鲁简态级票怪寻杀律胜份汽右洋范床舞秘午登楼贵吸责 例追较职属渐左录丝牙党继托赶章智冲叶胡吉卖坚喝肉遗救修松临藏担戏善卫药悲敢靠伊村戴词森耳差短祖云规窗散迷油旧适 乡架恩投弹铁博雷府压超负勒杂醒洗采毫嘴毕九冰既状乱景席珍童顶派素脱农疑练野按犯拍征坏骨余承置臓彩灯巨琴免环姆暗 换技翻束增忍餐洛塞缺忆判欧层付阵玛批岛项狗休懂武革良恶恋委拥娜妙探呀营退摇弄桌熟诺宣银势奖宫忽套康供优课鸟喊降 夏困刘罪亡鞋健模败伴守挥鲜财孤枪禁恐伙杰迹妹藸遍盖副坦牌江顺秋萨菜划授归浪听凡预奶雄升碃编典袋莱含盛济蒙棋端腿 招释介烧误 unicode 编码 的一是了我不人在他有这%u4e2a上们来

Unicode码

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版,ISBN-10: 0321480910)对外发表。 2006年6月的最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta已于2005年12月12日推出,以供各会员评价。 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 1.编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode 标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。 每个平面有2^16=65536个码位。Unicode计划使用了17个平面,一共有17*65536=1114112个码位。在Unicode 5.0.0版本中,已定义的码位只有238605

Unicode汉字编码表

Unicode汉字编码表 1 Unicode编码表 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符,不过现在普遍采用的还是UCS-2,只用两个字节来 编码,看一下Unicode对汉字的编码:

------------------------------------------------------------------------ 2 汉字编码表 U+ 0 1 2 3 4 5 6 7 8 9 A B C D E F ----------------------------------------------------- 4e00 一丁丂七丄丅丆万丈三上下丌不与丏 4e10 丐丑丒专且丕世丗丘丙业丛东丝丞丟 4e20 丠両丢丣两严並丧丨丩个丫丬中丮丯 4e30 丰丱串丳临丵丶丷丸丹为主丼丽举丿 4e40 乀乁乂乃乄久乆乇么义乊之乌乍乎乏 4e50 乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也 4e60 习乡乢乣乤乥书乧乨乩乪乫乬乭乮乯 4e70 买乱乲乳乴乵乶乷乸乹乺乻乼乽乾乿 4e80 亀亁亂亃亄亅了亇予争亊事二亍于亏 4e90 亐云互亓五井亖亗亘亙亚些亜亝亞亟 4ea0 亠亡亢亣交亥亦产亨亩亪享京亭亮亯 4eb0 亰亱亲亳亴亵亶亷亸亹人亻亼亽亾亿 4ec0 什仁仂仃仄仅仆仇仈仉今介仌仍从仏 4ed0 仐仑仒仓仔仕他仗付仙仚仛仜仝仞仟 4ee0 仠仡仢代令以仦仧仨仩仪仫们仭仮仯 4ef0 仰仱仲仳仴仵件价仸仹仺任仼份仾仿 4f00 伀企伂伃伄伅伆伇伈伉伊伋伌伍伎伏 4f10 伐休伒伓伔伕伖众优伙会伛伜伝伞伟 4f20 传伡伢伣伤伥伦伧伨伩伪伫伬伭伮伯

常用汉字Unicode码表

\u7684\u4e00\u662f\u4e86\u6211\u4e0d\u4eba\u5728\u4ed6\u6709\u8fd9\u4e2a\u4e0a\u4 eec\u6765\u5230\u65f6\u5927\u5730\u4e3a\u5b50\u4e2d\u4f60\u8bf4\u751f\u56fd\u5e74\u 7740\u5c31\u90a3\u548c\u8981\u5979\u51fa\u4e5f\u5f97\u91cc\u540e\u81ea\u4ee5\u4f1a\ u5bb6\u53ef\u4e0b\u800c\u8fc7\u5929\u53bb\u80fd\u5bf9\u5c0f\u591a\u7136\u4e8e\u5fc3 \u5b66\u4e48\u4e4b\u90fd\u597d\u770b\u8d77\u53d1\u5f53\u6ca1\u6210\u53ea\u5982\u4 e8b\u628a\u8fd8\u7528\u7b2c\u6837\u9053\u60f3\u4f5c\u79cd\u5f00\u7f8e\u603b\u4ece\u 65e0\u60c5\u5df1\u9762\u6700\u5973\u4f46\u73b0\u524d\u4e9b\u6240\u540c\u65e5\u624 b\u53c8\u884c\u610f\u52a8\u65b9\u671f\u5b83\u5934\u7ecf\u957f\u513f\u56de\u4f4d\u52 06\u7231\u8001\u56e0\u5f88\u7ed9\u540d\u6cd5\u95f4\u65af\u77e5\u4e16\u4ec0\u4e24\u 6b21\u4f7f\u8eab\u8005\u88ab\u9ad8\u5df2\u4eb2\u5176\u8fdb\u6b64\u8bdd\u5e38\u4e0e \u6d3b\u6b63\u611f\u89c1\u660e\u95ee\u529b\u7406\u5c14\u70b9\u6587\u51e0\u5b9a\u6 72c\u516c\u7279\u505a\u5916\u5b69\u76f8\u897f\u679c\u8d70\u5c06\u6708\u5341\u5b9e\ u5411\u58f0\u8f66\u5168\u4fe1\u91cd\u4e09\u673a\u5de5\u7269\u6c14\u6bcf\u5e76\u522 b\u771f\u6253\u592a\u65b0\u6bd4\u624d\u4fbf\u592b\u518d\u4e66\u90e8\u6c34\u50cf\u7 73c\u7b49\u4f53\u5374\u52a0\u7535\u4e3b\u754c\u95e8\u5229\u6d77\u53d7\u542c\u8868 \u5fb7\u5c11\u514b\u4ee3\u5458\u8bb8\u7a1c\u5148\u53e3\u7531\u6b7b\u5b89\u5199\u6 027\u9a6c\u5149\u767d\u6216\u4f4f\u96be\u671b\u6559\u547d\u82b1\u7ed3\u4e50\u8272 \u66f4\u62c9\u4e1c\u795e\u8bb0\u5904\u8ba9\u6bcd\u7236\u5e94\u76f4\u5b57\u573a\u5e 73\u62a5\u53cb\u5173\u653e\u81f3\u5f20\u8ba4\u63a5\u544a\u5165\u7b11\u5185\u82f1\u 519b\u5019\u6c11\u5c81\u5f80\u4f55\u5ea6\u5c71\u89c9\u8def\u5e26\u4e07\u7537\u8fb9\ u98ce\u89e3\u53eb\u4efb\u91d1\u5feb\u539f\u5403\u5988\u53d8\u901a\u5e08\u7acb\u8c6 1\u6570\u56db\u5931\u6ee1\u6218\u8fdc\u683c\u58eb\u97f3\u8f7b\u76ee\u6761\u5462\u7 5c5\u59cb\u8fbe\u6df1\u5b8c\u4eca\u63d0\u6c42\u6e05\u738b\u5316\u7a7a\u4e1a\u601d\ u5207\u600e\u975e\u627e\u7247\u7f57\u94b1\u7d36\u5417\u8bed\u5143\u559c\u66fe\u79 bb\u98de\u79d1\u8a00\u5e72\u6d41\u6b22\u7ea6\u5404\u5373\u6307\u5408\u53cd\u9898 \u5fc5\u8be5\u8bba\u4ea4\u7ec8\u6797\u8bf7\u533b\u665a\u5236\u7403\u51b3\u7aa2\u4f 20\u753b\u4fdd\u8bfb\u8fd0\u53ca\u5219\u623f\u65e9\u9662\u91cf\u82e6\u706b\u5e03\u5 4c1\u8fd1\u5750\u4ea7\u7b54\u661f\u7cbe\u89c6\u4e94\u8fde\u53f8\u5df4\u5947\u7ba1\u 7c7b\u672a\u670b\u4e14\u5a5a\u53f0\u591c\u9752\u5317\u961f\u4e45\u4e4e\u8d8a\u89c2 \u843d\u5c3d\u5f62\u5f71\u7ea2\u7238\u767e\u4ee4\u5468\u5427\u8bc6\u6b65\u5e0c\u4e 9a\u672f\u7559\u5e02\u534a\u70ed\u9001\u5174\u9020\u8c08\u5bb9\u6781\u968f\u6f14\u 6536\u9996\u6839\u8bb2\u6574\u5f0f\u53d6\u7167\u529e\u5f3a\u77f3\u53e4\u534e\u8ae3 \u62ff\u8ba1\u60a8\u88c5\u4f3c\u8db3\u53cc\u59bb\u5c3c\u8f6c\u8bc9\u7c73\u79f0\u4e3d \u5ba2\u5357\u9886\u8282\u8863\u7ad9\u9ed1\u523b\u7edf\u65ad\u798f\u57ce\u6545\u5 386\u60ca\u8138\u9009\u5305\u7d27\u4e89\u53e6\u5efa\u7ef4\u7edd\u6811\u7cfb\u4f24\ u793a\u613f\u6301\u5343\u53f2\u8c01\u51c6\u8054\u5987\u7eaa\u57fa\u4e70\u5fd7\u975 9\u963f\u8bd7\u72ec\u590d\u75db\u6d88\u793e\u7b97\u4e49\u7adf\u786e\u9152\u9700\u 5355\u6cbb\u5361\u5e78\u5170\u5ff5\u4e3e\u4ec5\u949f\u6015\u5171\u6bdb\u53e5\u606f \u529f\u5b98\u5f85\u7a76\u8ddf\u7a7f\u5ba4\u6613\u6e38\u7a0b\u53f7\u5c45\u8003\u7a8 1\u76ae\u54ea\u8d39\u5012\u4ef7\u56fe\u5177\u521a\u8111\u6c38\u6b4c\u54cd\u5546\u7 93c\u7ec6\u4e13\u9ec4\u5757\u811a\u5473\u7075\u6539\u636e\u822c\u7834\u5f15\u98df\ u4ecd\u5b58\u4f17\u6ce8\u7b14\u751a\u67d0\u6c89\u8840\u5907\u4e60\u6821\u9ed8\u52 a1\u571f\u5fae\u5a18\u987b\u8bd5\u6000\u6599\u8c03\u5e7f\u8716\u82cf\u663e\u8d5b\u 67e5\u5bc6\u8bae\u5e95\u5217\u5bcc\u68a6\u9519\u5ea7\u53c2\u516b\u9664\u8dd1\u4ea

Unicode字符集

Unicode通用字符集 Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode 也在面世以来的十多年里得到普及。 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standard,目前第五版由Addison-Wesley Professional出版 unicode,ISBN-10: 0321480910)对外发表。 2006年7月的最新版本的Unicode 是5.0版本。2005年3月31日推出的Unicode 4.1.0 。另外,5.0 Beta于2005年12月12日推出,5.2版本(unicode standard)于2009年10月1日正式推出,以供各会员评价。 目前Unicode标准,6.1版已发布(2012年1月31日)。在unicode联盟网站上可以查看完整的6.1的核心规范。 Unicode定义了大到足以代表人类所有可读字符的字符集。 Java语言就用到了Unicode编码,从而实现了该语言的国际通用性。 编辑本段Unicode 的编码和实现 大概来说,Unicode 编码系统可分为编码方式和实现方式两个层次。 编码方式 Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode 用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。 通用字符集(Universal Character Set,UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。 历史上存在两个独立的尝试创立单一字符集的组织,即国际标准化组织(ISO)和多语言软件制造商组成的统一码联盟。前者开发的ISO/IEC 10646 项目,后者开发的统一码项目。因此最初制定了不同的标准。 1991年前后,两个项目的参与者都认识到,世界不需要两个不兼容的字符集。于是,它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。两个项目仍都存在,并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。在发布的时候,Unicode一般都会采用有关字码最常见的字型,但ISO 10646一般都尽可能采用Century字型。 UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行(row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前

Unicode字符列表

Unicode字符列表(超完整)Unicode, 字符, 列表 代码显示描述 U+0020 空格 U+0021 ! 叹号 U+0022 " 双引号 U+0023 # 井号 U+0024 $ 价钱/货币符号 U+0025 % 百分比符号 U+0026 & 英文“and”的简写符号U+0027 ' 引号 U+0028 ( 开圆括号 U+0029 ) 关圆括号 U+002A * 星号 U+002B + 加号 U+002C , 逗号 U+002D - 连字号/减号 U+002E . 句号 U+002F / 由右上至左下的斜线 U+0030 0 数字 0 U+0031 1 数字 1 U+0032 2 数字 2 U+0033 3 数字 3 U+0034 4 数字 4 U+0035 5 数字 5 U+0036 6 数字 6 U+0037 7 数字 7 U+0038 8 数字 8 U+0039 9 数字 9 U+003A : 冒号 U+003B ; 分号 U+003C < 小于符号 U+003D = 等于号 U+003E > 大于符号 U+003F ? 问号 U+0040 @ 英文“at”的简写符号U+0041 A 拉丁字母 A U+0042 B 拉丁字母 B U+0043 C 拉丁字母 C U+0044 D 拉丁字母 D U+0045 E 拉丁字母 E U+0046 F 拉丁字母 F U+0047 G 拉丁字母 G

U+0049 I 拉丁字母 I U+004A J 拉丁字母 J U+004B K 拉丁字母 K U+004C L 拉丁字母 L U+004D M 拉丁字母 M U+004E N 拉丁字母 N U+004F O 拉丁字母 O U+0050 P 拉丁字母 P U+0051 Q 拉丁字母 Q U+0052 R 拉丁字母 R U+0053 S 拉丁字母 S U+0054 T 拉丁字母 T U+0055 U 拉丁字母 U U+0056 V 拉丁字母 V U+0057 W 拉丁字母 W U+0058 X 拉丁字母 X U+0059 Y 拉丁字母 Y U+005A Z 拉丁字母 Z U+005B [ 开方括号 U+005C \ 由左上至右下的斜线 U+005D ] 关方括号 U+005E ^ 抑扬(重音)符号 U+005F _ 底线 U+0060 ` 重音符 U+0061 a 拉丁字母 a U+0062 b 拉丁字母 b U+0063 c 拉丁字母 c U+0064 d 拉丁字母 d U+0065 e 拉丁字母 e U+0066 f 拉丁字母 f U+0067 g 拉丁字母 g U+0068 h 拉丁字母 h U+0069 i 拉丁字母 i U+006A j 拉丁字母 j U+006B k 拉丁字母 k U+006C l 拉丁字母 l(L的小写)U+006D m 拉丁字母 m U+006E n 拉丁字母 n U+006F o 拉丁字母 o U+0070 p 拉丁字母 p U+0071 q 拉丁字母 q U+0072 r 拉丁字母 r U+0073 s 拉丁字母 s

汉字GB编码,Unicode编码,区位码, 大小端

汉字GB编码,Unicode编码,区位码,大小端 汉字GB编码,是对ascii码的一个扩展, 用来表示和存储汉字。最初设计的7位ascii码以 及扩展后的8位ansi编码,只能表示控制字符,英文字母,数字和一些常用符号。于是 GB码首先被提出并用于汉字的编码表示。GB码完全兼容ascii码,但丢弃掉了ansi比ascii 所多出来的全部符号。 GB码同样采用单字节方式存储和处理,比如'A'的ascii码为0x41, 汉字'王'的GB码为0xCDF5, 那么字符串“A王”保存在一个char[4]当中的话,内容应该是[0]=0x41, [1]=0xcd, [2]=0xf5, [3]=0x00,在处理这样的字符串时,需要首先判断字节最高位,因为ascii码只占用了字节的低7位,因此最高位永远是0,所以若判断最高位为0,则按ascii码处理,若为1,则按GB码处理,需要读入连续的两个字节,则可以得到一 个GB字符,如cdf5拼起来,则得到’王’的GB码。 Unicode码,是另一套编码规则,使用2个字节来表示一个字符,可以表示2^16 = 65536 个不同的字符。 Unicode同样对ascii兼容,对每个ascii码不足16位(两个字节)的部分 补0即是相同字符的Unicode码,此外,Unicode码还定义了中文等全球N多种文字及符号, 比如王的Unicode码即为0x738b. 下面的例子说明了汉字GB和Unicode码的区别: char cn_char_u[]={L'王'};//8b //low byte of 738b is passed to cn_char_u, x86 acts as little-endian, low byte maps low address char cn_char[]={'王'};//f5 //low byte of cdf5 is passed to cn_char //char cn_str_u[]={L"王"};//738b //illegal statement of assignment, not accept by compiler char cn_str[]={"王"};//cdf5 //cn_str[0] = cd, cn_str[1] = f5, cn_str[2]= \0 WCHAR cn_str_w_u[]={L"王"}; //738b //WCHAR cn_str_w[]={"王"}; //f5cd //illegal statement of assignment WCHAR cn_char_w_u[] = {L'王'}; //738b WCHAR cn_char_w[] = {'王'}; //cdf5

相关文档
相关文档 最新文档