常见字符编码类型 汇总比较表

字符集(编码标准) 等同国际标准 编码方式 实现方式 备注
ASCII 国际标准ISO/IEC 646
EASCII ISO/IEC 8859-n ASCII码由7位扩充为8位而成。EASCII的内码是由0到255共有256个字符组成。EASCII码比ASCII码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。
ISO/ICE 8859-n 每个字集定义最多96个字母或符号,在0xA0-0xFF根据不同字符集放入不同的字符。
ISO-8859-n (与上面那个不同) ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC 8859-n所定义的编码表。它除了ISO/IEC 8859-n的字符外,还包括ASCII(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7E-0x9F)。
Unicode UCS-2,使用16位的编码空间

UCS-4,占用4字节编码空间

UTF-7
UTF-8
UTF-16
UTF-16 LE
UTF-16 BE
UTF-32
任何文字在Unicode中都对应一个值,这个值称为代码点(code point)。代码点的值通常写成 U+ABCD 的格式。
而文字和代码点之间的对应关系就是UCS-2(Universal Character Set coded in 2 octets)。UCS-4,即用四个字节表示代码点。
它的范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一样的。

UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。
规定存储方式的称为UTF(Unicode Transformation Format),其中应用较多的就是UTF-16和UTF-8了。

通用字符集(Universal Character Set,简称 UCS)

ISO/IEC 10646 从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。
GB2312 GB?2312字符使用两个字节来表示。“第一位字节”使用0xA1-0xF7,“第二位字节”使用0xA1-0xFE EUC-CN EUC
GBK GBK是双字节编码,每个字符用两个字节表示。 GBK 同时也向下兼容GB2312 编码

GB18030 双字节字符的码位空间就是0x8140~0xFE7E和0x8180~0xFEFE,双字节字符的码位数目是7938+16002=23940。 0x8140~0xFE7E和0x8180~0xFEFE也是GBK的全部码位空间。GBK在这23940个码位中定义了21886个字符。

GB 13000
GB 18030 每个字可以由1个、2个或4个字节组成 单字节,其值从0到0x7F。
双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。
四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。

Unicode转换格式(Unicode Translation Format,简称为 UTF)

发表评论?

0 条评论。

发表评论