字符集(编码标准) | 等同国际标准 | 编码方式 | 实现方式 | 备注 |
ASCII | 国际标准ISO/IEC 646 | |||
EASCII | ISO/IEC 8859-n | 将ASCII码由7位扩充为8位而成。EASCII的内码是由0到255共有256个字符组成。EASCII码比ASCII码扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的拉丁符号。 | ||
ISO/ICE 8859-n | 每个字集定义最多96个字母或符号,在0xA0-0xFF根据不同字符集放入不同的字符。 | |||
ISO-8859-n (与上面那个不同) | ISO-8859-n(在ISO与8859之间加上一连字号)则是由IANA根据ISO/IEC 8859-n所定义的编码表。它除了ISO/IEC 8859-n的字符外,还包括ASCII(0x20-0x7E)字符及65个控制字符(0x00-0x1F及0x7E-0x9F)。 | |||
Unicode | UCS-2,使用16位的编码空间
UCS-4,占用4字节编码空间 |
UTF-7 UTF-8 UTF-16 UTF-16 LE UTF-16 BE UTF-32 |
任何文字在Unicode中都对应一个值,这个值称为代码点(code point)。代码点的值通常写成 U+ABCD 的格式。 而文字和代码点之间的对应关系就是UCS-2(Universal Character Set coded in 2 octets)。UCS-4,即用四个字节表示代码点。 它的范围为 U+00000000~U+7FFFFFFF,其中 U+00000000~U+0000FFFF和UCS-2是一样的。 UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。 |
|
ISO/IEC 10646 | 从Unicode 2.0开始,Unicode采用了与ISO 10646-1相同的字库和字码;ISO也承诺,ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值,以使得两者保持一致。 | |||
GB2312 | GB?2312字符使用两个字节来表示。“第一位字节”使用0xA1-0xF7,“第二位字节”使用0xA1-0xFE | EUC-CN | EUC | |
GBK | GBK是双字节编码,每个字符用两个字节表示。 | GBK 同时也向下兼容GB2312 编码
GB18030 双字节字符的码位空间就是0x8140~0xFE7E和0x8180~0xFEFE,双字节字符的码位数目是7938+16002=23940。 0x8140~0xFE7E和0x8180~0xFEFE也是GBK的全部码位空间。GBK在这23940个码位中定义了21886个字符。 |
||
GB 13000 | ||||
GB 18030 | 每个字可以由1个、2个或4个字节组成 | 单字节,其值从0到0x7F。 双字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x40到0xFE(不包括0x7F)。 四字节,第一个字节的值从0x81到0xFE,第二个字节的值从0x30到0x39,第三个字节从0x81到0xFE,第四个字节从0x30到0x39。 |
Unicode转换格式(Unicode Translation Format,简称为 UTF)
0 条评论。