Provided by: manpages-zh_1.5.1-2_all bug

NAME

       UTF-8 - ASCII 兼容的多字节 Unicode 编码

述
       The   Unicode   字符集使用的是   16   位(双字节)码。最普遍的  Unicode
       编码方法(       UCS-2)        由一个        16        位双字序列组成。
       这样的字符串中包括了的一些如‘\0’或‘/’这样的在文件名中或者是在     C
       库函数中具有特殊意义的字符。 另外,如果没有做重大的修正的话,大部分操作
       ASCII  码文件的  UNIX 工具不能够正确识别 16 位的字符。因此, UCS-2 对于
       Unicode
       的文件名、文本文件、环境变量等等来说并不是一种合适的外部编码方式。  ISO
       10646 Universal Character Set (UCS), 是 Unicode  的超集,甚至使用了  31
       位编码方式,  另外还有使用  32  编码的 UCS-4 也有同样上述的问题。 UCS-4
       而用  UTF-8Unicode  UCS  编码   就不会存在这样的问题。所以,UTF-8
       很明显的是在 UNIX 类操作系统下的 Unicode 字符集的解决方案。

性
       UTF-8 编码具有以下优良属性:

       * UCS    字符从    0x00000000    到    0x0000007f   (传统的   US-ASCII
         字符)简单地编码为字节   0x00   到   0x7f   (与   ASCII   码兼容)。
         这意味着只包含  7  位  ASCII  字符的文件和字符串在  ASCIIUTF-8.
         编码方式下是完全一样的。

       * 所有大于 0x7f 的 UCS 字符被编码成为多字节序列。该序列全部是由 0x80 到
         0fd       的字符组成,       这样就不会有标准       ASCII      字符会
         被作为某个字的一个部分这种现象出现,
         对于‘\0’和‘’这样的特殊字符来说也就不会有问题了。

       * 保留了 UCS-4 字典中的字节串的排列顺序。

       * 所有 2^32 次方的 UCS 码都能够使用 UTF-8 来进行编码。

       * 0xfe 和 0xff 两个字符在 UTF-8 中不会被用到。

       * 表示非   ASCII   码的   UCS   多字节串的开始字符总是   0xc0  到  0xfd
         之间的字符,并会指出该串的长度。 多字节串的其他字符都是 0x80 到  0xbf
         之间的字符。                 这使得再同步非常简单,并令编码是无态的,
         丢字节现象也不容易发生。

       * 用  UTF-8  编码的  UCS  字符可以增加到  6  个字节的长度。而   Unicode
         只能增加到  3  个字节长。由于  Linux  只使用  16  位的 UnicodeUCS
         的子集。所以在 Linux 下, UTF-8 多字节串长度最多不会超过三个字节。

式
       下面的字节串用来表示一个字符。用什么串依照该字符在                  UCS
       编码中的序号来定:

       0x00000000 - 0x0000007F:
           0xxxxxxx

       0x00000080 - 0x000007FF:
           110xxxxx 10xxxxxx

       0x00000800 - 0x0000FFFF:
           1110xxxx 10xxxxxx 10xxxxxx

       0x00010000 - 0x001FFFFF:
           11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x00200000 - 0x03FFFFFF:
           111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x04000000 - 0x7FFFFFFF:
           1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       这里               xxx               的位置二进制位形式的字符编码填入。
       只用最短的那个足够表达一个字符编码数的多字节串。

明
       Unicode 字符 0xa9 = 1010 1001 (版权所有的符号) 在 UTF-8 中被编码为:

              11000010 10101001 = 0xc2 0xa9

       字符0x2260 = 0010 0010 0110 0000 (“不等于”符号)被编码为:

              11100010 10001001 10100000 = 0xe2 0x89 0xa0

准
       ISO 10646, Unicode 1.1, XPG4, Plan 9.

者
       Markus Kuhn

考
       unicode(7)

[billpan <billpan@yeah.net>

[2000/11/09

linuxan:
       http://cmpp.linuxforum.net