Ubuntu Manpage: UTF-8 - ASCII 兼容的多字节 Unicode 编码

NAME

       UTF-8 - ASCII 兼容的多字节 Unicode 编码

描述

       The Unicode 字符集使用的是 16 位（双字节）码。最普遍的 Unicode 编码方法（ UCS-2) 由一个 16
       位双字序列组成。      这样的字符串中包括了的一些如‘\0’或‘/’这样的在文件名中或者是在      C
       库函数中具有特殊意义的字符。   另外，如果没有做重大的修正的话，大部分操作  ASCII  码文件的
       UNIX     工具不能够正确识别     16      位的字符。因此，      UCS-2      对于      Unicode
       的文件名、文本文件、环境变量等等来说并不是一种合适的外部编码方式。   ISO  10646  Universal
       Character Set (UCS), 是 Unicode 的超集，甚至使用了 31 位编码方式， 另外还有使用 32  编码的
       UCS-4     也有同样上述的问题。     UCS-4     而用    UTF-8    对    Unicode    UCS    编码
       就不会存在这样的问题。所以，UTF-8     很明显的是在     UNIX     类操作系统下的     Unicode
       字符集的解决方案。

属性

       UTF-8 编码具有以下优良属性：

       * UCS  字符从  0x00000000  到  0x0000007f （传统的 US-ASCII 字符）简单地编码为字节 0x00 到
         0x7f （与 ASCII 码兼容）。 这意味着只包含  7  位  ASCII  字符的文件和字符串在  ASCII  和
         UTF-8.  编码方式下是完全一样的。

       * 所有大于  0x7f  的 UCS 字符被编码成为多字节序列。该序列全部是由 0x80 到 0fd 的字符组成，
         这样就不会有标准        ASCII        字符会         被作为某个字的一个部分这种现象出现，
         对于‘\0’和‘\[u2019]这样的特殊字符来说也就不会有问题了。

       * 保留了 UCS-4 字典中的字节串的排列顺序。

       * 所有 2^32 次方的 UCS 码都能够使用 UTF-8 来进行编码。

       * 0xfe 和 0xff 两个字符在 UTF-8 中不会被用到。

       * 表示非      ASCII      码的      UCS     多字节串的开始字符总是     0xc0     到     0xfd
         之间的字符，并会指出该串的长度。  多字节串的其他字符都是  0x80  到   0xbf   之间的字符。
         这使得再同步非常简单，并令编码是无态的， 丢字节现象也不容易发生。

       * 用   UTF-8   编码的   UCS   字符可以增加到   6  个字节的长度。而  Unicode  只能增加到  3
         个字节长。由于 Linux 只使用 16 位的 Unicode  ，  UCS  的子集。所以在  Linux  下，  UTF-8
         多字节串长度最多不会超过三个字节。

编码方式

       下面的字节串用来表示一个字符。用什么串依照该字符在 UCS 编码中的序号来定：

       0x00000000 - 0x0000007F:
           0xxxxxxx

       0x00000080 - 0x000007FF:
           110xxxxx 10xxxxxx

       0x00000800 - 0x0000FFFF:
           1110xxxx 10xxxxxx 10xxxxxx

       0x00010000 - 0x001FFFFF:
           11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x00200000 - 0x03FFFFFF:
           111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x04000000 - 0x7FFFFFFF:
           1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       这里                         xxx                        的位置二进制位形式的字符编码填入。
       只用最短的那个足够表达一个字符编码数的多字节串。

举例说明

       Unicode 字符 0xa9 = 1010 1001 (版权所有的符号) 在 UTF-8 中被编码为：

              11000010 10101001 = 0xc2 0xa9

       字符0x2260 = 0010 0010 0110 0000 (“不等于”符号)被编码为：

              11100010 10001001 10100000 = 0xe2 0x89 0xa0

遵循标准

       ISO 10646, Unicode 1.1, XPG4, Plan 9.

作者

       Markus Kuhn

参考

       unicode(7)

[中文版维护人]

       billpan <billpan@yeah.net>

[中文版最新更新]

       2000/11/09

《中国linux论坛man手册页翻译计划》:

       http://cmpp.linuxforum.net

跋

       本页面中文版由中文 man 手册页计划提供。
       中文 man 手册页计划：https://github.com/man-pages-zh/manpages-zh