Provided by: manpages-zh_1.5-1_all bug

NAME

       UTF-8 - ASCII 相容的多字節 Unicode 編碼

yz
       The   Unicode   字符集使用的是   16   位(雙字節)碼。最普遍的  Unicode
       編碼方法(        UCS-2)        由一        16        位雙字序列組成。
       這樣的字符串中包括了的一些如‘\0’或‘/’這樣的在檔名中或者是在       C
       庫函數中具有特殊意義的字符。   另外,如果沒有做咫j的蚰羲爾隉A大部分操作
       ASCII  碼檔案的  UNIX 工具不能夠正確識別 16 位的字符。因此, UCS-2 對於
       Unicode
       的檔名、純文字檔、環境變量等等來說並不是一種合適的外部編碼方式。    ISO
       10646 Universal Character Set (UCS), 是 Unicode  的超集,甚至使用了  31
       位編碼方式,  另外還有使用  32  編碼的  UCS-4 也有同樣上z的問題。 UCS-4
       而用  UTF-8Unicode  UCS  編碼   就不會存在這樣的問題。所以,UTF-8
       很明顯的是在 UNIX 類作業系統下的 Unicode 字符集的解決方案。

性
       UTF-8 編碼具有以下優良屬性:

       * UCS    字符從    0x00000000    到    0x0000007f   (傳統的   US-ASCII
         字符)簡單地編碼為字節   0x00   到   0x7f   (與   ASCII   碼相容)。
         這意味著只包含  7  位  ASCII  字符的檔案和字符串在  ASCIIUTF-8.
         編碼方式下是完全一樣的。

       * 所有大於 0x7f 的 UCS 字符被編碼成為多字節序列。該序列全部是由 0x80 到
         0fd   的字符組成,  這樣就不會有標準  ASCII  字符會  被作為某茼r的一-
         茬﹞應o種現象出現,
         對於‘\0’和‘’這樣的特殊字符來說也就不會有問題了。

       * 保留了 UCS-4 字典中的字節串的排列順序。

       * 所有 2^32 次方的 UCS 碼都能夠使用 UTF-8 來進行編碼。

       * 0xfe 和 0xff 兩茼r符在 UTF-8 中不會被用到。

       * 表示非   ASCII   碼的   UCS   多字節串的開始字符總是   0xc0  到  0xfd
         之間的字符,並會指出該串的長度。 多字節串的其他字符都是 0x80 到  0xbf
         之間的字符。                 這使得再同步非常簡單,並令編碼是無態的,
         丟字節現象也不容易發生。

       * 用  UTF-8  編碼的  UCS  字符可以增加到  6   茼r節的長度。而   Unicode
         只能增加到  3  茼r節長。由於  Linux  只使用  16  位的  UnicodeUCS
         的子集。所以在 Linux 下, UTF-8 多字節串長度最多不會超過三茼r節。

sX式
       下悸漲r節串用來表示一茼r符。用什麼串依照該字符在 UCS 編碼中的序號來定:

       0x00000000 - 0x0000007F:
           0xxxxxxx

       0x00000080 - 0x000007FF:
           110xxxxx 10xxxxxx

       0x00000800 - 0x0000FFFF:
           1110xxxx 10xxxxxx 10xxxxxx

       0x00010000 - 0x001FFFFF:
           11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x00200000 - 0x03FFFFFF:
           111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x04000000 - 0x7FFFFFFF:
           1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       這裏  xxx  的位置二進制位形式的字符編碼填入。  只用最短的那茖為鱆竁F一-
       茼r符編碼數的多字節串。

|明
       Unicode 字符 0xa9 = 1010 1001 (版權所有的符號) 在 UTF-8 中被編碼為:

              11000010 10101001 = 0xc2 0xa9

       字符0x2260 = 0010 0010 0110 0000 (「不等於」符號)被編碼為:

              11100010 10001001 10100000 = 0xe2 0x89 0xa0

`準
       ISO 10646, Unicode 1.1, XPG4, Plan 9.

@者
       Markus Kuhn

考
       unicode(7)

[]
       billpan <billpan@yeah.net>

[]
       2000/11/09

mlinuxan:
       http://cmpp.linuxforum.net