Ubuntu Manpage: UTF-8 - ASCII 相容的多位元組 Unicode 編碼

name
描述
屬性
編碼方式
舉例說明
遵循標準
作者
參考
[中文版維護人]
[中文版最新更新]
《中國linux論壇man手冊頁翻譯計劃》:
跋

NAME

       UTF-8 - ASCII 相容的多位元組 Unicode 編碼

描述

       The Unicode 字符集使用的是 16 位（雙位元組）碼。最普遍的 Unicode 編碼方法（ UCS-2) 由一個 16 位雙字序列組
       成。 這樣的字串中包括了的一些如‘\0’或‘/’這樣的在檔名中或者是在 C 庫函式中具有特殊意義的字元。  另外，如果
       沒有做重大的修正的話，大部分操作  ASCII  碼檔案的  UNIX 工具不能夠正確識別 16 位的字元。因此， UCS-2 對於
       Unicode 的檔名、文字檔案、環境變數等等來說並不是一種合適的外部編碼方式。 ISO  10646  Universal  Character
       Set  (UCS),  是  Unicode 的超集，甚至使用了 31 位編碼方式， 另外還有使用 32 編碼的 UCS-4 也有同樣上述的問
       題。 UCS-4 而用 UTF-8 對 Unicode UCS 編碼 就不會存在這樣的問題。所以，UTF-8 很明顯的是在 UNIX  類作業系統
       下的 Unicode 字符集的解決方案。

屬性

       UTF-8 編碼具有以下優良屬性：

       * UCS  字元從 0x00000000 到 0x0000007f （傳統的 US-ASCII 字元）簡單地編碼為位元組 0x00 到 0x7f （與 ASCII
         碼相容）。 這意味著只包含 7 位 ASCII 字元的檔案和字串在 ASCII 和 UTF-8.  編碼方式下是完全一樣的。

       * 所有大於 0x7f 的 UCS 字元被編碼成為多位元組序列。該序列全部是由 0x80 到 0fd 的字元組成， 這樣就不會有標
         準  ASCII 字元會 被作為某個字的一個部分這種現象出現， 對於‘\0’和‘\[u2019]這樣的特殊字元來說也就不會有問
         題了。

       * 保留了 UCS-4 字典中的位元組串的排列順序。

       * 所有 2^32 次方的 UCS 碼都能夠使用 UTF-8 來進行編碼。

       * 0xfe 和 0xff 兩個字元在 UTF-8 中不會被用到。

       * 表示非 ASCII 碼的 UCS 多位元組串的開始字元總是 0xc0 到 0xfd 之間的字元，並會指出該串的長度。 多位元組串
         的其他字元都是  0x80 到 0xbf 之間的字元。 這使得再同步非常簡單，並令編碼是無態的， 丟位元組現象也不容易
         發生。

       * 用 UTF-8 編碼的 UCS 字元可以增加到 6 個位元組的長度。而 Unicode 只能增加到 3 個位元組長。由於 Linux  只
         使用 16 位的 Unicode ， UCS 的子集。所以在 Linux 下， UTF-8 多位元組串長度最多不會超過三個位元組。

編碼方式

       下面的位元組串用來表示一個字元。用什麼串依照該字元在 UCS 編碼中的序號來定：

       0x00000000 - 0x0000007F:
           0xxxxxxx

       0x00000080 - 0x000007FF:
           110xxxxx 10xxxxxx

       0x00000800 - 0x0000FFFF:
           1110xxxx 10xxxxxx 10xxxxxx

       0x00010000 - 0x001FFFFF:
           11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x00200000 - 0x03FFFFFF:
           111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x04000000 - 0x7FFFFFFF:
           1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       這裡 xxx 的位置二進位制位形式的字元編碼填入。 只用最短的那個足夠表達一個字元編碼數的多位元組串。

舉例說明

       Unicode 字元 0xa9 = 1010 1001 (版權所有的符號) 在 UTF-8 中被編碼為：

              11000010 10101001 = 0xc2 0xa9

       字元0x2260 = 0010 0010 0110 0000 (“不等於”符號)被編碼為：

              11100010 10001001 10100000 = 0xe2 0x89 0xa0

遵循標準

       ISO 10646, Unicode 1.1, XPG4, Plan 9.

作者

       Markus Kuhn

參考

       unicode(7)

[中文版維護人]

       billpan <billpan@yeah.net>

[中文版最新更新]

       2000/11/09

《中國linux論壇man手冊頁翻譯計劃》:

       http://cmpp.linuxforum.net

跋

       本頁面中文版由中文 man 手冊頁計劃提供。
       中文 man 手冊頁計劃：https://github.com/man-pages-zh/manpages-zh