Provided by: manpages-cs_0.17.20080113-1_all bug

JMÉNO

       UTF-8 - vícebytové Unicode kódování, kompatibilní s ASCII

POPIS

       Znaková sada Unicode 3.0 je 16 bitová. Nejběžnější kódování (známé jako
       UCS-2) je sekvencí 16-bitových slov. Řetězce z takovýchto slov obsahují
       mnoho  8-bitových  znaků  jako  je  '\0' nebo '/', které mají speciální
       význam ve jménech souborů i  v  argumentech  funkcí  jazyka  C.  Navíc,
       naprostá  většina  UNIXových  nástrojů  očekává ASCII soubory a nemohou
       číst 16-bitové znaky bez významných změn kódu.  Z  těchto  důvodů  není
       UCS-2  vhodným  kódováním  Unicode  ve  jménech  souborů,  v  textových
       souborech, proměnných prostředí atd.  ISO 10646 Universal Character Set
       (UCS)  je nadmnožinou Unicode, zabírá 31-bitový prostor, jehož kódování
       UCS-4 (sekvence 32-bitových slov) má tytéž problémy.

       Kódování UTF-8 pro Unicode  a  UCS  tyto  problémy  nemá,  a  proto  je
       obvyklou  cestou  pro  využívání  Unicode  v  Unixových  (a  podobných)
       operačních systémech.

   Vlastnosti
       Kódování UTF-8 má několik pěkných vlastností:

       * znaky UCS 0x00000000 - 0x0000007f (klasické  znaky  US-ASCII  )  jsou
         kódovány  jako  byty 0x00 až 0x7f (kompatibilní s ASCII). To znamená,
         že soubory a řetězce obsahující pouze 7-bitové  ASCII  jsou  kódovány
         stejně v ASCII i v UTF-8.

       * Všechny  znaky  UCS > 0x7f jsou kódovány jako sekvence bytů v rozmezí
         od 0x80  do  0xfd,  takže  se  zde  neobjeví  žádný  znak  ASCII  ani
         nevznikají problémy se znaky jako '\0' nebo '/'.

       * Lexikografické uspořádání znaků z UCS-4 se zachovává.

       * Libovolnou z 2^31 kombinací UCS lze zakódovat pomocí UTF-8.

       * Kódy 0xfe a 0xff nejsou použity v kódování UTF-8.

       * První byte vícebytové sekvence reprezentující jeden ne-ASCII znak UCS
         je vždy v intervalu 0xc0 až 0xfd a indikuje, jak dlouhá  je  sekvence
         bytů.   Všechny  následující  byty  jsou v rozmezí 0x80 až 0xbf. Toto
         umožňuje jednoduchou resynchronizaci při výpadku bytu(ů), protože  se
         jedná o bezstavové kódování.

       * UTF-8 kóduje znaky UCS až do šestibytových sekvencí, nicméně standard
         Unicode nespecifikuje znaky nad 0x10ffff, takže Unicode  znaky  mohou
         být v UTF-8 dlouhé nejvýše čtyři byty.

   Kódování
       Následující sekvence jsou použity pro reprezentování znaků. Typ použité
       sekvence závisí na kódu UCS daného znaku:

       0x00000000 - 0x0000007F:
           0xxxxxxx

       0x00000080 - 0x000007FF:
           110xxxxx 10xxxxxx

       0x00000800 - 0x0000FFFF:
           1110xxxx 10xxxxxx 10xxxxxx

       0x00010000 - 0x001FFFFF:
           11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x00200000 - 0x03FFFFFF:
           111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       0x04000000 - 0x7FFFFFFF:
           1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

       The xxx pozice jsou zaplněny bity z kódu znaku v binární  reprezentaci.
       Vždy je použita nejkratší možná sekvence pro daný znak.

       Hodnoty  kódu UCS 0xd800-0xdfff (zástupci UTF-16), stejně jako 0xfffe a
       0xffff (neznaky UCS) byse v platných UTF-8 proudech neměly objevit.

   Příklad
       Znak Unicode
        0xa9 = 1010 1001 (copyright) je kódován v UTF-8 jako:

              11000010 10101001 = 0xc2 0xa9

       a znak 0x2260 = 0010 0010 0110 0000 (není rovno) je kódován jako:

              11100010 10001001 10100000 = 0xe2 0x89 0xa0

   Application notes
       Uživatelé musejí vybrat UTF-8 locale, např. pomocí

              export LANG=en_GB.UTF-8

       aby aktivovali podporu UTF-8 v aplikacích.

       Application software that  has  to  be  aware  of  the  used  character
       encoding should always set the locale with for example

              setlocale(LC_CTYPE, "")

       and programmers can then test the expression

              strcmp(nl_langinfo(CODESET), "UTF-8") == 0

       to  determine  whether  a  UTF-8  locale  has been selected and whether
       therefore  all  plaintext   standard   input   and   output,   terminal
       communication,   plaintext  file  content,  filenames  and  environment
       variables are encoded in UTF-8.

       Programmers accustomed to single-byte encodings such as US-ASCII or ISO
       8859  have  to  be aware that two assumptions made so far are no longer
       valid in UTF-8 locales. Firstly, a single  byte  does  not  necessarily
       correspond  any  more  to  a  single  character. Secondly, since modern
       terminal emulators in UTF-8 mode also support  Chinese,  Japanese,  and
       Korean   double-width  characters  as  well  as  non-spacing  combining
       characters, outputting a single character does not necessarily  advance
       the  cursor by one position as it did in ASCII.  Library functions such
       as  mbsrtowcs(3)  and  wcswidth(3)  should  be  used  today  to   count
       characters and cursor positions.

       The  official  ESC  sequence to switch from an ISO 2022 encoding scheme
       (as used for  instance  by  VT100  terminals)  to  UTF-8  is  ESC  %  G
       ("\x1b%G"). The corresponding return sequence from UTF-8 to ISO 2022 is
       ESC % @ ("\x1b%@"). Other ISO 2022 sequences (such as for switching the
       G0 and G1 sets) are not applicable in UTF-8 mode.

       It  can  be  hoped  that  in the foreseeable future, UTF-8 will replace
       ASCII and ISO 8859 at all levels as the common  character  encoding  on
       POSIX  systems,  leading  to  a  significantly  richer  environment for
       handling plain text.

   Security
       The Unicode and UCS standards require that producers of UTF-8 shall use
       the  shortest  form  possible, e.g., producing a two-byte sequence with
       first  byte  0xc0  is  non-conforming.   Unicode  3.1  has  added   the
       requirement that conforming programs must not accept non-shortest forms
       in their input. This is for security reasons: if user input is  checked
       for  possible  security  violations, a program might check only for the
       ASCII version of "/../" or ";" or NUL and overlook that there are  many
       non-ASCII  ways  to  represent  these  things  in  a non-shortest UTF-8
       encoding.

   Standardy
       ISO/IEC 10646-1:2000, Unicode 3.1, RFC 2279, Plan 9.

VIZ TÉŽ

       nl_langinfo(3), setlocale(3), charsets(7), unicode(7)

TIRÁŽ

       Tato stránka je součástí projektu Linux man-pages.   Popis  projektu  a
       informace  o  hlášení  chyb  najdete  na http://www.kernel.org/doc/man-
       pages/.