Provided by: manpages-cs_0.18.20090209-3_all bug

JM'ENO

       Unicode - univerzalni znakova sada

POPIS

       Mezinarodni  standard ISO 10646 definuje Universal Character Set (UCS).
       UCS obsahuje vechny znaky vech kodovani znakovych sad. Navic  garantuje
       kompatibilitu  zptn'e  konverze,  to  jest  je  mono  postavit konverzni
       tabulky tak, aby nedochazelo ke ztrat informace pi  konverzi  z  jineho
       kodovani do UCS a zpt.

       UCS obsahuje znaky potebne pro tem vechny zname jazyky. Mimo jine je to
       mnoho jazyk vyuivajicich rozieni latinky a take  nasledujici  jazyky  a
       pisma:  etinu,  azbuku,  hebrejtinu,  arabtinu,  armentinu, gruzintinu,
       japontinu, intinu, korejske ideogramy Han,  pisma  Hiragana,  Katakana,
       Hangul,  Devangari,  Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu,
       Kannada, Malayalam, thajtinu, Lao, Khmer, Bopomofo,  tibettinu,  runove
       pismo,   etioptinu,  kanadske  slabiky,  Cherokee,  mongoltinu,  Ogham,
       barmtinu, sinhaltinu, Thaana, Yi a mnoho jinych.  Pracuje se na  vloeni
       dalich  pisem  jako  hieroglyfy  a rzne historicke indoevropske jazyky,
       eventualn by mohly byt zalenny nktere umle jazyky, jako Tengwar,  Cirth
       a  klingontina.   UCS navic ke znakm pro tyto jazyky obsahuje graficke,
       typograficke, matematicke  a  vdecke  symboly  pouivane  nap.  v  TeXu,
       PostScriptu, APL, MS-DOSu, MS-Windows, Macintosh, OCR, stejn tak jako v
       mnoha systemech pro zpracovani  textu  a  publikovani,  ktere  neustale
       pibyvaji.

       Kodovani UCS (ISO 10646) popisuje 31-bitovou znakovou sadu, sestavajici
       ze 128 24-bitovych  IR  skupin  ,  z  nich  kada  je  rozdlena  do  256
       16-bitovych  planes(ploch), ktere se skladaji z 256 8-bitovych ad s 256
       sloupci - pro kady znak jeden. ast 1 standardu (ISO 10646-1)   definuje
       prvnich  65534  kod  (0x0000  a  0xfffd), tvoi tzv.  Basic Multilingual
       Plane (BMP), tj. plochu 0 ve skupin 0. ast 2  standardu  (ISO  10646-2)
       dopluje  znaky  do  skupiny  0 mimo BMP v nkolika doplkov'ych ploch'ach v
       rozsahu 0x100000 a 0x10ffff. Doplnni znak nad 0x10ffff se neplanuje,  z
       celeho  kodoveho  prostoru  skupiny  0 bude tedy v dohledne budoucnosti
       vyuita pouze mala ast. BMP obsahuje vechny  znaky,  obsaene  v  obvykle
       uivanych  znakovych  sadach.  Doplkove  plochy  doplnne  v  ISO 10646-2
       zahrnuji pouze exoticke znaky pro zvlatni vdecke pouiti, tisk  slovnik,
       publikovani, vysokourovove protokoly a nadence.

       Reprezentaci  kadeho  UCS  znaku  jako dvoubajtoveho slova se ika UCS-2
       forma (jen pro znaky z BMP), zatimco UCS-4 je reprezentace kadeho znaku
       tybajtovym  slovem.  Navic existuji dv formy kodovani: UTF-8 pro zptnou
       kompatibilitu s programy  zpracovavajicimi  ASCII  a  UTF-16  pro  zptn
       kompatibilni   zpracovani   znak   mimo  BMP  a  do  0x10ffff  programy
       pouivajicimi UCS-2.

       Kodovani UCS pro znaky mezi 0x0000 a 0x007f  je  totone  s  bnou  sadou
       US-ASCII  a  znaky mezi 0x0000 a 0x00ff jsou totone se sadou ISO 8859-1
       Latin-1.

   Spojov'an'i znak
       Nktere kody v UCS  jsou  piazeny  tzv.   akcentm.   Tyto  jsou  podobne
       neposouvajicim znakm na psacim stroji. Akcent modifikuje pedchozi znak.
       Nejdleitji znaky s akcenty sice  maji  sve  vlastni  kody  v  UCS,  ale
       akcentove   znaky  dovoluji  pidat  libovolne  diakriticke  znamenko  k
       libovolnemu znaku. Akcent vdy nasleduje  znak,  ktery  je  modifikovan.
       Napiklad,  nmecky znak Umlaut-A ("Velke A v latince s umlautem") me byt
       reprezentovan pomoci kodu UCS 0x00c4 a nebo alternativn jako  kombinace
       normalniho velkeho A, nasledovaneho akcentem umlaut: 0x0041 0x0308.

       Akcenty  jsou  nezbytne nap. pro thajske pismo, pro matematicke tisky a
       pro uivatele Mezinarodni foneticke abecedy.

   'Urovn implementace
       Protoe se neoekava,e vechny systemy budou  podporovat  vechny  varianty
       kodovani, ISO 10646-1 definuje nasledujici ti 'urovn implementace UCS:

       Level 1  Akcenty a znaky Hanghul Jamo (specialni, komplikovane kodovani
                korejskeho  pisma,  kde  jsou  jednotlive  symboly  dany  jako
                sekvence dvou i ti znak) nejsou podporovany.

       Level 2  Jako  level  1,  piem  nktere  kombinujici znaky jsou povoleny
                (nap. pro  thajtinu,  Lao,  hebrejtinu,  arabtinu,  Devangari,
                Malayalam atd.

       Level 3  Vechny znaky z UCS jsou povoleny.

       Standard  Unicode 3.0 publikovany Unicode Consorciem sestava pesn z UCS
       Basic Multilingual Plane na urovni implementace level 3,  definovane  v
       ISO  10646-1:2000.   Unicode  3.1 pidava doplkove plochy z ISO 10646-2.
       Standard Unicode a technicke zpravy, ktere Unicode Consotium publikuje,
       obsahuji  mnoho dodatenych informaci o semantice a doporuenych pouitich
       rznych znak.  Poskytuji  voditka  a  algoritmy  pro  editovani,  tidni,
       porovnavani, normalizovani, konverzi a zobrazovani Unicode etzc.

   Unicode pod Linuxem
       V  GNU/Linuxu  je  datovy typ jazyka C wchar_t definovan jako 32 bitovy
       integer. Knihovna jazyka C jeho hodnoty vdy  interpretuje  jako  kodove
       hodnoty  UCS  (ve  vech  locale),  co  je konvence, kterou GNU knihovna
       jazyka C oznamuje aplikacim definovanim  konstanty  __STDC_ISO_10646__,
       tj. tak, jak to uruje standard ISO C99.

       UCS/Unicode   me  byt,  stejn  jako  ASCII,  pouivano  ve  vstupnich  a
       vystupnich proudech, terminalove komunikaci, souborech prosteho  textu,
       nazvech soubor a promnnych prostedi prostednictvim ASCII kompatibilniho
       vicebajtoveho kodovani UTF-8.  K uivani UTF-8 jako  kodovani  znak  pro
       vechny  aplikace je teba vybrat vhodne locale pomoci promnnych prostedi
       (nap. "LANG=en_GB.UTF-8").

       Funkce nl_langinfo(CODESET) vraci nazev  zvoleneho  kodovani.  Knihovni
       funkce  jako  wctomb(3)   a  mbsrtowcs(3)  mohou byt pouity ke konverzi
       interniho typu  wchar_t  do  kodovani  pouivaneho  systemem  a  naopak.
       Funkce wcwidth(3)  ika, kolik o pozic (0-2) postoupil kurzor po vytitni
       znaku.

       V Linuxu je obecn pouivana pouze BMP Level 1.  Nktere  UTF-8  emulatory
       terminal  a ISO 10646 fonty (level 2) podporuji a dva akcenty pro jeden
       zakladni znak u nkterych pisem (zejm. thajtina), ale obecn by tam,  kde
       je  to mone, mly byt upednostovany znaky s vlastnimi kody.  (Unicode to
       nazyva Normalization Form C).

   Vyhrazen'a oblast
       Kody BMP, v intervalu 0xe000 do  0xf8ff  nikdy  nesmji  byt  definovany
       standardem a jsou vyhrazeny pro privatni pouiti. Pro uivatele Linuxu je
       tato oblast rozdlena na interval od 0xe000 do 0xefff, ktery je uren pro
       individualni pouiti a tzv. Linuxovou zonu od 0xf000 do 0xf8ff, kde jsou
       rozieni definovana pro  vechny  instalace  Linuxu.  Tato  rozieni  jsou
       registrovana (v souasne dob) H. Peter Anvinem <Peter.Anvin@linux.org>.

   Literatura
       * Information  technology  --  Universal Multiple-Octet Coded Character
         Set (UCS) -- Part  1:  Architecture  and  Basic  Multilingual  Plane.
         International  Standard  ISO/IEC  10646-1, International Organization
         for Standardization, Geneva, 2000.

         Toto je oficialni specifikace UCS.  Lze objednat jako PDF  soubor  na
         CD-ROM z http://www.iso.ch/.

       * The   Unicode   Standard,   Version  3.0.   The  Unicode  Consortium,
         Addison-Wesley, Reading, MA, 2000, ISBN 0-201-61633-5.

       * S. Harbison, G.  Steele.  C:  A  Reference  Manual.  Fourth  edition,
         Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.

         Dobra  referenni kniha o jazyku C. tvrte vydani take zahrnuje dodatek
         1 z roku 1994 ke standardu ISO C 90, ktery  pidava  mnoho  knihovnich
         funkci  pro  praci  s  wide-byte  a  multi-byte  kodovanimi,  ale jet
         nezahrnuje ISO C99, ktere dale zlepilo podporu tchto kodovani.

       * Technicke zpravy Unicode.
         http://www.unicode.org/unicode/reports/

       * Markus Kuhn: UTF-8 and Unicode FAQ for Unix/Linux.
         http://www.cl.cam.ac.uk/~mgk25/unicode.html

         Obsahuje  informace,  jak  se   pipojit   ke   e-mailove   konferenci
         linux-utf8,  co  je  nejlepi  misto  pro  hledani  rady ohledn uivani
         Unicode v Linuxu.

       * Bruno Haible: Unicode HOWTO.
         ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html

CHYBY

       V dob psani tohoto manualu byla podpora v Linux libc pro UTF-8  locales
       hotova  a podpora v XFree86 byla v pokroilem stadiu, ale prace na tvorb
       aplikaci  (zejm.  editor)  vhodnych  pro  pouiti  v  UTF-8  locale  jet
       probihaly.  Souasna  obecna  podpora  UCS v Linuxu obvykle zahrnuje CJK
       znaky  s  dvojitou  ikou  a  nkdy  i  jednoduche  akcenty,  ale  vtinou
       nezahrnuje  podporu pro pisma, ktera se pii zprava doleva nebo poadavky
       na ligature substitution, jako nap. hebrejtina, arabtina  nebo  indicka
       pisma.  Tato  pisma  jsou v souasnosti podporovana pouze v nkterych GUI
       aplikacich   (prohliee   HTML,    textove    procesory)    obsahujicich
       sofistikovane nastroje pro vykreslovani textu.

DAL'I INFORMACE

       setlocale(3), charsets(7), utf-8(7)

TIR'A

       Tato  stranka  je  souasti  projektu Linux man-pages.  Popis projektu a
       informace        o        hlaeni        chyb         najdete         na
       http://www.kernel.org/doc/man-pages/.