Provided by: manpages-cs_4.15.0-9_all bug

JMÉNO

       unicode - univerzální znaková sada

POPIS

       The  international  standard  ISO  10646  defines  the  Universal Character Set (UCS). UCS
       contains all  characters  of  all  other  character  set  standards.  It  also  guarantees
       "round-trip  compatibility";  in  other words, conversion tables can be built such that no
       information is lost when a string is converted from any other encoding to UCS and back.

       UCS obsahuje znaky potřebné pro téměř všechny známé jazyky. Mimo jiné je to  mnoho  jazyků
       využívajících  rozšíření  latinky  a  také  následující  jazyky  a písma: řečtinu, azbuku,
       hebrejštinu, arabštinu, arménštinu, gruzínštinu, japonštinu, čínštinu, korejské  ideogramy
       Han,  písma  Hiragana,  Katakana,  Hangul,  Devangari, Bengali, Gurmukhi, Gujarati, Oriya,
       Tamil, Telugu, Kannada, Malayalam, thajštinu, Lao,  Khmer,  Bopomofo,  tibetštinu,  runové
       písmo, etiopštinu, kanadské slabiky, Cherokee, mongolštinu, Ogham, barmštinu, sinhálštinu,
       Thaana, Yi a mnoho jiných. Pracuje se na vložení dalších písem  jako  hieroglyfy  a  různé
       historické  indoevropské  jazyky,  eventuálně by mohly být začleněny některé umělé jazyky,
       jako Tengwar, Cirth a klingonština. UCS navíc ke znakům pro tyto jazyky obsahuje grafické,
       typografické,  matematické  a  vědecké  symboly  používané např. v TeXu, PostScriptu, APL,
       MS-DOSu, MS-Windows, Macintosh, OCR, stejně tak jako  v  mnoha  systémech  pro  zpracování
       textu a publikování, které neustále přibývají.

       Kódování UCS (ISO 10646) popisuje 31-bitovou znakovou sadu, sestávající ze 128 24-bitových
       IR skupin , z nichž každá je rozdělena do 256 16-bitových planes(ploch), které se skládají
       z  256 8-bitových řad s 256 sloupci - pro každý znak jeden. Část 1 standardu (ISO 10646-1)
       definuje prvních 65534 kódů (0x0000 až 0xfffd), tvoří tzv. Basic Multilingual Plane (BMP),
       tj.  plochu  0  ve  skupině 0. Část 2 standardu (ISO 10646-2)  doplňuje znaky do skupiny 0
       mimo BMP v několika doplňkových plochách v rozsahu 0x100000 až  0x10ffff.  Doplnění  znaků
       nad  0x10ffff  se  neplánuje,  z  celého  kódového prostoru skupiny 0 bude tedy v dohledné
       budoucnosti využita pouze malá část.  BMP  obsahuje  všechny  znaky,  obsažené  v  obvykle
       užívaných  znakových  sadách.  Doplňkové  plochy  doplněné  v  ISO  10646-2 zahrnují pouze
       exotické znaky pro zvláštní vědecké použití, tisk  slovníků,  publikování,  vysokoúrovňové
       protokoly a nadšence.

       Reprezentaci každého UCS znaku jako dvoubajtového slova se říká UCS-2 forma (jen pro znaky
       z BMP), zatímco UCS-4 je reprezentace každého znaku čtyřbajtovým  slovem.  Navíc  existují
       dvě  formy  kódování:  UTF-8 pro zpětnou kompatibilitu s programy zpracovávajícími ASCII a
       UTF-16 pro  zpětně  kompatibilní  zpracování  znaků  mimo  BMP  až  do  0x10ffff  programy
       používajícími UCS-2.

       Kódování  UCS  pro  znaky  mezi 0x0000 a 0x007f je totožné s běžnou sadou US-ASCII a znaky
       mezi 0x0000 a 0x00ff jsou totožné se sadou ISO 8859-1 Latin-1.

   Spojování znaků
       Některé kódy v UCS jsou přiřazeny tzv. akcentům. Tyto jsou podobné  neposouvajícím  znakům
       na  psacím  stroji.  Akcent modifikuje předchozí znak. Nejdůležitější znaky s akcenty sice
       mají své vlastní kódy v UCS, ale akcentové znaky  dovolují  přidat  libovolné  diakritické
       znaménko k libovolnému znaku. Akcent vždy následuje znak, který je modifikován. Například,
       německý znak Umlaut-A ("Velké A v latince s umlautem") může být reprezentován pomocí  kódu
       UCS 0x00c4 a nebo alternativně jako kombinace normálního velkého A, následovaného akcentem
       umlaut: 0x0041 0x0308.

       Akcenty jsou nezbytné např. pro thajské písmo,  pro  matematické  tisky  a  pro  uživatele
       Mezinárodní fonetické abecedy.

   Úrovně implementace
       Protože  se  neočekává,že  všechny systémy budou podporovat všechny varianty kódování, ISO
       10646-1 definuje následující tři úrovně implementace UCS:

       Level 1  Akcenty a znaky Hangul Jamo (speciální, komplikované kódování  korejského  písma,
                kde  jsou  jednotlivé  symboly  dány  jako  sekvence  dvou  či  tří znaků) nejsou
                podporovány.

       Level 2  Jako level  1,  přičemž  některé  kombinující  znaky  jsou  povoleny  (např.  pro
                thajštinu, Lao, hebrejštinu, arabštinu, Devangari, Malayalam).

       Level 3  Všechny znaky z UCS jsou povoleny.

       Standard   Unicode   3.0  publikovaný  Unicode  Consorciem  sestává  přesně  z  UCS  Basic
       Multilingual Plane na úrovni implementace level 3, definované v ISO 10646-1:2000.  Unicode
       3.1  přidává  doplňkové  plochy  z ISO 10646-2. Standard Unicode a technické zprávy, které
       Unicode  Consotium  publikuje,  obsahují  mnoho  dodatečných  informací  o   semantice   a
       doporučených  použitích  různých  znaků.  Poskytují  vodítka  a  algoritmy  pro editování,
       třídění, porovnávání, normalizování, konverzi a zobrazování Unicode řetězců.

   Unicode pod Linuxem
       V GNU/Linuxu je datový typ jazyka C wchar_t definován jako  32  bitový  integer.  Knihovna
       jazyka  C jeho hodnoty vždy interpretuje jako kódové hodnoty UCS (ve všech locale), což je
       konvence,  kterou  GNU  knihovna  jazyka  C  oznamuje  aplikacím   definováním   konstanty
       __STDC_ISO_10646__, tj. tak, jak to určuje standard ISO C99.

       UCS/Unicode  může  být,  stejně  jako ASCII, používáno ve vstupních a výstupních proudech,
       terminálové komunikaci, souborech prostého textu, názvech souborů a  proměnných  prostředí
       prostřednictvím  ASCII  kompatibilního  vícebajtového kódování UTF-8. K užívání UTF-8 jako
       kódování znaků pro všechny aplikace  je  třeba  vybrat  vhodné  locale  pomocí  proměnných
       prostředí (např. "LANG=en_GB.UTF-8").

       The  nl_langinfo(CODESET)  function  returns  the  name  of the selected encoding. Library
       functions such as wctomb(3)  and mbsrtowcs(3)  can  be  used  to  transform  the  internal
       wchar_t  characters and strings into the system character encoding and back and wcwidth(3)
       tells how many positions (0–2) the cursor is advanced by the output of a character.

   Private Use Areas (PUA)
       In the Basic Multilingual Plane, the range 0xe000 to 0xf8ff will never be assigned to  any
       characters  by  the  standard  and is reserved for private usage. For the Linux community,
       this private area has been subdivided further into the range 0xe000 to 0xefff which can be
       used  individually  by any end-user and the Linux zone in the range 0xf000 to 0xf8ff where
       extensions are coordinated among all Linux users. The registry of the characters  assigned
       to   the   Linux   zone   is   maintained   by   LANANA   and   the   registry  itself  is
       Documentation/admin-guide/unicode.rst    in    the    Linux     kernel     sources     (or
       Documentation/unicode.txt before Linux 4.10).

       Two  other  planes  are  reserved  for  private usage, plane 15 (Supplementary Private Use
       Area-A, range 0xf0000 to 0xffffd)  and plane 16 (Supplementary Private Use  Area-B,  range
       0x100000 to 0x10fffd).

   Literatura
       *  Information  technology  — Universal Multiple-Octet Coded Character Set (UCS) — Part 1:
          Architecture and Basic Multilingual  Plane.  International  Standard  ISO/IEC  10646-1,
          International Organization for Standardization, Geneva, 2000.

          This is the official specification of UCS. Available from ⟨http://www.iso.ch/⟩.

       *  The Unicode Standard, Version 3.0. The Unicode Consortium, Addison-Wesley, Reading, MA,
          2000, ISBN 0-201-61633-5.

       *  S. Harbison, G. Steele. C: A Reference Manual. Fourth edition, Prentice Hall, Englewood
          Cliffs, 1995, ISBN 0-13-326224-3.

          Dobrá referenční kniha o jazyku C. Čtvrté vydání také zahrnuje dodatek 1 z roku 1994 ke
          standardu ISO C 90, který přidává mnoho knihovních  funkcí  pro  práci  s  wide-byte  a
          multi-byte kódováními, ale ještě nezahrnuje ISO C99, které dále zlepšilo podporu těchto
          kódování.

       *  Technické zprávy Unicode.
          ⟨http://www.unicode.org/reports/⟩

       *  Markus Kuhn: UTF-8 and Unicode FAQ for UNIX/Linux.
          ⟨http://www.cl.cam.ac.uk/~mgk25/unicode.html⟩

       *  Bruno Haible: Unicode HOWTO.
          ⟨http://www.tldp.org/HOWTO/Unicode-HOWTO.html

DALŠÍ INFORMACE

       locale(1), setlocale(3), charsets(7), utf-8(7)

TIRÁŽ

       Tato stránka je součástí projektu Linux man-pages v5.13.  Popis  projektu  a  informace  o
       hlášení chyb najdete na https://www.kernel.org/doc/man-pages/.

PŘEKLAD

       Překlad  této  příručky  do  španělštiny  vytvořili Jiří Pavlovský <pavlovsk@ff.cuni.cz> a
       Pavel Heimlich <tropikhajma@gmail.com>

       Tento překlad je bezplatná dokumentace; Přečtěte si GNU General Public License  Version  3
       ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩ nebo novější ohledně podmínek autorských práv.
       Neexistuje ŽÁDNÁ ODPOVĚDNOST.

       Pokud narazíte na nějaké  chyby  v  překladu  této  příručky,  pošlete  e-mail  na  adresu
       ⟨translation-team-cs@lists.sourceforge.net⟩.