oracular (7) unicode.7.gz

Provided by: manpages-cs_4.23.1-1_all bug

JMÉNO

       unicode - univerzální znaková sada

POPIS

       The  international  standard  ISO/IEC  10646  defines the Universal Character Set (UCS). UCS contains all
       characters of all other character set standards. It also guarantees "round-trip compatibility"; in  other
       words,  conversion  tables  can be built such that no information is lost when a string is converted from
       any other encoding to UCS and back.

       UCS obsahuje znaky potřebné pro téměř všechny známé jazyky. Mimo jiné je to  mnoho  jazyků  využívajících
       rozšíření latinky a také následující jazyky a písma: řečtinu, azbuku, hebrejštinu, arabštinu, arménštinu,
       gruzínštinu, japonštinu, čínštinu, korejské ideogramy Han, písma Hiragana, Katakana,  Hangul,  Devangari,
       Bengali,  Gurmukhi,  Gujarati, Oriya, Tamil, Telugu, Kannada, Malayalam, thajštinu, Lao, Khmer, Bopomofo,
       tibetštinu,  runové  písmo,  etiopštinu,  kanadské  slabiky,  Cherokee,  mongolštinu,  Ogham,  barmštinu,
       sinhálštinu,  Thaana,  Yi  a  mnoho  jiných.  Pracuje se na vložení dalších písem jako hieroglyfy a různé
       historické indoevropské jazyky, eventuálně by mohly být začleněny některé  umělé  jazyky,  jako  Tengwar,
       Cirth  a klingonština. UCS navíc ke znakům pro tyto jazyky obsahuje grafické, typografické, matematické a
       vědecké symboly používané např. v TeXu, PostScriptu, APL, MS-DOSu, MS-Windows, Macintosh, OCR, stejně tak
       jako v mnoha systémech pro zpracování textu a publikování, které neustále přibývají.

       The  UCS  standard (ISO/IEC 10646) describes a 31-bit character set architecture consisting of 128 24-bit
       groups, each divided into 256 16-bit planes made up of 256 8-bit rows with 256 column positions, one  for
       each  character. Part 1 of the standard (ISO/IEC 10646-1)  defines the first 65534 code positions (0x0000
       to 0xfffd), which form the Basic Multilingual Plane (BMP), that is plane 0 in group  0.  Part  2  of  the
       standard (ISO/IEC 10646-2)  adds characters to group 0 outside the BMP in several supplementary planes in
       the range 0x10000 to 0x10ffff. There are no plans to add characters  beyond  0x10ffff  to  the  standard,
       therefore  of  the  entire code space, only a small fraction of group 0 will ever be actually used in the
       foreseeable future. The BMP contains all characters found in the commonly used other character sets.  The
       supplemental  planes  added  by ISO/IEC 10646-2 cover only more exotic characters for special scientific,
       dictionary printing, publishing industry, higher-level protocol and enthusiast needs.

       Reprezentaci každého UCS znaku jako dvoubajtového slova se říká  UCS-2  forma  (jen  pro  znaky  z  BMP),
       zatímco UCS-4 je reprezentace každého znaku čtyřbajtovým slovem. Navíc existují dvě formy kódování: UTF-8
       pro zpětnou kompatibilitu s programy zpracovávajícími ASCII a UTF-16 pro zpětně  kompatibilní  zpracování
       znaků mimo BMP až do 0x10ffff programy používajícími UCS-2.

       The  UCS characters 0x0000 to 0x007f are identical to those of the classic US-ASCII character set and the
       characters in the range 0x0000 to 0x00ff are identical to those in ISO/IEC 8859-1 (Latin-1).

   Spojování znaků
       Některé kódy v UCS jsou přiřazeny tzv. akcentům.  Tyto  jsou  podobné  neposouvajícím  znakům  na  psacím
       stroji.  Akcent  modifikuje  předchozí  znak. Nejdůležitější znaky s akcenty sice mají své vlastní kódy v
       UCS, ale akcentové znaky dovolují přidat libovolné diakritické znaménko k libovolnému znaku. Akcent  vždy
       následuje  znak,  který je modifikován. Například, německý znak Umlaut-A ("Velké A v latince s umlautem")
       může být reprezentován pomocí kódu UCS 0x00c4 a nebo alternativně jako kombinace  normálního  velkého  A,
       následovaného akcentem umlaut: 0x0041 0x0308.

       Akcenty  jsou  nezbytné  např.  pro  thajské  písmo,  pro  matematické  tisky a pro uživatele Mezinárodní
       fonetické abecedy.

   Úrovně implementace
       As not all systems are expected to support advanced mechanisms like combining characters, ISO/IEC 10646-1
       specifies the following three implementation levels of UCS:

       Level 1  Akcenty  a  znaky  Hangul  Jamo  (speciální,  komplikované  kódování  korejského písma, kde jsou
                jednotlivé symboly dány jako sekvence dvou či tří znaků) nejsou podporovány.

       Level 2  Jako level 1, přičemž některé  kombinující  znaky  jsou  povoleny  (např.  pro  thajštinu,  Lao,
                hebrejštinu, arabštinu, Devangari, Malayalam).

       Level 3  Všechny znaky z UCS jsou povoleny.

       The  Unicode 3.0 Standard published by the Unicode Consortium contains exactly the UCS Basic Multilingual
       Plane at implementation level 3, as described in ISO/IEC 10646-1:2000. Unicode 3.1 added the supplemental
       planes of ISO/IEC 10646-2. The Unicode standard and technical reports published by the Unicode Consortium
       provide much additional information on the semantics and recommended usages of various  characters.  They
       provide  guidelines  and  algorithms  for  editing,  sorting,  comparing,  normalizing,  converting,  and
       displaying Unicode strings.

   Unicode pod Linuxem
       V GNU/Linuxu je datový typ jazyka C wchar_t definován jako 32 bitový  integer.  Knihovna  jazyka  C  jeho
       hodnoty vždy interpretuje jako kódové hodnoty UCS (ve všech locale), což je konvence, kterou GNU knihovna
       jazyka C oznamuje aplikacím definováním konstanty __STDC_ISO_10646__, tj. tak, jak to určuje standard ISO
       C99.

       UCS/Unicode  může  být,  stejně  jako  ASCII,  používáno  ve vstupních a výstupních proudech, terminálové
       komunikaci, souborech prostého textu,  názvech  souborů  a  proměnných  prostředí  prostřednictvím  ASCII
       kompatibilního  vícebajtového kódování UTF-8. K užívání UTF-8 jako kódování znaků pro všechny aplikace je
       třeba vybrat vhodné locale pomocí proměnných prostředí (např. "LANG=en_GB.UTF-8").

       Funkce  nl_langinfo(CODESET)  vrací  název  zvoleného  kódování.  Knihovní  funkce  jako   wctomb(3)    a
       mbsrtowcs(3)   mohou  být  použity  ke konverzi interního typu wchar_t do kódování používaného systémem a
       naopak. Funkce wcwidth(3)  říká, kolik o pozic (0–2) postoupil kurzor po vytištění znaku.

   Private Use Areas (PUA)
       In the Basic Multilingual Plane, the range 0xe000 to 0xf8ff will never be assigned to any  characters  by
       the  standard  and  is  reserved  for  private usage. For the Linux community, this private area has been
       subdivided further into the range 0xe000 to 0xefff which can be used individually by any end-user and the
       Linux  zone  in  the  range  0xf000 to 0xf8ff where extensions are coordinated among all Linux users. The
       registry of the characters assigned to the Linux zone is maintained by LANANA and the registry itself  is
       Documentation/admin-guide/unicode.rst  in  the  Linux kernel sources (or Documentation/unicode.txt before
       Linux 4.10).

       Two other planes are reserved for private usage,  plane  15  (Supplementary  Private  Use  Area-A,  range
       0xf0000 to 0xffffd)  and plane 16 (Supplementary Private Use Area-B, range 0x100000 to 0x10fffd).

   Literatura
       •  Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1: Architecture and
          Basic Multilingual Plane. International  Standard  ISO/IEC  10646-1,  International  Organization  for
          Standardization, Geneva, 2000.

          This is the official specification of UCS. Available from ⟨http://www.iso.ch/⟩.

       •  The  Unicode  Standard,  Version  3.0. The Unicode Consortium, Addison-Wesley, Reading, MA, 2000, ISBN
          0-201-61633-5.

       •  S. Harbison, G. Steele. C: A Reference Manual. Fourth edition, Prentice Hall, Englewood Cliffs,  1995,
          ISBN 0-13-326224-3.

          Dobrá  referenční kniha o jazyku C. Čtvrté vydání také zahrnuje dodatek 1 z roku 1994 ke standardu ISO
          C 90, který přidává mnoho knihovních funkcí pro práci s wide-byte a multi-byte kódováními,  ale  ještě
          nezahrnuje ISO C99, které dále zlepšilo podporu těchto kódování.

       •  Technické zprávy Unicode.
          ⟨http://www.unicode.org/reports/⟩

       •  Markus Kuhn: UTF-8 and Unicode FAQ for UNIX/Linux.
          ⟨http://www.cl.cam.ac.uk/~mgk25/unicode.html⟩

       •  Bruno Haible: Unicode HOWTO.
          ⟨http://www.tldp.org/HOWTO/Unicode-HOWTO.html

DALŠÍ INFORMACE

       locale(1), setlocale(3), charsets(7), utf-8(7)

PŘEKLAD

       Překlad  této  příručky  do  češtiny  vytvořili  Jiří  Pavlovský  <pavlovsk@ff.cuni.cz>  a Pavel Heimlich
       <tropikhajma@gmail.com>

       Tento  překlad  je  bezplatná  dokumentace;  Přečtěte  si  GNU   General   Public   License   Version   3
       ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩  nebo  novější  ohledně  podmínek autorských práv. Neexistuje
       ŽÁDNÁ ODPOVĚDNOST.

       Pokud narazíte na nějaké chyby v překladu této příručky,  pošlete  e-mail  na  adresu  ⟨translation-team-
       cs@lists.sourceforge.net⟩.