Ubuntu Manpage: unicode - univerzální znaková sada

JMÉNO

       unicode - univerzální znaková sada

POPIS

The international standard ISO 10646 defines the Universal Character Set (UCS). UCS
contains all characters of all other character set standards. It also guarantees
"round-trip compatibility"; in other words, conversion tables can be built such that no
information is lost when a string is converted from any other encoding to UCS and back.

UCS obsahuje znaky potřebné pro téměř všechny známé jazyky. Mimo jiné je to mnoho jazyků
využívajících rozšíření latinky a také následující jazyky a písma: řečtinu, azbuku,
hebrejštinu, arabštinu, arménštinu, gruzínštinu, japonštinu, čínštinu, korejské ideogramy
Han, písma Hiragana, Katakana, Hangul, Devangari, Bengali, Gurmukhi, Gujarati, Oriya,
Tamil, Telugu, Kannada, Malayalam, thajštinu, Lao, Khmer, Bopomofo, tibetštinu, runové
písmo, etiopštinu, kanadské slabiky, Cherokee, mongolštinu, Ogham, barmštinu, sinhálštinu,
Thaana, Yi a mnoho jiných. Pracuje se na vložení dalších písem jako hieroglyfy a různé
historické indoevropské jazyky, eventuálně by mohly být začleněny některé umělé jazyky,
jako Tengwar, Cirth a klingonština. UCS navíc ke znakům pro tyto jazyky obsahuje grafické,
typografické, matematické a vědecké symboly používané např. v TeXu, PostScriptu, APL,
MS-DOSu, MS-Windows, Macintosh, OCR, stejně tak jako v mnoha systémech pro zpracování
textu a publikování, které neustále přibývají.

Kódování UCS (ISO 10646) popisuje 31-bitovou znakovou sadu, sestávající ze 128 24-bitových
IR skupin , z nichž každá je rozdělena do 256 16-bitových planes(ploch), které se skládají
z 256 8-bitových řad s 256 sloupci - pro každý znak jeden. Část 1 standardu (ISO 10646-1)
definuje prvních 65534 kódů (0x0000 až 0xfffd), tvoří tzv. Basic Multilingual Plane (BMP),
tj. plochu 0 ve skupině 0. Část 2 standardu (ISO 10646-2) doplňuje znaky do skupiny 0
mimo BMP v několika doplňkových plochách v rozsahu 0x100000 až 0x10ffff. Doplnění znaků
nad 0x10ffff se neplánuje, z celého kódového prostoru skupiny 0 bude tedy v dohledné
budoucnosti využita pouze malá část. BMP obsahuje všechny znaky, obsažené v obvykle
užívaných znakových sadách. Doplňkové plochy doplněné v ISO 10646-2 zahrnují pouze
exotické znaky pro zvláštní vědecké použití, tisk slovníků, publikování, vysokoúrovňové
protokoly a nadšence.

Reprezentaci každého UCS znaku jako dvoubajtového slova se říká UCS-2 forma (jen pro znaky
z BMP), zatímco UCS-4 je reprezentace každého znaku čtyřbajtovým slovem. Navíc existují
dvě formy kódování: UTF-8 pro zpětnou kompatibilitu s programy zpracovávajícími ASCII a
UTF-16 pro zpětně kompatibilní zpracování znaků mimo BMP až do 0x10ffff programy
používajícími UCS-2.

Kódování UCS pro znaky mezi 0x0000 a 0x007f je totožné s běžnou sadou US-ASCII a znaky
mezi 0x0000 a 0x00ff jsou totožné se sadou ISO 8859-1 Latin-1.

Spojování znaků
Některé kódy v UCS jsou přiřazeny tzv. akcentům. Tyto jsou podobné neposouvajícím znakům
na psacím stroji. Akcent modifikuje předchozí znak. Nejdůležitější znaky s akcenty sice
mají své vlastní kódy v UCS, ale akcentové znaky dovolují přidat libovolné diakritické
znaménko k libovolnému znaku. Akcent vždy následuje znak, který je modifikován. Například,
německý znak Umlaut-A ("Velké A v latince s umlautem") může být reprezentován pomocí kódu
UCS 0x00c4 a nebo alternativně jako kombinace normálního velkého A, následovaného akcentem
umlaut: 0x0041 0x0308.

Akcenty jsou nezbytné např. pro thajské písmo, pro matematické tisky a pro uživatele
Mezinárodní fonetické abecedy.

Úrovně implementace
Protože se neočekává,že všechny systémy budou podporovat všechny varianty kódování, ISO
10646-1 definuje následující tři úrovně implementace UCS:

Level 1 Akcenty a znaky Hangul Jamo (speciální, komplikované kódování korejského písma,
kde jsou jednotlivé symboly dány jako sekvence dvou či tří znaků) nejsou
podporovány.

Level 2 Jako level 1, přičemž některé kombinující znaky jsou povoleny (např. pro
thajštinu, Lao, hebrejštinu, arabštinu, Devangari, Malayalam).

Level 3 Všechny znaky z UCS jsou povoleny.

Standard Unicode 3.0 publikovaný Unicode Consorciem sestává přesně z UCS Basic
Multilingual Plane na úrovni implementace level 3, definované v ISO 10646-1:2000. Unicode
3.1 přidává doplňkové plochy z ISO 10646-2. Standard Unicode a technické zprávy, které
Unicode Consotium publikuje, obsahují mnoho dodatečných informací o semantice a
doporučených použitích různých znaků. Poskytují vodítka a algoritmy pro editování,
třídění, porovnávání, normalizování, konverzi a zobrazování Unicode řetězců.

Unicode pod Linuxem
V GNU/Linuxu je datový typ jazyka C wchar_t definován jako 32 bitový integer. Knihovna
jazyka C jeho hodnoty vždy interpretuje jako kódové hodnoty UCS (ve všech locale), což je
konvence, kterou GNU knihovna jazyka C oznamuje aplikacím definováním konstanty
__STDC_ISO_10646__, tj. tak, jak to určuje standard ISO C99.

UCS/Unicode může být, stejně jako ASCII, používáno ve vstupních a výstupních proudech,
terminálové komunikaci, souborech prostého textu, názvech souborů a proměnných prostředí
prostřednictvím ASCII kompatibilního vícebajtového kódování UTF-8. K užívání UTF-8 jako
kódování znaků pro všechny aplikace je třeba vybrat vhodné locale pomocí proměnných
prostředí (např. "LANG=en_GB.UTF-8").

The nl_langinfo(CODESET) function returns the name of the selected encoding. Library
functions such as wctomb(3) and mbsrtowcs(3) can be used to transform the internal
wchar_t characters and strings into the system character encoding and back and wcwidth(3)
tells how many positions (0–2) the cursor is advanced by the output of a character.

Private Use Areas (PUA)
In the Basic Multilingual Plane, the range 0xe000 to 0xf8ff will never be assigned to any
characters by the standard and is reserved for private usage. For the Linux community,
this private area has been subdivided further into the range 0xe000 to 0xefff which can be
used individually by any end-user and the Linux zone in the range 0xf000 to 0xf8ff where
extensions are coordinated among all Linux users. The registry of the characters assigned
to the Linux zone is maintained by LANANA and the registry itself is
Documentation/admin-guide/unicode.rst in the Linux kernel sources (or
Documentation/unicode.txt before Linux 4.10).

Two other planes are reserved for private usage, plane 15 (Supplementary Private Use
Area-A, range 0xf0000 to 0xffffd) and plane 16 (Supplementary Private Use Area-B, range
0x100000 to 0x10fffd).

Literatura
* Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1:
Architecture and Basic Multilingual Plane. International Standard ISO/IEC 10646-1,
International Organization for Standardization, Geneva, 2000.

This is the official specification of UCS. Available from ⟨http://www.iso.ch/⟩.

* The Unicode Standard, Version 3.0. The Unicode Consortium, Addison-Wesley, Reading, MA,
2000, ISBN 0-201-61633-5.

* S. Harbison, G. Steele. C: A Reference Manual. Fourth edition, Prentice Hall, Englewood
Cliffs, 1995, ISBN 0-13-326224-3.

Dobrá referenční kniha o jazyku C. Čtvrté vydání také zahrnuje dodatek 1 z roku 1994 ke
standardu ISO C 90, který přidává mnoho knihovních funkcí pro práci s wide-byte a
multi-byte kódováními, ale ještě nezahrnuje ISO C99, které dále zlepšilo podporu těchto
kódování.

* Technické zprávy Unicode.
⟨http://www.unicode.org/reports/⟩

* Markus Kuhn: UTF-8 and Unicode FAQ for UNIX/Linux.
⟨http://www.cl.cam.ac.uk/~mgk25/unicode.html⟩

* Bruno Haible: Unicode HOWTO.
⟨http://www.tldp.org/HOWTO/Unicode-HOWTO.html⟩

DALŠÍ INFORMACE

       locale(1), setlocale(3), charsets(7), utf-8(7)

TIRÁŽ

       Tato stránka je součástí projektu Linux man-pages v5.13.  Popis  projektu  a  informace  o
       hlášení chyb najdete na https://www.kernel.org/doc/man-pages/.

PŘEKLAD

       Překlad  této  příručky  do  španělštiny  vytvořili Jiří Pavlovský <pavlovsk@ff.cuni.cz> a
       Pavel Heimlich <tropikhajma@gmail.com>

       Tento překlad je bezplatná dokumentace; Přečtěte si GNU General Public License  Version  3
       ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩ nebo novější ohledně podmínek autorských práv.
       Neexistuje ŽÁDNÁ ODPOVĚDNOST.

       Pokud narazíte na nějaké  chyby  v  překladu  této  příručky,  pošlete  e-mail  na  adresu
       ⟨translation-team-cs@lists.sourceforge.net⟩.