Provided by:
manpages-pl_20060617-4_all 
NAZWA
Unicode - zunifikowany 16-bitowy superzestaw znakow
OPIS
Midzynarodowy standard ISO 10646 definiuje Universal Character Set
(UCS). UCS zawiera wszelkie znaki wszelkich innych zestawow znakow.
Gwarantuje on rownie kompatybilno na okrg/lo, tj. budowanie takich
tablic konwersji, e podczas konwersji lacucha z jednego kodowania na
UCS i z powrotem nie jest tracona adna informacja.
UCS zawiera znaki wymagane do przedstawienia prawie wszystkich znanych
jzykow. Obejmuje to, oprocz wielu jzykow ktore uywaj rozszerze pisma
laciskiego, take nastpujce pisma i jzyki: grecki, cyrylica, hebrajski,
arabski, armeski, gruziski, japoski, chiski, hiragana, katakana,
koreaski, hangul, devangari, bengalski, gurmukji, gujarati, tamilski,
oriya, telugu, kannada, malajlamski, tajski, lao, bopomofo i pewn liczb
innych. Trwaj prace nad wlczeniem innych pism, jak tybetaskiego,
khmerskiego, runicznego, etiopskiego, hieroglifow, ronych jzykow
indoeuropejskich i wielu innych. Dla wikszoci z tych drugich jzykow w
momencie opublikowania standardu w 1993, nie bylo jeszcze jasnym jak
mona je najlepiej zakodowa. Dodatkowo oprocz znakow wymaganych przez
pisma, wlczono take duy zestaw symboli graficznych, typograficznych,
matematycznych i naukowych, dostarczanych z TeX-em, PostScriptem, MS-
DOS-em, Macintoshem, Videotextem, OCR i wieloma innymi systemami
przetwarzania tekstow, a take kody specjalne, gwarantujce "kompatybilno
na okrglo" z wszelkimi innymi istniejcymi zestawami znakow.
Standard UCS (ISO 10646) opisuje zestaw znakow o architekturze
31-bitowej. Jednake dzisiaj tylko pierwszym 65534 pozycjom kodowania
(0x000 do 0xfffd), zwane Basic Multilingual Plane (BMP), przypisano
znaki, i spodziewane jest, e tylko bardzo egzotyczne znaki (np.
hieroglify) do specjalnych celow naukowych otrzymaj miejsce poza ow
16-bitow BMP.
Znaki UCS 0x0000 do 0x007f s identyczne z tymi w klasycznym zestawie
znakow US-ASCII, a znaki w zakresie 0x000 do 0x00ff s identyczne z tymi
w zestawie znakow ISO 8859-1 .
ZNAKI SK/LADAJCE
Niektore punkty kodowe w UCS zostaly przypisane do znak'ow sk/ladajcych.
Podobne s one do niespacyjnych klawiszy akcentow na maszynie do
pisania. Znak skladajcy dodaje akcent do poprzedniego znaku.
Najwaniejsze znaki akcentowane maj osobne kody w UCS, jednak mechanizm
znakow skladajcych pozwala dodawa akcenty i inne znaki diakrytyczne do
kadego znaku. Znaki skladajce zawsze nastpuj po znaku, ktory
modyfikuj. Dla przykladu, niemiecki znak A-umlaut ("Latin capital
letter A with diaeresis") moe by przedstawiony za pomoc bd to
istniejcego ju zloonego znaku UCS o kodzie 0x00c4, bd alternatywnie
jako kombinacja zwyklych znakow "capital letter A" i "combining
diaeresis": 0x0041 0x0308.
POZIOMY IMPLEMENTACJI
Poniewa naley si spodziewa, e nie wszystkie systemy bd obslugiwa
zaawansowane mechanizmy w rodzaju skladania znakow, ISO 10646 okrela
nastpujce trzy poziomy implementacji UCS:
Poziom 1 Nieobslugiwane s znaki skladane i Hangul Jamo (specjalne,
bardziej skomplikowane kodowanie pisma koreaskiego, w ktorym
sylaby Hangul s kodowane jako dwa lub trzy podznaki).
Poziom 2 Jak poziom 1, jednake w niektorych pismach zezwala si ju na
niektore znaki skladajce (np. hebrajski, arabski, devangari,
bengalski, gurmukhi, gujarati, oriya, tamlilski, telugu,
kannaga, malajlamski, tajski i lao).
Level 3 Wszystkie znaki UCS s obslugiwane.
Standard Unicode 1.1, opublikowany przez Unicode Consortium, zawiera
dokladnie UCS Basic Multilingual Plane na trzecim poziomie
implementacji, jak to opisano w ISO 10646. Unicode 1.1 dodaje take
niektore definicje semantyczne pewnych znakow do definicji ISO 10646.
UNICODE W LINUKSIE
W Linuksie obecnie powinno uywa si BMP tylko na pierwszym poziomie
implementacji, aby unikn komplikacji wynikajcych ze znakow skladanych.
Wysze poziomy implementacji s odpowiedniejsze dla specjalnych formatow
przetwarzania tekstow, ale nie jako ogolny systemowy zestaw znakow. Typ
w C wchar_t jest w Linuksie 16-bitow liczb calkowit bez znaku i jego
wartoci interpretowane s jako kody UCS na poziomie 1 BMP .
Ustawienie locale okrela czy systemowym kodowaniem znakow jest na
przyklad UTF-8 czy ISO 8859-1. Do transformacji wewntrznych znakow
wchar_t i lacuchow na systemowe kodowanie znakow i na odwrot mog zosta
uyte funkcje biblioteczne w rodzaju wctomb, mbtowc, albo wprintf.
OBSZAR PRYWATNY
W BMP, kodom z zakresu 0xe000 do 0xf8ff nigdy nie zostan przypisane
znaki; s one zarezerwowane do uytku prywatnego. Dla spolecznoci
Linuksowej ow obszar prywatny zostal dalej podzielony na zakres od
0xe000 do 0xefff, ktorego moe uywa indywidualnie kady uytkownik, oraz
stref linuksow w zakresie 0xf000 do 0xf8ff, ktorej rozszerzanie podlega
koordynacji pomidzy wszystkimi uytkownikami Linuksa. Rejestr znakow
przypisanych do strefy Linuksowej utrzymuje obecnie H. Peter Anvin
<Peter.Anvin@linux.org> z Yggdrasil Computing, Inc. Zawiera one
niektore znaki graficzne DEC VT100 ktorych brakuje w Unicode, daje
bezporedni dostp do znakow w buforze fontu konsoli i zawiera znaki
uywane przez kilka bardziej zaawansowanych pism, jak klingoski.
LITERATURA
* Information technology - Universal Multiple-Octet Coded Character Set
(UCS) - Part 1: Architecture and Basic Multilingual Plane.
International Standard ISO 10646-1, International Organization for
Standardization, Genewa, 1993.
Jest to oficjalna specyfikacja UCS. Calkiem oficjalna, calkiem
gruba, i calkiem droga. Co do informacji o zamowieniu, zobacz
http://www.iso.ch.
* The Unicode Standard - Worldwide Character Encoding Version 1.0. The
Unicode Consortium, Addison-Wesley, Reading, MA, 1991.
Dostpny jest ju Unicode 1.1.4. Zmiany w stosunku do ksiki
[opisujcej] 1.0 s dostpne na ftp://ftp.unicode.org. Unicode 2.0
zostanie opublikowany w postaci ksikowej w 1996.
* S. Harbison, G. Steele. C - A Reference Manual. Fourth edition,
Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.
Dobra ksika-informator jzyka programowania C. Czwarte wydanie
obejmuje take 1 Poprawk do standardu C ISO (ISO/IEC 9899:1990) z
1994, ktora dodaje znaczn liczb nowych funkcji bibliotecznych C do
obslugi wielobajtowych zestawow znakow.
B/LDY
W czasie pisania tej strony man obsluga UCS w Linuksowej libc byla
daleka od kompletnej.
AUTOR
Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>
ZOBACZ TAKE
utf-8(7)
INFORMACJE O T/LUMACZENIU
Powysze tlumaczenie pochodzi z nieistniejcego ju Projektu Tlumaczenia
Manuali i moe nie by aktualne. W razie zauwaenia ronic midzy powyszym
opisem a rzeczywistym zachowaniem opisywanego programu lub funkcji,
prosimy o zapoznanie si z oryginaln (angielsk) wersj strony podrcznika.