Provided by: manpages-pl_20060617-4_all bug

NAZWA

    Unicode - zunifikowany 16-bitowy superzestaw znakow

OPIS

    Midzynarodowy standard ISO 10646 definiuje Universal Character Set
    (UCS). UCS zawiera wszelkie znaki wszelkich innych zestawow znakow.
    Gwarantuje on rownie kompatybilno na okrg/lo, tj. budowanie takich
    tablic konwersji, e podczas konwersji lacucha z jednego kodowania na
    UCS i z powrotem nie jest tracona adna informacja.

    UCS zawiera znaki wymagane do przedstawienia prawie wszystkich znanych
    jzykow. Obejmuje to, oprocz wielu jzykow ktore uywaj rozszerze pisma
    laciskiego, take nastpujce pisma i jzyki: grecki, cyrylica, hebrajski,
    arabski, armeski, gruziski, japoski, chiski, hiragana,  katakana,
    koreaski, hangul, devangari, bengalski, gurmukji, gujarati, tamilski,
    oriya, telugu, kannada, malajlamski, tajski, lao, bopomofo i pewn liczb
    innych.  Trwaj prace nad wlczeniem innych pism, jak tybetaskiego,
    khmerskiego, runicznego, etiopskiego, hieroglifow,  ronych  jzykow
    indoeuropejskich i wielu innych. Dla wikszoci z tych drugich jzykow w
    momencie opublikowania standardu w 1993, nie bylo jeszcze jasnym jak
    mona je najlepiej zakodowa. Dodatkowo oprocz znakow wymaganych przez
    pisma, wlczono take duy zestaw symboli graficznych, typograficznych,
    matematycznych i naukowych, dostarczanych z TeX-em, PostScriptem, MS-
    DOS-em, Macintoshem, Videotextem, OCR i wieloma innymi systemami
    przetwarzania tekstow, a take kody specjalne, gwarantujce "kompatybilno
    na okrglo" z wszelkimi innymi istniejcymi zestawami znakow.

    Standard UCS (ISO 10646) opisuje zestaw znakow o  architekturze
    31-bitowej. Jednake dzisiaj tylko pierwszym 65534 pozycjom kodowania
    (0x000 do 0xfffd), zwane Basic Multilingual Plane (BMP), przypisano
    znaki, i spodziewane jest, e tylko bardzo egzotyczne znaki (np.
    hieroglify) do specjalnych celow naukowych otrzymaj miejsce poza ow
    16-bitow BMP.

    Znaki UCS 0x0000 do 0x007f s identyczne z tymi w klasycznym zestawie
    znakow US-ASCII, a znaki w zakresie 0x000 do 0x00ff s identyczne z tymi
    w zestawie znakow ISO 8859-1 .

ZNAKI SK/LADAJCE

    Niektore punkty kodowe w UCS zostaly przypisane do znak'ow sk/ladajcych.
    Podobne s one do niespacyjnych klawiszy akcentow na maszynie do
    pisania.  Znak  skladajcy  dodaje  akcent do poprzedniego znaku.
    Najwaniejsze znaki akcentowane maj osobne kody w UCS, jednak mechanizm
    znakow skladajcych pozwala dodawa akcenty i inne znaki diakrytyczne do
    kadego znaku.  Znaki skladajce zawsze nastpuj po  znaku,  ktory
    modyfikuj.  Dla przykladu, niemiecki znak A-umlaut ("Latin capital
    letter A with diaeresis") moe by przedstawiony za pomoc bd to
    istniejcego ju zloonego znaku UCS o kodzie 0x00c4, bd alternatywnie
    jako kombinacja zwyklych znakow "capital letter A" i "combining
    diaeresis": 0x0041 0x0308.

POZIOMY IMPLEMENTACJI

    Poniewa naley si spodziewa, e nie wszystkie systemy bd obslugiwa
    zaawansowane mechanizmy w rodzaju skladania znakow, ISO 10646 okrela
    nastpujce trzy poziomy implementacji UCS:

    Poziom 1 Nieobslugiwane s znaki skladane i Hangul Jamo (specjalne,
        bardziej skomplikowane kodowanie pisma koreaskiego, w ktorym
        sylaby Hangul s kodowane jako dwa lub trzy podznaki).

    Poziom 2 Jak poziom 1, jednake w niektorych pismach zezwala si ju na
        niektore znaki skladajce (np. hebrajski, arabski, devangari,
        bengalski,  gurmukhi, gujarati, oriya, tamlilski, telugu,
        kannaga, malajlamski, tajski i lao).

    Level 3 Wszystkie znaki UCS s obslugiwane.

    Standard Unicode 1.1, opublikowany przez Unicode Consortium, zawiera
    dokladnie  UCS  Basic  Multilingual  Plane  na  trzecim poziomie
    implementacji, jak to opisano w ISO 10646. Unicode 1.1 dodaje take
    niektore definicje semantyczne pewnych znakow do definicji ISO 10646.

UNICODE W LINUKSIE

    W Linuksie obecnie powinno uywa si BMP tylko na pierwszym poziomie
    implementacji, aby unikn komplikacji wynikajcych ze znakow skladanych.
    Wysze poziomy implementacji s odpowiedniejsze dla specjalnych formatow
    przetwarzania tekstow, ale nie jako ogolny systemowy zestaw znakow. Typ
    w C wchar_t jest w Linuksie 16-bitow liczb calkowit bez znaku i jego
    wartoci interpretowane s jako kody UCS na poziomie 1 BMP .

    Ustawienie locale okrela czy systemowym kodowaniem znakow jest na
    przyklad UTF-8 czy ISO 8859-1. Do transformacji wewntrznych znakow
    wchar_t i lacuchow na systemowe kodowanie znakow i na odwrot mog zosta
    uyte funkcje biblioteczne w rodzaju wctomb, mbtowc, albo wprintf.

OBSZAR PRYWATNY

    W BMP, kodom z zakresu 0xe000 do 0xf8ff nigdy nie zostan przypisane
    znaki; s one zarezerwowane do uytku prywatnego.  Dla spolecznoci
    Linuksowej ow obszar prywatny zostal dalej podzielony na zakres od
    0xe000 do 0xefff, ktorego moe uywa indywidualnie kady uytkownik, oraz
    stref linuksow w zakresie 0xf000 do 0xf8ff, ktorej rozszerzanie podlega
    koordynacji pomidzy wszystkimi uytkownikami Linuksa. Rejestr znakow
    przypisanych do strefy Linuksowej utrzymuje obecnie H. Peter Anvin
    <Peter.Anvin@linux.org> z Yggdrasil Computing, Inc.  Zawiera  one
    niektore znaki graficzne DEC VT100 ktorych brakuje w Unicode, daje
    bezporedni dostp do znakow w buforze fontu konsoli i zawiera znaki
    uywane przez kilka bardziej zaawansowanych pism, jak klingoski.

LITERATURA

    * Information technology - Universal Multiple-Octet Coded Character Set
     (UCS) - Part 1: Architecture and  Basic  Multilingual  Plane.
     International Standard ISO 10646-1, International Organization for
     Standardization, Genewa, 1993.

     Jest to oficjalna specyfikacja UCS.  Calkiem oficjalna, calkiem
     gruba, i calkiem droga.  Co do informacji o zamowieniu, zobacz
     http://www.iso.ch.

    * The Unicode Standard - Worldwide Character Encoding Version 1.0. The
     Unicode Consortium, Addison-Wesley, Reading, MA, 1991.

     Dostpny  jest  ju Unicode 1.1.4.  Zmiany w stosunku do ksiki
     [opisujcej] 1.0 s dostpne na ftp://ftp.unicode.org.  Unicode 2.0
     zostanie opublikowany w postaci ksikowej w 1996.

    * S. Harbison, G. Steele. C - A Reference Manual. Fourth edition,
     Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.

     Dobra ksika-informator jzyka programowania C.  Czwarte  wydanie
     obejmuje take 1 Poprawk do standardu C ISO (ISO/IEC 9899:1990) z
     1994, ktora dodaje znaczn liczb nowych funkcji bibliotecznych C do
     obslugi wielobajtowych zestawow znakow.

B/LDY

    W czasie pisania tej strony man obsluga UCS w Linuksowej libc byla
    daleka od kompletnej.

AUTOR

    Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>

ZOBACZ TAKE

    utf-8(7)

INFORMACJE O T/LUMACZENIU

    Powysze tlumaczenie pochodzi z nieistniejcego ju Projektu Tlumaczenia
    Manuali i moe nie by aktualne. W razie zauwaenia ronic midzy powyszym
    opisem a rzeczywistym zachowaniem opisywanego programu lub funkcji,
    prosimy o zapoznanie si z oryginaln (angielsk) wersj strony podrcznika.