Provided by: manpages-pl_20060617-4_all bug

NAZWA

       Unicode - zunifikowany 16-bitowy superzestaw znakow

OPIS

       Midzynarodowy  standard  ISO  10646  definiuje  Universal Character Set
       (UCS).  UCS zawiera wszelkie znaki wszelkich  innych  zestawow  znakow.
       Gwarantuje  on  rownie  kompatybilno  na  okrg/lo,  tj. budowanie takich
       tablic konwersji, e podczas konwersji lacucha z  jednego  kodowania  na
       UCS i z powrotem nie jest tracona adna informacja.

       UCS  zawiera znaki wymagane do przedstawienia prawie wszystkich znanych
       jzykow.  Obejmuje to, oprocz wielu jzykow ktore uywaj  rozszerze  pisma
       laciskiego,  take nastpujce pisma i jzyki: grecki, cyrylica, hebrajski,
       arabski,  armeski,  gruziski,  japoski,  chiski,  hiragana,   katakana,
       koreaski,  hangul,  devangari, bengalski, gurmukji, gujarati, tamilski,
       oriya, telugu, kannada, malajlamski, tajski, lao, bopomofo i pewn liczb
       innych.   Trwaj  prace  nad  wlczeniem  innych  pism, jak tybetaskiego,
       khmerskiego,  runicznego,  etiopskiego,  hieroglifow,   ronych   jzykow
       indoeuropejskich  i wielu innych.  Dla wikszoci z tych drugich jzykow w
       momencie opublikowania standardu w 1993, nie bylo  jeszcze  jasnym  jak
       mona  je  najlepiej zakodowa.  Dodatkowo oprocz znakow wymaganych przez
       pisma, wlczono take duy zestaw  symboli  graficznych,  typograficznych,
       matematycznych  i  naukowych, dostarczanych z TeX-em, PostScriptem, MS-
       DOS-em,  Macintoshem,  Videotextem,  OCR  i  wieloma  innymi  systemami
       przetwarzania tekstow, a take kody specjalne, gwarantujce "kompatybilno
       na okrglo" z wszelkimi innymi istniejcymi zestawami znakow.

       Standard  UCS  (ISO  10646)  opisuje  zestaw  znakow  o   architekturze
       31-bitowej.  Jednake  dzisiaj  tylko pierwszym 65534 pozycjom kodowania
       (0x000 do 0xfffd), zwane Basic  Multilingual  Plane  (BMP),  przypisano
       znaki,  i  spodziewane  jest,  e  tylko  bardzo  egzotyczne  znaki (np.
       hieroglify) do specjalnych celow naukowych  otrzymaj  miejsce  poza  ow
       16-bitow BMP.

       Znaki  UCS  0x0000  do 0x007f s identyczne z tymi w klasycznym zestawie
       znakow US-ASCII, a znaki w zakresie 0x000 do 0x00ff s identyczne z tymi
       w zestawie znakow ISO 8859-1 .

ZNAKI SK/LADAJCE

       Niektore  punkty kodowe w UCS zostaly przypisane do znak'ow sk/ladajcych.
       Podobne s  one  do  niespacyjnych  klawiszy  akcentow  na  maszynie  do
       pisania.   Znak   skladajcy   dodaje   akcent  do  poprzedniego  znaku.
       Najwaniejsze znaki akcentowane maj osobne kody w UCS, jednak  mechanizm
       znakow  skladajcych pozwala dodawa akcenty i inne znaki diakrytyczne do
       kadego  znaku.   Znaki  skladajce  zawsze  nastpuj  po   znaku,   ktory
       modyfikuj.   Dla  przykladu,  niemiecki  znak  A-umlaut ("Latin capital
       letter  A  with  diaeresis")  moe  by  przedstawiony  za  pomoc  bd  to
       istniejcego  ju  zloonego  znaku  UCS o kodzie 0x00c4, bd alternatywnie
       jako  kombinacja  zwyklych  znakow  "capital  letter  A"  i  "combining
       diaeresis": 0x0041 0x0308.

POZIOMY IMPLEMENTACJI

       Poniewa  naley  si  spodziewa,  e  nie  wszystkie  systemy bd obslugiwa
       zaawansowane mechanizmy w rodzaju skladania znakow,  ISO  10646  okrela
       nastpujce trzy poziomy implementacji UCS:

       Poziom 1 Nieobslugiwane  s  znaki  skladane  i  Hangul Jamo (specjalne,
                bardziej skomplikowane kodowanie pisma koreaskiego,  w  ktorym
                sylaby Hangul s kodowane jako dwa lub trzy podznaki).

       Poziom 2 Jak  poziom  1,  jednake w niektorych pismach zezwala si ju na
                niektore znaki skladajce (np. hebrajski,  arabski,  devangari,
                bengalski,   gurmukhi,  gujarati,  oriya,  tamlilski,  telugu,
                kannaga, malajlamski, tajski i lao).

       Level 3  Wszystkie znaki UCS s obslugiwane.

       Standard Unicode 1.1, opublikowany przez  Unicode  Consortium,  zawiera
       dokladnie   UCS   Basic   Multilingual   Plane   na   trzecim  poziomie
       implementacji, jak to opisano w ISO  10646.  Unicode  1.1  dodaje  take
       niektore definicje semantyczne pewnych znakow do definicji ISO 10646.

UNICODE W LINUKSIE

       W  Linuksie  obecnie  powinno  uywa  si BMP tylko na pierwszym poziomie
       implementacji, aby unikn komplikacji wynikajcych ze znakow  skladanych.
       Wysze  poziomy implementacji s odpowiedniejsze dla specjalnych formatow
       przetwarzania tekstow, ale nie jako ogolny systemowy zestaw znakow. Typ
       w  C  wchar_t  jest w Linuksie 16-bitow liczb calkowit bez znaku i jego
       wartoci interpretowane s jako kody UCS na poziomie 1 BMP .

       Ustawienie locale okrela  czy  systemowym  kodowaniem  znakow  jest  na
       przyklad  UTF-8  czy  ISO  8859-1.  Do transformacji wewntrznych znakow
       wchar_t i lacuchow na systemowe kodowanie znakow i na odwrot mog  zosta
       uyte funkcje biblioteczne w rodzaju wctomb, mbtowc, albo wprintf.

OBSZAR PRYWATNY

       W  BMP,  kodom  z  zakresu 0xe000 do 0xf8ff nigdy nie zostan przypisane
       znaki; s  one  zarezerwowane  do  uytku  prywatnego.   Dla  spolecznoci
       Linuksowej  ow  obszar  prywatny  zostal  dalej podzielony na zakres od
       0xe000 do 0xefff, ktorego moe uywa indywidualnie kady  uytkownik,  oraz
       stref linuksow w zakresie 0xf000 do 0xf8ff, ktorej rozszerzanie podlega
       koordynacji pomidzy wszystkimi  uytkownikami  Linuksa.  Rejestr  znakow
       przypisanych  do  strefy  Linuksowej  utrzymuje  obecnie H. Peter Anvin
       <Peter.Anvin@linux.org>  z  Yggdrasil  Computing,  Inc.   Zawiera   one
       niektore  znaki  graficzne  DEC  VT100  ktorych brakuje w Unicode, daje
       bezporedni dostp do znakow w buforze  fontu  konsoli  i  zawiera  znaki
       uywane przez kilka bardziej zaawansowanych pism, jak klingoski.

LITERATURA

       * Information technology - Universal Multiple-Octet Coded Character Set
         (UCS)  -  Part  1:  Architecture  and   Basic   Multilingual   Plane.
         International  Standard  ISO  10646-1, International Organization for
         Standardization, Genewa, 1993.

         Jest to  oficjalna  specyfikacja  UCS.   Calkiem  oficjalna,  calkiem
         gruba,  i  calkiem  droga.   Co  do  informacji  o zamowieniu, zobacz
         http://www.iso.ch.

       * The Unicode Standard - Worldwide Character Encoding Version 1.0.  The
         Unicode Consortium, Addison-Wesley, Reading, MA, 1991.

         Dostpny   jest   ju  Unicode  1.1.4.   Zmiany  w  stosunku  do  ksiki
         [opisujcej] 1.0 s  dostpne  na  ftp://ftp.unicode.org.   Unicode  2.0
         zostanie opublikowany w postaci ksikowej w 1996.

       * S.  Harbison,  G.  Steele.  C  -  A Reference Manual. Fourth edition,
         Prentice Hall, Englewood Cliffs, 1995, ISBN 0-13-326224-3.

         Dobra  ksika-informator  jzyka  programowania  C.   Czwarte   wydanie
         obejmuje  take  1  Poprawk  do  standardu C ISO (ISO/IEC 9899:1990) z
         1994, ktora dodaje znaczn liczb nowych funkcji  bibliotecznych  C  do
         obslugi wielobajtowych zestawow znakow.

B/LDY

       W  czasie  pisania  tej  strony  man obsluga UCS w Linuksowej libc byla
       daleka od kompletnej.

AUTOR

       Markus Kuhn <mskuhn@cip.informatik.uni-erlangen.de>

ZOBACZ TAKE

       utf-8(7)

INFORMACJE O T/LUMACZENIU

       Powysze tlumaczenie pochodzi z nieistniejcego ju  Projektu  Tlumaczenia
       Manuali  i  moe nie by aktualne. W razie zauwaenia ronic midzy powyszym
       opisem a rzeczywistym zachowaniem  opisywanego  programu  lub  funkcji,
       prosimy o zapoznanie si z oryginaln (angielsk) wersj strony podrcznika.