Provided by: manpages-ro_4.21.0-2_all bug

NUME

       unicode - set de caractere universal

DESCRIERE

       Standardul  internațional  ISO  10646  definește  setul universal de caractere („Universal
       Character Set”: UCS).  UCS conține toate caracterele  din  toate  celelalte  standarde  de
       seturi  de  caractere.   De  asemenea,  garantează  „compatibilitatea dus-întors”; cu alte
       cuvinte, tabelele de conversie pot fi construite  astfel  încât  să  nu  se  piardă  nicio
       informație atunci când un șir de caractere este convertit din orice altă codificare în UCS
       și invers.

       UCS conține caracterele necesare pentru a  reprezenta  practic  toate  limbile  cunoscute.
       Acestea includ nu numai caracterele latine, grecești, chirilice, ebraice, arabe, armenești
       și georgiene, ci și ideogramele chinezești, japoneze și coreene Han, precum  și  caractere
       precum  Hiragana, Katakana, Hangul, Devanagari, Bengali, Gurmukhi, Gujarati, Oriya, Tamil,
       Telugu, Kannada, Malayalam,  Thai,  Lao,  Khmer,  Bopomofo,  Tibetană,  Runic,  Etiopiană,
       Silabică  canadiană, Cherokee, Mongolă, Ogham, Myanmar, Sinhala, Thaana, Yi și altele.  În
       ceea ce privește scripturile care nu sunt încă acoperite, cercetările privind cea mai bună
       codificare  a acestora pentru utilizarea pe calculator sunt încă în curs de desfășurare și
       vor fi adăugate în cele din urmă.  Acestea ar putea include în  cele  din  urmă  nu  numai
       hieroglife  și diverse limbi indo-europene istorice, ci chiar și unele scripturi artistice
       selectate, cum ar fi Tengwar, Cirth și Klingon.  UCS acoperă, de asemenea, un  număr  mare
       de  simboluri  grafice, tipografice, matematice și științifice, inclusiv cele furnizate de
       TeX, Postscript, APL, MS-DOS, MS-Windows, Macintosh,  fonturi  OCR,  precum  și  de  multe
       sisteme de procesare a textelor și de publicare, iar altele sunt în curs de adăugare.

       Standardul UCS (ISO 10646) descrie o arhitectură a setului de caractere pe 31 de biți care
       constă din 128 de grupuri pe 24 de biți, fiecare fiind împărțit în 256 de  planuri  pe  16
       biți, alcătuite din 256 de rânduri pe 8 biți cu 256 de poziții coloană, una pentru fiecare
       caracter.  Partea 1 a standardului (ISO 10646-1) definește primele 65534 de poziții de cod
       (de   la  0x0000  la  0xfffd),  care  formează  Planul  multilingvistic  de  bază  („Basic
       Multilingual Plane”: BMP), adică planul 0 din grupul 0.   Partea  2  a  standardului  (ISO
       10646-2) adaugă caractere la grupul 0 în afară de BMP în mai multe planuri suplimentare în
       intervalul 0x10000 - 0x10ffff.  Nu există planuri de adăugare a  caracterelor  dincolo  de
       0x10ffff  la  standard,  prin  urmare,  din  întregul spațiu de cod, doar o mică parte din
       grupul 0 va fi utilizată în viitorul apropiat.  BMP  conține  toate  caracterele  care  se
       găsesc în celelalte seturi de caractere utilizate în mod obișnuit.  Planurile suplimentare
       adăugate de ISO 10646-2 acoperă doar caracterele mai  exotice  pentru  nevoi  speciale  în
       domeniul   științific,   al   imprimării   dicționarelor,  al  industriei  editoriale,  al
       protocoalelor de nivel superior și al entuziaștilor.

       Reprezentarea fiecărui caracter UCS sub forma unui cuvânt de 2  octeți  se  numește  forma
       UCS-2  (numai  pentru  caracterele  BMP),  în  timp  ce  UCS-4 este reprezentarea fiecărui
       caracter sub forma unui cuvânt de 4 octeți.  În plus, există  două  forme  de  codificare:
       UTF-8   pentru  compatibilitatea  cu  programele  de  procesare  ASCII  și  UTF-16  pentru
       gestionarea retro-compatibilă a caracterelor non-BMP până la 0x10ffff de către  programele
       UCS-2.

       Caracterele UCS de la 0x0000 la 0x007f sunt identice cu cele din setul clasic de caractere
       US-ASCII, iar caracterele din intervalul de la 0x0000 la 0x00ff sunt identice cu cele  din
       ISO 8859-1 (Latin-1).

   Combinarea caracterelor
       Unele puncte de cod din UCS au fost atribuite pentru caractere de combinare.  Acestea sunt
       similare cu tastele de accent fără spațiere de pe o mașină  de  scris.   O  combinație  de
       caractere  nu  face decât să adauge un accent la caracterul anterior.  Cele mai importante
       caractere accentuate au coduri proprii în UCS, însă mecanismul de combinare a caracterelor
       ne  permite să adăugăm accente și alte semne diacritice la orice caracter.  Un caracter de
       combinare nu face decât să adauge un accent la caracterul anterior.  Cele  mai  importante
       caractere accentuate au coduri proprii în UCS, însă mecanismul de combinare a caracterelor
       ne permite să adăugăm accente și alte semne diacritice la orice caracter.  Caracterele  de
       combinare  urmează  întotdeauna  caracterul  pe  care îl modifică.  De exemplu, caracterul
       german Umlaut-A („Litera majusculă latină A cu diereză”) poate  fi  reprezentat  fie  prin
       codul  UCS  precompus  0x00c4,  fie ca o combinație de „Litera majusculă latină A” normală
       urmată de o „diereză combinatorie”: 0x0041 0x0308.

       Combinarea  caracterelor  este  esențială,  de  exemplu,  pentru  codificarea   scriptului
       thailandez   sau   pentru   compunerea  matematică  și  utilizatorii  alfabetului  fonetic
       internațional.

   Niveluri de implementare
       Deoarece nu se așteaptă ca toate sistemele  să  accepte  mecanisme  avansate,  cum  ar  fi
       combinarea  caracterelor,  ISO 10646-1 specifică următoarele trei niveluri de implementare
       ale UCS:

       Nivelul 1
                Caracterele combinate și Hangul Jamo (o  variantă  de  codificare  a  alfabetului
                coreean,  în care o pictogramă de silabă Hangul este codificată ca un triplet sau
                o pereche de coduri de vocale/consonante) nu sunt acceptate.

       Nivelul 2
                În plus față de nivelul 1, acum sunt permise combinații de caractere pentru unele
                limbi  în  care  acestea  sunt  esențiale (de exemplu, thailandeză, lao, ebraică,
                arabă, devanagari, malaieziană).

       Nivelul 3
                Sunt acceptate toate caracterele UCS.

       Standardul Unicode 3.0 publicat de Consorțiul Unicode conține exact planul multilingvistic
       de  bază  UCS  la  nivelul  de  implementare  3, așa cum este descris în ISO 10646-1:2000.
       Unicode 3.1 a adăugat planurile suplimentare  din  ISO  10646-2.   Standardul  Unicode  și
       rapoartele tehnice publicate de Consorțiul Unicode oferă numeroase informații suplimentare
       privind semantica și utilizările recomandate  pentru  diverse  caractere.   Acestea  oferă
       orientări  și  algoritmi pentru editarea, sortarea, compararea, normalizarea, conversia și
       afișarea șirurilor Unicode.

   Unicode în Linux
       În GNU/Linux, tipul C wchar_t este un tip de număr întreg cu semn (+/-)  pe  32  de  biți.
       Valorile sale sunt întotdeauna interpretate de biblioteca C ca valori de cod UCS (în toate
       localizările), convenție care este semnalată de  biblioteca  C  GNU  C  aplicațiilor  prin
       definirea constantei __STDC_ISO_10646__ așa cum este specificată în standardul ISO C99.

       UCS/Unicode  poate  fi  utilizat  la  fel  ca  ASCII  în  fluxurile  de intrare/ieșire, în
       comunicarea prin terminal, în fișierele  de  text  simplu,  în  numele  fișierelor  și  în
       variabilele  de  mediu  în  codificarea  multiocteți UTF-8 compatibilă cu ASCII.  Pentru a
       semnala tuturor aplicațiilor utilizarea UTF-8 ca codificare a caracterelor, trebuie să  se
       selecteze o configurare regională adecvată (locale) prin intermediul variabilelor de mediu
       (de exemplu, „LANG=en_GB.UTF-8”).

       Funcția  nl_langinfo(CODESET)  returnează  numele  codificării  selectate.   Funcțiile  de
       bibliotecă,  cum  ar  fi  wctomb(3)  și mbsrtowcs(3), pot fi utilizate pentru a transforma
       caracterele și șirurile interne wchar_t în codificarea caracterelor de sistem  și  invers,
       iar  wcwidth(3)  informează  cu câte poziții (0–2) este avansat cursorul prin ieșirea unui
       caracter.

   Zone de utilizare privată („Private Use Areas”: PUA)
       În planul multilingvistic de bază, intervalul de la 0xe000 la 0xf8ff nu  va  fi  niciodată
       atribuit  niciunui  caracter  de către standard și este rezervat pentru uz privat.  Pentru
       comunitatea Linux, această zonă privată a fost subdivizată  în  continuare  în  intervalul
       0xe000  -  0xefff, care poate fi utilizat individual de orice utilizator final, și în zona
       Linux din  intervalul  0xf000  -  0xf8ff,  unde  extensiile  sunt  coordonate  între  toți
       utilizatorii Linux.  Registrul caracterelor atribuite zonei Linux este menținut de LANANA,
       iar registrul propriu-zis este Documentation/admin-guide/unicode.rst în sursele  nucleului
       Linux (sau Documentation/unicode.txt înainte de Linux 4.10).

       Alte  două  planuri  sunt  rezervate  pentru  uz  privat,  planul 15 (Zona suplimentară de
       utilizare privată-A, intervalul de la 0xf0000 la 0xffffd) și planul 16 (Zona  suplimentară
       de utilizare privată-B, intervalul de la 0x100000 la 0x10fffd).

   Literatură
       •  Tehnologia informației — Set universal de caractere codificate cu octeți multipli (UCS)
          — Partea 1: Arhitectura și planul multilingvistic de  bază.   Standardul  internațional
          ISO/IEC 10646-1, Organizația Internațională pentru Standardizare, Geneva, 2000.

          Aceasta este specificația oficială a UCS.  Disponibilă la ⟨http://www.iso.ch/⟩.

       •  Standardul  Unicode,  versiunea  3.0.  The Unicode Consortium, Addison-Wesley, Reading,
          MA, 2000, ISBN 0-201-61633-5.

       •  S. Harbison, G. Steele. C: Un manual de  referință.  A  patra  ediție,  Prentice  Hall,
          Englewood Cliffs, 1995, ISBN 0-13-326224-3.

          O  bună  carte  de  referință  despre  limbajul de programare C.  Cea de-a patra ediție
          acoperă amendamentul 1 din 1994 la standardul ISO C90, care adaugă un număr mare de noi
          funcții  de  bibliotecă C pentru gestionarea codurilor de caractere late și multioctet,
          dar nu acoperă încă ISO C99, care a îmbunătățit și mai mult suportul pentru caracterele
          late și multioctet.

       •  Rapoarte tehnice Unicode.
          ⟨http://www.unicode.org/reports/⟩

       •  Markus Kuhn: UTF-8 și Unicode FAQ pentru UNIX/Linux.
          ⟨http://www.cl.cam.ac.uk/~mgk25/unicode.html⟩

       •  Bruno Haible: Unicode HOWTO.
          ⟨http://www.tldp.org/HOWTO/Unicode-HOWTO.html

CONSULTAȚI ȘI

       locale(1), setlocale(3), charsets(7), utf-8(7)

TRADUCERE

       Traducerea  în  limba  română  a  acestui  manual  a  fost  creată  de Remus-Gabriel Chelu
       <remusgabriel.chelu@disroot.org>

       Această  traducere  este  documentație  gratuită;  citiți  Licența  publică  generală  GNU
       Versiunea  3  ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩  sau  o  versiune  ulterioară cu
       privire la condiții privind drepturile de autor.  NU se asumă Nicio RESPONSABILITATE.

       Dacă găsiți erori în traducerea acestui  manual,  vă  rugăm  să  trimiteți  un  e-mail  la
       ⟨translation-team-ro@lists.sourceforge.net⟩.