Provided by: manpages-it_2.80-5_all bug

NOME

       Unicode - l'insieme universale di caratteri

DESCRIZIONE

       Lo  standard  internazionale  ISO 10646 definisce l' Insieme universale di caratteri (Universal Character
       Set). UCS contiene tutti i caratteri di tutti gli altri standard per  insiemi  di  caratteri.  Garantisce
       anche compatibilità ad andata e ritorno, cioè è possibile costruire tavole di conversione in modo tale da
       non perdere nessuna informazione passando da una qualsiasi altra codifica a UCS e viceversa.

       UCS contiene i caratteri necessari alla rappresentazione di praticamente tutte le lingue conosciute. Esso
       comprende  non  solo  i  caratteri  romano,  greco, cirillico, ebreo, arabo, armeno e georgiano, ma anche
       alfabeti ideografici cinese, giapponese  e  coreano  han,  e  i  caratteri  hiragana,  katakana,  hangul,
       devanagari,  bengali,  gurmukhi,  gujarati,  oriya,  tamil, telugu, kannada, malayalam, thai, lao, khmer,
       bopomofo, tibetano, runico, etiopico, canadese sillabico, cherokee,  mongolo,  ogham,  myanmar,  sinhala,
       thaana, yi e altri. Per caratteri non ancora coperti la ricerca su come codificarli al meglio è ancora in
       corso  e  prima  o  poi  verranno  aggiunti. Ciò potrebbe includere non solo geroglifici e vari linguaggi
       storici indo-europei, ma anche alcuni caratteri artistici selezionati come tengwar, cirth e klingon.  UCS
       copre  anche  un  grande numero di simboli grafici, tipografici, matematici e scientifici, inclusi quelli
       forniti da TeX, Postscript, APL, MS-DOS, MS-Windows, Macintosh e font  OCR,  oltra  a  molti  sistemi  di
       elaborazione testi e di pubblicazione, e altri ne sono stati aggiunti.

       Lo standard UCS (ISO 10646) descrive una architettura di caratteri a 31 bit consistente di 128 grupi a 24
       bit,  ciascuno  diviso  in  256  piani a 16 bit, composti da 256 linee a 8 bit, con 256 colonne , una per
       ciascun carattere. La parte 1 dello standard (ISO 10646-1) definisce le prime 65534 posizioni (da  0x0000
       a 0xfffd), che formano il Piano Multi-linguistico di Base (BMP), ovvero il piano 0 del gruppo 0. La parte
       due  dello  standard  (ISO  10646-2) aggiunge caratteri al gruppo 0 al di fuori del BMP in numerosi piani
       supplementari nel range da 0x10000 a 0x10ffff. Non  ci  sono  piani  per  l'aggiunta  di  caratteri  allo
       standard oltre 0x10ffff, quindi, dell'intero spazio  codice, solo una piccola frazione del gruppo 0 verrà
       usata  nel  prossimo  futuro.  Il  BMP  contiene  tutti i caratteri che si trovano negli altri insiemi di
       caratteri comunemente usati. I piani supplementari aggiunti da ISO 10646-2 coprono solo caratteri esotici
       per speciali bisogni scientifici, stampa dizionario, industria  editoriale,  protocolli  di  livello  più
       elevato, e entusiasti.

       La  rappresentazione  di  ciascun  carattere UCS come parola di 2 byte è chiamato forma UCS-2 (solo per i
       caratteri BMP), mentre UCS-4 è la rappresentazione di ciascun carattere  in  una  parola  a  4  byte.  In
       aggiunta  esistono due forme di codifica UTF-8 per retrocompatibilità con software di processamento ASCII
       e UTF-16 per la gestione della retrocompatibilità dei caratteri non BMP  fino  a  0x10ffff  del  software
       UCS-2.

       I  caratteri  UCS  nelle  posizioni  da   0x0000  a 0x007f coincidono con quelli classici di US-ASCII e i
       caratteri da 0x0000 a 0x00ff coincidono con quelli dell'insieme ISO 8859-1 Latin-1.

   Caratteri combinanti
       Alcuni codici di UCS sono stati assegnati a caratteri combinanti. Simile ad un tasto  accentato  che  non
       avanza  in una macchina da scrivere, un carattere combinante aggiunge un accento al carattere precedente.
       I caratteri accentati più importanti hanno un loro codice  in  UCS,  ma  questo  meccanismo  permette  di
       aggiungere  accenti a altri segni diacritici a qualsiasi carattere. I caratteri combinanti seguono sempre
       il carattere che modificano. Ad esempio, il carattere tedesco Ä («A maiuscola romana  con  dieresi»)  può
       essere  rappresentato  sia  col codice UCS precomposto 0x00c4, oppure come combinazione di una normale «A
       maiuscola romana» seguita da una «dieresi combinante»: 0x0041 0x0308.

       I caratteri combinanti  sono  essenziali  per  esempio  nella  codifica  dei  caratteri  Thai  o  per  la
       composizione matematica e per gli utenti dell'alfabeto internazionale fonetico.

   Livelli di implementazione
       Siccome  non  ci  si  aspetta che tutti i sistemi possano supportare meccanismi avanzati come i caratteri
       combinanti, ISO 10646-1 specifica tre livelli d'implementazione per UCS:

       Livello 1
                I caratteri combinanti Hangul Jamo (una codifica variante dell'alfabeto coreano, dove le sillabe
                Hangul sono codificate come trio o coppia di codici vocale/consonante) non sono supportati.

       Livello 2
                Come il livello 1, ma alcuni caratteri combinanti sono permessi in  alcuni  alfabeti  (per  es.,
                ebraico, arabo, devangari, bengalese, gurmuco, gugiarato, oriya, tamil, telugo, kannada, malese,
                tailandese e laotiano).

       Livello 3
                Tutti i caratteri UCS sono supportati.

       Lo  Standard  Unicode  3.0  pubblicato  dall'  Unicode  Consortium  contiene  esattamente il piano multi-
       linguistico di base UCS al livello 3 d'implementazione, come descritto in ISO 10646-1:2000.  Unicode  3.1
       ha  aggiunto  i  piani supplementari dell'ISO 10646-2. Lo standard Unicode e i raporti tecnici pubblicati
       dall'Unicode Consortium forniscono molte informazioni aggiuntive sulla semantica e sugli usi raccomandati
       dei vari caratteri. Essi forniscono linee guida  e  algoritmi  per  editing,  ordinamento,  comparazione,
       normalizzazione, conversione e visualizzazione delle stringhe Unicode.

   Unicode sotto Linux
       Sotto  GNU/Linux,  il  tipo  C  wchar_t  è  un  tipo  intero  32-bit con segno. I suoi valori sono sempre
       interpretati dalla libreria C come valori del codice UCS (in tutte le  localizzazioni),  una  convenzione
       che  è  segnalata alle applicazioni dalla libreria C di GNU definendo la costante __STDC_ISO_10646__ come
       specificato nello standard ISO C 99.

       UCS/Unicode può essere usato come semplice ASCII nei flussi input/output,  comunicazioni  tra  terminali,
       file  di  testo, nomi file e variabili d' ambiente nella codifica multi-byte UTF-8 compatibile ASCII. Per
       segnalare l'uso di UTF-8 come codifica carattere a tutte le  applicazioni  deve  venire  selezionata  una
       localizzazione appropriata attraverso variabili d'ambiente (es., "LANG=en_GB.UTF-8").

       La  funzione nl_langinfo(CODESET) restituisce il nome della codifica selezionata. Le funzioni di libreria
       come wctomb(3) e mbsrtowcs(3) possono essere usate per trasformare i  caratteri  interni  e  le  stringhe
       wchar_t  nella  codifica dei caratteri di sistema e viceversa e wcwidth(3) dice di quante posizioni (0–2)
       il cursore viene avanzato dall'output di un carattere.

       In Linux in generale al momento bisognerebbe usare il BMP solo al livello 1  di  implementazione.  Alcuni
       emulatori  di  terminale  UTF-8  e  font  ISO  10646  (livello  2)  supportano anche fino a due caratteri
       combinanti per base caratteri per certi alfabeti (in particolare thai),  ma,  in  generale,  i  caratteri
       precomposti devono essere preferiti ove disponibili (Unicode la chiama Normalization Form C).

   Area privata
       L'intervallo  da  0xe000 a 0xf8ff nel BMP, non verrà mai assegnato dallo standard a nessun carattere ed è
       riservato per uso privato. Per la comunità  Linux  questo  intervallo  è  stato  ulteriormente  suddiviso
       nell'intervallo  da  0xe000  a  0xefff,  che  può  essere  usato  dall'utente  finale, e  nell'area Linux
       nell'intervallo da 0xf000 a 0xf8ff, le cui estensioni sono coordinate fra tutti gli utenti di  Linux.  Il
       registro   dei   caratteri   assegnati   all'area  Linux  è  al  momento  mantenuto  da  H.  Peter  Anvin
       <Peter.Anvin@linux.org>.

   Bibliografia
       * Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1: Architecture  and
         Basic  Multilingual  Plane.  International  Standard  ISO/IEC  10646-1,  International Organization for
         Standardization, Geneva, 2000.

         Questa è la specifica ufficiale di UCS. Disponibile come file PDF su CD-ROM da http://www.iso.ch/.

       * The Unicode Standard, Version 3.0. The Unicode Consortium,  Addison-Wesley,  Reading,  MA,  2000,  ISBN
         0-201-61633-5.

       * S.  Harbison,  G. Steele. C: A Reference Manual. Fourth edition, Prentice Hall, Englewood Cliffs, 1995,
         ISBN 0-13-326224-3.

         A good reference book about the C programming language. The fourth edition covers the 1994 Amendment  1
         to  the  ISO  C 90 standard, which adds a large number of new C library functions for handling wide and
         multi-byte character encodings, but it does not yet cover ISO C 99, which improved wide and  multi-byte
         character support even further.

       * Unicode Technical Reports.
         http://www.unicode.org/unicode/reports/

       * Markus Kuhn: UTF-8 e Unicode FAQ per Unix/Linux.
         http://www.cl.cam.ac.uk/~mgk25/unicode.html

         Fornisce  informazioni  sulla sottoscrizione alla mailing list linux-utf8 che è il miglior posto in cui
         guardare per consigli sull'uso di Unicode sotto Linux.

       * Bruno Haible: Unicode HOWTO.
         ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html

BACHI

       _Al momento dell'ultima revisione di questa man page, la libreric GNU C di supporto per le localizzazioni
       UTF-8 era matura e il supporto XFree86  era  ad  uno  stadio  avanzato,  ma  il  lavoro  per  rendere  le
       applicazioni (specialmente gli editor) adatte all'uso con le localizzazioni UTF-8 era ancora in corso. Il
       supporto  generale  corrente  a UCS sotto Linux di solito fornisce caratteri per CJK a doppia ampiezza, e
       talvolta anche semplici caratteri combinanti, ma solitamente non include il  supporto  per  alfabeti  con
       direzione  da  destra  a  sinistra  o  requisiti  per  la sostituzione della legatura come negli alfabeti
       ebraico, arabo, o Indic. Questi alfabeti attualmente  sono  supportati  solo  in  certe  aplicazioni  GUI
       (visualizzatori HTML, word processor) con motori sofisticati di disegno del testo.

AUTORE

       Markus Kuhn <mgk25@cl.cam.ac.uk>

VEDERE ANCHE

       setlocale(3), charsets(7), utf-8(7)

GNU                                              11 maggio 2001                                       UNICODE(7)