Ubuntu Manpage: Unicode - universeller Zeichensatz

BEZEICHNUNG

       Unicode - universeller Zeichensatz

BESCHREIBUNG

Der internationale Standard ISO 10646 definiert den Universal Character Set (UCS). UCS
enthält sämtliche Zeichen aller anderen Zeichensatz-Standards. Er garantiert auch
round-trip compatibility, d.h. Konvertierungstabellen können so erstellt werden, dass beim
Konvertieren einer Zeichenkette zwischen einer anderen Kodierung und UCS keinerlei
Information verlorengeht.

Mit den in UCS enthaltenen Zeichen können praktisch alle bekannten Sprachen dargestellt
werden. Dies umfasst nicht nur die lateinische, griechische, kyrillische, hebräische,
arabische, armenische und georgische Schrift, sondern auch chinesische, japanische und
koreanische Han-Ideogramme sowie Schriften wie Hiragana, Katakana, Hangul, Devanagari,
Bengali, Gurmukhi, Gujarati, Oriya, Tamil, Telugu, Kannada, Malayalam, Thai, Lao, Khmer,
Bopomofo, Tibetisch, Runen, Äthiopisch, Canadian Syllabics (für die Sprachen kanadischer
Ureinwohner), Cherokee, Mongolisch, Ogham, Birmanisch, Sinhala, Thaana, Yi und andere. Für
noch nicht abgedeckte Schriften wird weiter daran geforscht, wie sie am besten für
Computernutzung kodiert werden. Eines Tages werden auch sie aufgenommen werden. Dazu
könnten nicht nur Hieroglyphen und verschiedene historische indoeuropäische Sprachen
gehören, sondern auch einige ausgewählte Kunstsprachen wie Tengwar, Cirth und Klingonisch.
UCS umfasst auch eine große Anzahl von grafischen, typografischen, mathematischen und
wissenschaftlichen Symbolen, einschließlich den von TeX, PostScript, APL, MS-DOS,
MS-Windows, Macintosh, OCR-Schriften zur Verfügung gestellten, ebenso wie die Schriften
vieler Textverarbeitungs- und Publishing-Systeme. Und es kommen weitere hinzu.

Der UCS-Standard (ISO 10646) beschreibt eine 31-Bit-Zeichensatzarchitektur. Sie besteht
aus 128 24-Bit-Gruppen, die jeweils in 256 16-Bit-Ebenen aus 256 8-Bit-Reihen mit 256
Spalten (eine für jedes Zeichen) aufgeteilt sind. Teil 1 der Norm (ISO 10646-1) definiert
die ersten 65534 Code-Positionen (0x0000 bis 0xfffd), welche die Basic Multilingual Plane
(BMP) bilden, also Ebene 0 in der Gruppe 0. Teil 2 der Norm (ISO 10646-2) fügt der Gruppe
0 Zeichen außerhalb der BMP in mehreren ergänzenden Ebenen im Bereich 0x10000 bis 0x10ffff
zu. Es ist nicht geplant, der Norm Zeichen jenseits von 0x10ffff hinzuzufügen. Damit wird
in absehbarer Zukunft aus dem gesamten Code-Raum nur ein kleiner Teil der Gruppe 0
tatsächlich verwendet werden. Die BMP enthält alle Zeichen anderer häufig verwendeter
Zeichensätze. Die Ergänzungsebenen nach ISO 10646-2 decken nur eher exotische Zeichen für
spezielle Anforderungen in der Wissenschaft, dem Druck von Wörterbüchern, dem Verlagswesen
und übergeordneten Protokollen sowie von Enthusiasten ab.

Die Darstellung jedes einzelnen UCS-Zeichens als 2-Byte-Wort wird als die UCS-2 Form (nur
für BMP-Zeichen) bezeichnet, während UCS-4 die einzelnen Zeichen durch ein 4-Byte-Wort
darstellt. Darüber hinaus gibt es die zwei Codierungsformen UTF-8 für
Abwärtskompatibilität mit ASCII-Software und UTF-16 für die abwärtskompatible Bearbeitung
von Nicht-BMP-Zeichen bis 0x10FFFF durch UCS-2-Software.

Die UCS-Zeichen 0x0000 bis 0x007f sind mit denen des klassischen US-ASCII-Zeichensatzes
und die Zeichen im Bereich von 0x0000 bis 0x00ff mit denen des
ISO-8859-1-Latin-1-Zeichensatzes identisch.

Kombinationszeichen
Einige Code-Punkte von UCS wurden sogenannten Kombinationszeichen (combining characters)
zugewiesen. Sie sind mit den Akzenttasten auf Schreibmaschinen vergleichbar, bei denen
sich die Schreibposition nicht verändert. Ein Kombinationszeichen fügt dem vorhergehenden
Zeichen einfach einen Akzent hinzu. Den wichtigsten Zeichen mit Akzenten wurden eigene
Codes im UCS zugewiesen. Mit dem Mechanismus der Kombinationszeichen können Akzente und
andere diakritische Markierungen zu jedem beliebigen Zeichen hinzugefügt werden.
Kombinationszeichen folgen immer dem Zeichen, das sie verändern. Zum Beispiel kann das
deutsche »Ä« (oder »Latin capital letter A with diaeresis«) entweder durch den festen
UCS-Code 0x00c4 oder alternativ als Kombination des normalen »A« (»Latin capital letter
A«) gefolgt vom Kombinationszeichen für »doppelt gepunktet« (combining diaeresis) als
0x0041 0x0308 dargestellt werden.

Kombinationszeichen sind wesentlich zum Beispiel für die Codierung der Thai-Schrift, für
den Satz mathematischer Formeln und Nutzer der internationalen Lautschrift.

Implementierungsstufen
Da nicht erwartet wird, dass alle Systeme komplexere Mechanismen wie Kombinationszeichen
unterstützen, beschreibt ISO 10646 die folgenden drei Implementierungsstufen für UCS:

Stufe 1 Kombinationszeichen und Hangul-Jamo (eine Codierungsvariante der koreanischen
Schrift, in der Zeichen für Hangul-Silben als zwei- oder dreistellige
Vokal-/Konsonanten-Kombinationen codiert werden) werden nicht unterstützt.

Stufe 2 Zusätzlich zu Stufe 1 sind Kombinationszeichen jetzt für einige Sprachen, in
denen sie unerlässlich sind (z. B. Thai, Lao, Hebräisch, Arabisch, Devanagari,
Malayalam) erlaubt.

Stufe 3 Alle UCS-Zeichen werden unterstützt.

Der vom Unicode Consortium veröffentlichte Standard Unicode 3.0 enthält genau die UCS
Basic Multilingual Plane auf der Implementierungsstufe 3, wie in ISO 10646-1:2000
beschrieben. Unicode 3.1 fügte die zusätzlichen Ebenen von ISO 10646-2 hinzu. Der
Unicode-Standard und vom Unicode Consortium veröffentlichte technische Berichte bieten
viele zusätzliche Informationen über die Semantik und die empfohlene Verwendung der
verschiedenen Zeichen. Sie geben Richtlinien und Algorithmen für die Bearbeitung, das
Sortieren, Vergleichen, Normalisieren, Umwandeln und Anzeigen von Unicode-Zeichenketten.

Unicode unter Linux
Unter GNU/Linux ist der C-Datentyp wchar_t ein vorzeichenbehafteter 32-Bit-Ganzzahl-Typ.
Seine Werte werden von der C-Bibliothek immer (in allen Locales) als UCS-Codewerte
interpretiert. Diese Konvention signalisiert die GNU-C-Bibliothek Anwendungen durch die
Definition der Konstante __STDC_ISO_10646__, wie es im ISO-C99-Standard spezifiziert ist.

UCS/Unicode in der ASCII-kompatiblen UTF-8-Multibyte-Codierung kann wie ASCII in
Ein-/Ausgabe-Datenströmen, zur Terminal-Kommunikation, in Klartext-Dateien, Dateinamen und
Umgebungsvariablen verwendet werden. Um allen Anwendungen die Verwendung von UTF-8 als
Zeichencodierung bekannt zu geben, muss mittels Umgebungsvariablen (z.B. »LANG =
en_GB.UTF-8«) eine geeignete Locale festgelegt werden.

Die Funktion nl_langinfo(CODESET) gibt den Namen der ausgewählten Codierung zurück. Mit
Bibliotheksfunktionen wie wctomb(3) und mbsrtowcs(3) können die internen wchar_t-Zeichen
und Zeichenketten in die System-Zeichenkodierung konvertiert werden (und auch wieder
zurück). wcwidth(3) gibt an, wie viele Positionen (0–2) der Cursor durch die Ausgabe eines
Zeichens weitergesetzt wird.

Unter Linux sollte derzeit im Allgemeinen nur die BMP der Implementierungsstufe 1
verwendet werden. Einige UTF-8-Terminalemulatoren und ISO-10646-Schriftarten (Stufe 2)
unterstützen für bestimmte Schriften (insbesondere Thai) bis zu zwei Kombinationszeichen
pro Basiszeichen. Im Allgemeinen sollten aber fertige Zeichen vorgezogen werden, soweit
sie verfügbar sind. (Die Unicode-Bezeichnung dafür ist Normalization Form C).

Bereich für private Nutzung
In der BMP werden dem Bereich 0xe000 bis 0xf8ff niemals Zeichen vom Standard zugewiesen
werden - er ist für private Nutzung reserviert. Für die Linux-Gemeinde wurde dieser
Privatbereich weiter unterteilt in den Bereich 0xe000 bis 0xefff, der vom Endbenutzer
individuell benutzt werden kann, und den Linux-Bereich von 0xf000 bis 0xf8ff, in dem
koordiniert gemeinsame Erweiterungen aller Linux-User abgelegt werden. Die Registrierung
der diesem Bereich zugeordneten Zeichen wird momentan von H. Peter Anvin
<Peter.Anvin@linux.org> koordiniert.

Literatur
* Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 1:
Architecture and Basic Multilingual Plane. International Standard ISO/IEC 10646-1,
International Organization for Standardization, Genf, 2000.

This is the official specification of UCS. Available as a PDF file on CD-ROM from
⟨http://www.iso.ch/⟩.

* The Unicode Standard, Version 3.0. The Unicode Consortium, Addison-Wesley, Reading, MA,
2000, ISBN 0-201-61633-5.

* S. Harbison, G. Steele. C: A Reference Manual. Fourth edition, Prentice Hall, Englewood
Cliffs, 1995, ISBN 0-13-326224-3.

Ein gutes Fachbuch über die Programmiersprache C. Die vierte Auflage behandelt jetzt
auch den Nachtrag (Amendment) 1 von 1994 zum ISO-C-Standard (ISO/IEC 9899:1990), der
eine große Anzahl neuer C-Bibliotheksfunktionen zum Umgang mit Zeichensätzen von mehr
als 8 Bit pro Zeichen hinzufügt. Das Buch behandelt aber noch nicht ISO-C99-Standard,
welcher die Unterstützung von Mehrbyte-Zeichen weiter verbesserte.

* Technische Unicode-Berichte
⟨http://www.unicode.org/unicode/reports/⟩

* Markus Kuhn: UTF-8 and Unicode FAQ for UNIX/Linux.
⟨http://www.cl.cam.ac.uk/~mgk25/unicode.html⟩

Bietet Informationen zum Abonnieren der Mailing-Liste linux-utf8. Dort bekommen Sie am
ehesten Rat für die Verwendung von Unicode unter Linux.

* Bruno Haible: Unicode HOWTO
⟨ftp://ftp.ilog.fr/pub/Users/haible/utf8/Unicode-HOWTO.html⟩

FEHLER

       Als  diese  Handbuchseite  das  letzte  Mal  überarbeitet wurde, war die Unterstützung der
       GNU-C-Bibliothek für UTF-8-Locales ausgereift und die Unterstützung durch XFree86 in einem
       fortgeschrittenen  Stadium.  Hingegen war aber die Arbeit an der Anpassung von Anwendungen
       (vor allem Editoren) für den Einsatz mit UTF-8-Locales noch voll im  Gange.  Die  aktuelle
       allgemeine  UCS-Unterstützung unter Linux bietet in der Regel CJK-Zeichen doppelter Breite
       und  manchmal  sogar  einfach  überlagernde  Kombinationszeichen;  die  Unterstützung  für
       Schriften  mit  der  Schreibrichtung von rechts nach links oder spezielle Anforderungen an
       die Ersetzung von Ligaturen (Hebräisch, Arabisch oder die indischen  Schriften)  steht  in
       der  Regel  noch  aus.  Diese Schriften unterstützen derzeit nur bestimmte GUI-Anwendungen
       (HTML-Betrachter und Textverarbeitung) mit ausgefeilten Text-Rendering-Engines.

SIEHE AUCH

       setlocale(3), charsets(7), utf-8(7)

KOLOPHON

       This page is part of release 3.54 of the Linux man-pages project.  A  description  of  the
       project,     and    information    about    reporting    bugs,    can    be    found    at
       http://www.kernel.org/doc/man-pages/.

ÜBERSETZUNG

       Die deutsche Übersetzung dieser Handbuchseite wurde von Johnny Teveßen <j.tevessen@gmx.de>
       und Martin Eberhard Schauer <Martin.E.Schauer@gmx.de> erstellt.

       Diese  Übersetzung  ist  Freie  Dokumentation;  lesen  Sie  die GNU General Public License
       Version  3  oder  neuer  bezüglich  der  Copyright-Bedingungen.  Es  wird  KEINE   HAFTUNG
       übernommen.

       Wenn Sie Fehler in der Übersetzung dieser Handbuchseite finden, schicken Sie bitte eine E-
       Mail an <debian-l10n-german@lists.debian.org>.