Provided by: manpages-fr_4.21.0-2_all bug

NOM

       charsets - Normes de jeux de caractères et internationalisation

DESCRIPTION

       Cette  page de manuel présente différentes normes de jeux de caractères et la façon de les
       utiliser  sous  Linux  avant  qu’Unicode  ne  devienne  ubiquitaire.   Certains   de   ces
       renseignements  sont  encore  utiles  aux  personnes  travaillant avec des systèmes ou des
       documents anciens.

       ASCII, GB 2312, ISO 8859, JIS, KOI8-R, KS et Unicode font partie des normes présentées.

       Un accent particulier est mis  sur  les  jeux  de  caractères  qui  étaient  véritablement
       utilisés  dans  les  paramètres  régionaux,  et  non  sur la myriade de jeux de caractères
       provenant d'autres systèmes.

   ASCII
       L'ASCII (American Standard Code For Information Interchange)  est  le  jeu  de  caractères
       7 bits  original,  prévu  pour  l'anglais  (américain).  Il  est  aussi  connu sous le nom
       US-ASCII. Il est  décrit  actuellement  dans  la  norme  ISO 646:1991  IRV  (International
       Reference Version).

       Différentes  variantes  d'ASCII  sont apparues, remplaçant le dollar par d'autres symboles
       monétaires et la ponctuation par des caractères  accentués  pour  couvrir  l'allemand,  le
       français,  l'espagnol et d'autres langues en 7 bits. Elles sont toutes obsolètes, la glibc
       ne gère que les paramètres régionaux  dont  le  jeu  de  caractères  est  un  sur-ensemble
       d'ASCII.

       Comme  Unicode,  lors  de  l’utilisation  d’UTF-8,  est compatible avec ASCII, le texte en
       simple ASCII est toujours rendu correctement sur les systèmes modernes utilisant l’UTF-8.

   ISO 8859
       ISO 8859 is a series of 15 8-bit character sets, all of which  have  ASCII  in  their  low
       (7-bit)  half,  invisible  control  characters in positions 128 to 159, and 96 fixed-width
       graphics in positions 160–255.

       Of these, the most important is ISO 8859-1 ("Latin Alphabet No.  1"  /  Latin-1).  It  was
       widely  adopted  and  supported by different systems, and is gradually being replaced with
       Unicode. The ISO 8859-1 characters are also the first 256 characters of Unicode.

       La prise en charge en console des autres jeux  de  caractères  8859  est  disponible  sous
       Linux,  à  travers  des  utilitaires comme setfont(8), qui modifient la correspondance des
       touches du clavier, la table graphique EGA et utilisent une projection personnalisée de la
       table de fonte du gestionnaire de console.

       Here are brief descriptions of each character set:

       8859-1 (latin-1)
              Latin-1  covers  many European languages such as Albanian, Basque, Danish, English,
              Faroese, Galician, Icelandic, Irish, Italian, Norwegian, Portuguese,  Spanish,  and
              Swedish.  The  lack  of  the  ligatures Dutch IJ/ij, French œ, and old-style „German“
              quotation marks was considered tolerable.

       8859-2 (latin-2)
              Latin-2 supports many Latin-written Central and East  European  languages  such  as
              Bosnian, Croatian, Czech, German, Hungarian, Polish, Slovak, and Slovene. Replacing
              Romanian ș/ț with ş/ţ was considered tolerable.

       8859-3 (latin-3)
              Le latin-3 était conçu pour couvrir l’espéranto, le gallois, le maltais et le turc,
              mais 8859-9 l’a ensuite supplanté pour le turc.

       8859-4 (latin-4)
              Le  latin-4  a  introduit  des  lettres  pour les langues de l’Europe du Nord comme
              l'estonien, le letton et le lituanien, mais il  a  été  supplanté  par  8859-10  et
              8859-13.

       8859-5 Alphabet  cyrillique prenant en charge le bulgare, le biélorusse, le macédonien, le
              russe, le serbe et (presque complètement) l’ukrainien. Il n’a jamais  été  beaucoup
              utilisé, consultez les remarques concernant KOI8-R et KOI-U ci-dessous.

       8859-6 Avait  été  créé  pour  l'arabe.  La  table 8859-6 est une fonte de largeur fixe de
              formes de lettre distinctes, mais un affichage correct doit combiner les lettres en
              utilisant leurs formes initiale, centrale et finale.

       8859-7 Avait été créé pour le grec moderne en 1987 et mis à jour en 2003.

       8859-8 Prend  en  charge  l'hébreu  moderne sans diacritiques (signes de ponctuation). Les
              diacritiques et l'hébreu biblique dans son ensemble étaient en dehors de la  portée
              de ce jeu de caractères.

       8859-9 (latin-5)
              Il  s'agit  d'une variante du latin-1 qui remplace les lettres islandaises rarement
              utilisées par des lettres turques.

       8859-10 (latin-6)
              Le latin-6 ajoutait les lettres inuit (Groënland) et same (lapon) qui manquaient au
              latin-4 pour couvrir toute la zone nordique.

       8859-11
              Prend en charge l’alphabet thaï et est presque identique à la norme TIS-620.

       8859-12
              This character set does not exist.

       8859-13 (latin-7)
              Prend  en  charge  les  langues  des  pays  baltes,  en  particulier les caractères
              lituaniens absents du latin-4.

       8859-14 (latin-8)
              Jeu de caractères celtique, couvrant  le  breton,  le  cornique,  le  gaélique,  le
              gallois, l’irlandais ancien et le mannois.

       8859-15 (latin-9)
              Le  latin-9  est  similaire au latin-1 largement utilisé mais remplace les symboles
              les moins communs par le symbole euro et les lettres françaises et finlandaises qui
              manquaient au latin-1.

       8859-16 (latin-10)
              This  character  set covers many Southeast European languages, and most importantly
              supports Romanian more completely than Latin-2.

   KOI8-R et KOI8-U
       Le KOI8-R est un jeu de caractères non ISO  très  répandu  en  Russie  avant  Unicode.  La
       première  moitié  correspond à l'ASCII, la seconde est un jeu de caractères cyrilliques un
       peu mieux conçu que l'ISO 8859-5. Le KOI8-U, basé sur le KOI8-R, a une meilleure prise  en
       charge  de  l'ukrainien. Aucun de ces jeux n'est compatible avec l'ISO-2022, contrairement
       aux normes ISO-8859.

       La prise en charge du KOI8-R en console est disponible sous Linux, à l’aide  d’utilitaires
       en  mode  utilisateur  qui  modifient  la  correspondance des touches du clavier, la table
       graphique EGA  et  utilisent  une  projection  personnalisée  de  la  table  de  fonte  du
       gestionnaire de console.

   GB 2312
       GB 2312  est  le  principal jeu de caractères normalisé en Chine, utilisé pour exprimer le
       chinois simplifié. Comme avec le JIS X 0208, les caractères sont projetés dans une matrice
       94x94  sur deux octets pour construire l'EUC-CN. Celui-ci est l'encodage le plus important
       sous Linux et inclut l'ASCII et le GB 2312. Remarquez que l'EUC-CN est souvent appelé  GB,
       GB 2312 ou CN-GB.

   Big5
       Big5 was a popular character set in Taiwan to express traditional Chinese. (Big5 is both a
       character set and an encoding.) It is  a  superset  of  ASCII.  Non-ASCII  characters  are
       expressed in two bytes. Bytes 0xa1–0xfe are used as leading bytes for two-byte characters.
       Big5 and its extension were widely used in Taiwan and  Hong  Kong.  It  is  not  ISO  2022
       compliant.

   JIS X 0208
       JIS  X  0208  is  a  Japanese  national standard character set. Though there are some more
       Japanese national standard character sets (like JIS X 0201, JIS X 0212, and JIS  X  0213),
       this  is the most important one. Characters are mapped into a 94x94 two-byte matrix, whose
       each byte is in the range 0x21–0x7e. Note that JIS X 0208  is  a  character  set,  not  an
       encoding.  This  means  that JIS X 0208 itself is not used for expressing text data. JIS X
       0208 is used as a  component  to  construct  encodings  such  as  EUC-JP,  Shift_JIS,  and
       ISO-2022-JP.  EUC-JP is the most important encoding for Linux and includes ASCII and JIS X
       0208. In EUC-JP, JIS X 0208 characters are expressed in two bytes, each of  which  is  the
       JIS X 0208 code plus 0x80.

   KS X 1001
       KS X 1001  est  un  jeu  de  caractères  normalisé en Corée. Comme dans le JIS X 0208, les
       caractères sont projetés dans une matrice 94x94 sur deux octets.  KS X 1001  est  utilisé,
       comme  le  JIS X 0208, comme composant pour construire un encodage comme le EUC-KR, Johab,
       et ISO-2022-KR. EUC-KR est l'encodage le plus important sous Linux et inclut l'ASCII et le
       KS X 1001. KS C 5601 est un ancien nom pour le KS X 1001.

   ISO 2022 et ISO 4873
       Les  normes  ISO 2022  et  4873  décrivent  un  modèle  de contrôle des fontes basé sur le
       fonctionnement du VT100. Ce modèle est (partiellement) pris en charge par le  noyau  Linux
       et  xterm(1).  Plusieurs  encodages  de  caractères basés sur ISO 2022 ont été définis, en
       particulier pour le japonais.

       There are 4 graphic character sets, called G0, G1, G2, and G3, and  one  of  them  is  the
       current  character set for codes with high bit zero (initially G0), and one of them is the
       current character set for codes with high bit one (initially G1). Each  graphic  character
       set  has  94  or  96  characters,  and is essentially a 7-bit character set. It uses codes
       either 040–0177 (041–0176) or 0240–0377 (0241–0376). G0 always has size 94 and uses  codes
       041–0176.

       Switching  between character sets is done using the shift functions ^N (SO or LS1), ^O (SI
       or LS0), ESC n (LS2), ESC o (LS3), ESC N (SS2), ESC O (SS3), ESC ~ (LS1R), ESC  }  (LS2R),
       ESC  | (LS3R). The function LSn makes character set Gn the current one for codes with high
       bit zero. The function LSnR makes character set Gn the current one for codes with high bit
       one.  The  function  SSn  makes  character set Gn (n=2 or 3)  the current one for the next
       character only (regardless of the value of its high order bit).

       Un jeu de 94 caractères est désigné comme  jeu  Gn  par  une  suite  ESC ( xx  (pour  G0),
       ESC ) xx  (pour  G1),  ESC * xx (pour G2), ESC + xx (pour G3), où xx est un symbole ou une
       paire de symboles de la norme ISO 2375 International Register of Coded Character Sets. Par
       exemple,  ESC ( @  sélectionne  le  jeu ISO 646 en tant que G0, ESC ( A sélectionne le jeu
       normalisé au Royaume-Uni (avec la livre sterling à la place du dièse), ESC ( B sélectionne
       l'ASCII,  ESC ( M  sélectionne  un  jeu  de caractères africain, ESC ( ! A sélectionne les
       caractères cubains, etc.

       Un jeu de 96 caractères est désigné comme  jeu  Gn  par  une  suite  ESC - xx  (pour  G1),
       ESC . xx  (pour  G2)  ou  ESC / xx  (pour G3). Par exemple, ESC - G sélectionne l'alphabet
       hébreu comme G1.

       Un jeu de caractères multioctets est désigné comme  jeu  Gn  par  une  suite  ESC $ xx  ou
       ESC $ ( xx  (pour  G0),  ESC $ ) xx (pour G1), ESC $ * xx (pour G2), ESC $ + xx (pour G3).
       Par exemple, ESC $ ( C sélectionne les caractères coréens  pour  le  jeu  G0.  Le  jeu  de
       caractères   japonais   sélectionné   par  ESC $ B  dispose  d'une  version  plus  récente
       sélectionnée par ESC & @ ESC $ B.

       ISO 4873 stipulates a narrower use of character sets, where G0 is fixed (always ASCII), so
       that  G1,  G2,  and  G3  can  be  invoked  only  for codes with the high order bit set. In
       particular, ^N and ^O are not used anymore, ESC ( xx can be used only with xx=B, and ESC )
       xx, ESC * xx, ESC + xx are equivalent to ESC - xx, ESC . xx, ESC / xx, respectively.

   TIS-620
       TIS-620  is  a  Thai  national standard character set and a superset of ASCII. In the same
       fashion as the ISO 8859 series, Thai characters are mapped into 0xa1–0xfe.

   Unicode
       L'Unicode (ISO 10646) est une norme destinée à représenter sans ambiguïté tous les  signes
       écrits  de  toutes  les  langues humaines connues. La structure de l'Unicode offre 21 bits
       pour chaque caractère. Comme les ordinateurs n'ont pas d'entiers avec 21 bits, Unicode est
       habituellement  codé  en interne sur 32 bits, ou par des séries d'entiers 16 bits (UTF-16)
       (ne nécessitant deux entiers 16 bits que pour des  caractères  rares)  ou  par  une  série
       d'octets 8 bits (UTF-8).

       Linux représente l'Unicode en utilisant le format de transfert sur 8 bits (UTF-8). L'UTF-8
       est un encodage à longueur variable. Il utilise un octet pour coder 7 bits, 2 octets  pour
       11 bits,  3 octets  pour  16 bits,  4 octets pour 21 bits, 5 octets pour 26 bits, 6 octets
       pour 31 bits.

       Représentons par 0, 1 ou x des bits à 0, 1 ou quelconque. Un octet 0xxxxxxx  correspond  à
       l'Unicode 00000000 0xxxxxxx qui indique le même symbole que l'ASCII 0xxxxxxx. Ainsi, ASCII
       n'est pas modifié par UTF-8, et les gens  utilisant  uniquement  l'ASCII  ne  remarqueront
       aucun changement : ni dans l’encodage, ni dans les tailles de fichiers.

       Un  octet  110xxxxx  représente  le début d'un code sur 2 octets, et 110xxxxx 10yyyyyy est
       assemblé en 00000xxx xxyyyyyy. Un  octet  1110xxxx  correspond  au  début  d'un  code  sur
       3 octets, et 1110xxxx 10yyyyyy 10zzzzzz sont assemblés en xxxxyyyy yyzzzzzz. Quand l'UTF-8
       est utilisé pour encoder les 31 bits de l'ISO 10646 cette progression continue jusqu'à des
       codes sur 6 octets.

       Pour  la  plupart  des  textes  en ISO 8859, cela signifie que les caractères en dehors de
       l'ASCII sont désormais encodés sur deux  octets.  Cela  tend  à  allonger  la  taille  des
       fichiers textes ordinaires de un à deux pourcents. Pour le russe ou le grec, la taille des
       fichiers textes ordinaires est généralement doublée car la plupart des caractères sont  en
       dehors de l'ASCII. Pour les utilisateurs japonais, cela signifie que les codes sur 16 bits
       couramment employés prendront désormais  3 octets.  Des  conversions  algorithmiques  sont
       possibles  depuis  certains jeux de caractères (en particulier ISO 8859-1) vers l'Unicode,
       mais une conversion générique nécessite l'utilisation de tables de conversion pouvant être
       assez larges pour des codes sur 16 bits.

       Note that UTF-8 is self-synchronizing: 10xxxxxx is a tail, any other byte is the head of a
       code. Note that the only way ASCII bytes occur in a UTF-8 stream,  is  as  themselves.  In
       particular, there are no embedded NULs ('\0') or '/'s that form part of some larger code.

       Since  ASCII,  and,  in particular, NUL and '/', are unchanged, the kernel does not notice
       that UTF-8 is being used. It does not care at all what the bytes it is handling stand for.

       La gestion des flux de données Unicode est généralement effectuée à travers des tables  de
       « sous-fontes »  correspondant  à  un sous-ensemble des caractères Unicode. En interne, le
       noyau utilise l'Unicode pour décrire les  sous-fontes  chargées  en  mémoire  vidéo.  Cela
       signifie  que pour une console Linux en mode UTF-8, un jeu de caractères avec 512 symboles
       différents peut être utilisé. Ce n'est pas assez  pour  le  japonais,  le  chinois  ou  le
       coréen, mais c'est généralement suffisant pour toutes les autres utilisations.

VOIR AUSSI

       iconv(1), ascii(7), iso_8859-1(7), unicode(7), utf-8(7)

TRADUCTION

       La  traduction  française  de  cette  page  de  manuel  a  été créée par Christophe Blaess
       <https://www.blaess.fr/christophe/>, Stéphan  Rafin  <stephan.rafin@laposte.net>,  Thierry
       Vignaud  <tvignaud@mandriva.com>,  François Micaux, Alain Portal <aportal@univ-montp2.fr>,
       Jean-Philippe   Guérard   <fevrier@tigreraye.org>,   Jean-Luc   Coulon   (f5ibh)    <jean-
       luc.coulon@wanadoo.fr>,    Julien    Cristau    <jcristau@debian.org>,    Thomas   Huriaux
       <thomas.huriaux@gmail.com>, Nicolas François <nicolas.francois@centraliens.net>, Florentin
       Duneau  <fduneau@gmail.com>, Simon Paillard <simon.paillard@resel.enst-bretagne.fr>, Denis
       Barbier  <barbier@debian.org>,  David  Prévot  <david@tilapin.org>   et   Grégoire   Scano
       <gregoire.scano@malloc.fr>

       Cette  traduction  est  une  documentation libre ; veuillez vous reporter à la GNU General
       Public  License  version 3  ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩   concernant   les
       conditions de copie et de distribution. Il n'y a aucune RESPONSABILITÉ LÉGALE.

       Si vous découvrez un bogue dans la traduction de cette page de manuel, veuillez envoyer un
       message à ⟨debian-l10n-french@lists.debian.org⟩.