Ubuntu Manpage: charsets - internacionalización y conjuntos de caracteres desde el punto de vista del

NOMBRE

       charsets  -  internacionalización  y  conjuntos  de caracteres desde el punto de vista del
       programador

DESCRIPCIÓN

       Linux es un sistema operativo internacional. Varias  de  sus  utilidades  y  controladores
       (``drivers'')  de  dispositivos  (incluyendo  el  de  la  consola)  admiten  conjuntos  de
       caracteres multilingües, que incluyen letras del alfabeto latino con  marcas  diacríticas,
       acentos  y ligaduras, y alfabetos enteros no latinos incluyendo el griego, cirílico, árabe
       y hebreo.

       Esta página de manual presenta una visión de los estándares  de  conjuntos  de  caracteres
       desde  el  punto  de  vista  del  programador  y  cómo  encajan todos juntos en Linux. Los
       estándares que se tratan incluyen el ASCII, ISO 8859, KOI8-R,  Unicode,  ISO  2022  e  ISO
       4873. Vamos a hacer enfásis en aquellos conjuntos de caracteres que se usan realmente como
       conjuntos de caracteres de localización, no en los miles de aquellos que podemos encontrar
       en datos procedentes de otros sistemas.

       Una  lista completa de los conjuntos de caracteres usados en una localización oficialmente
       soportada  en   glibc   2.2.3   es:   ISO-8859-{1,2,3,5,6,7,8,9,13,15},   CP1251,   UTF-8,
       EUC-{KR,JP,TW},  KOI8-{R,U},  GB2312, GB18030, GBK, BIG5, BIG5-HKSCS y TIS-620 (sin ningún
       orden particular.) (El rumano se puede cambiar al ISO-8859-16.)

ASCII

       ASCII (American Standard Code For Information Interchange, Código Estándar Americano  para
       el  Intercambio  de Información) es el conjunto de caracteres original de 7 bits, diseñado
       inicialmente para el inglés americano.  Actualmente se describe en el estándar ECMA-6.

       Existen varias variantes del ASCII de 7 bits que reemplazan el signo del dolar  por  otros
       símbolos monetarios y caracteres de puntuación con caracteres alfabéticos no ingleses para
       cubrir el alemán, frances, español y otros. No se recomienda usar ningún de ellos; la libc
       de  GNU  no  soporta  localizaciones  cuyos  conjuntos  de  caracteres  no sean verdaderos
       superconjuntos del ASCII. (Estos conjuntos también se conocen como  ISO-646,  un  pariente
       cercano del ASCII que permite reemplazar estos caracteres.)

       Como Linux fue escrito para equipos diseñados en los EE.UU., admite ASCII de modo nativo.

ISO 8859

       ISO  8859  es una serie de 15 conjuntos de caracteres de 8 bits, los cuales tienen como su
       primera mitad (7 bits) el US ASCII, caracteres de control invisibles en las posiciones 128
       a 159, y 96 gráficos fijos desde la posición 160 hasta la 255.

       De  éstos, el más importante es el ISO 8859-1 (Latin-1). Es admitido de modo nativo por el
       controlador de consola de Linux, muy bien admitido en X11R6 y es el conjunto de caracteres
       base de HTML.

       El soporte de consola para los otros conjuntos de caracteres 8859 está disponible en Linux
       a través de utilidades de usuario (como setfont(8))  que  modifican  las  asociaciones  de
       teclas  y  la  tabla  de  gráficos  EGA/VGA  y  emplean  la  tabla  de  tipos  de letra de
       "correspondencia de usuario" en el controlador de consola.

       Aquí se presentan breves descripciones de cada conjunto:

       8859-1 (Latin-1)
              Latin-1 cubre la mayoría  de  lenguajes  de  Europa  Occidental  como  el  albanés,
              catalán,  danés,  neerlandés,  inglés,  feroés,  finés,  francés,  alemán, gallego,
              gaélico, islandés, italiano, noruego, portugués, español y sueco. La falta  de  las
              ligaduras  neerlandesa  ij,  francesa  oe  y  las comillas antiguas ,,alemanas`` se
              considera tolerable.

       8859-2 (Latin-2)
              Latin-2 es el soporte para la mayoría de las lenguas eslavas y de Centro-Europa que
              se escriben con caracteres latinos: checo, alemán, húngaro, polaco, rumano, croata,
              eslovaco y esloveno.

       8859-3 (Latin-3)
              Latin-3 es popular entre los autores de esperanto, gallego  y  maltés.   (El  turco
              ahora se escribe con el conjunto 8859-9.)

       8859-4 (Latin-4)
              Latin-4  introdujo  letras  para  el  estonio,  letón y lituano. Esencialmente está
              obsoleto; vea el 8859-10 (Latin-6) y 8859-13 (Latin 7).

       8859-5 Letras cirílicas para el búlgaro, bielorruso, macedonio, ruso, serbio y  ucraniano.
              Los  ucranianos  leen la letra `ghe' con palote como `heh' y necesitarían una `ghe'
              con plumada ascendente para escribir una correcta `ghe'. Vea la discusión sobre  el
              KOI8-R más abajo.

       8859-6 Para  el  árabe.  La  tabla  de  glifos  8859-6  es un tipo fijo de formas de letra
              separadas, pero un mecanismo  de  visualización  correcto  debería  combinar  éstas
              usando las formas iniciales, medias y finales apropiadas.

       8859-7 Para el griego moderno.

       8859-8 Para  el  hebreo  moderno sin ``niqud'' (signos de puntuación).  Los ``niqud'' y el
              hebreo bíblico ``oficial'' se encuentran fuera  del  ámbito  de  este  conjunto  de
              caracteres; en Linux se prefiere la codificación UTF-8 para esto

       8859-9 (Latin-5)
              Ésta es una variante del Latin-1 que reemplaza letras islandesas con otras turcas.

       8859-10 (Latin-6)
              El  Latin 6 añade las últimas letras del inuit (esquimal de Groenlandia) y del sami
              (lapón) que faltaban en el Latin 4 para cubrir  toda  el  área  nórdica.  RFC  1345
              listaba  un  `latin6' preliminar y diferente. El sami skolt aún necesita unos pocos
              acentos más que éstos.

       8859-11
              Esto sólo existe como borrador de un estándar  que  se  rechazó.  El  borrador  era
              idéntico a TIS-620, que se usa en Linux para el tailandés.

       8859-12
              Este  conjunto  no existe. Aunque se ha sugerido su uso para el vietnamita, éste no
              cabe en los 96 caracteres (independientes) que ofrece el  ISO  8859.  En  Linux  se
              prefiere el conjunto de caracteres UTF-8 para el vietnamita.

       8859-13 (Latin-7)
              Para  las  lenguas  de la Ribera del Báltico; en particular, incluye los caracteres
              letones que no se encuentran en Latin-4.

       8859-14 (Latin-8)
              Éste es el conjunto de caracteres celta, que cubre el gaélico y el  galés.  También
              contiene los caracteres punteados que necesita el irlandés antiguo.

       8859-15 (Latin-9)
              Éste añade el signo del Euro y las letras francesas y finlandesas que se echaban de
              menos en Latin-1.

       8859-16 (Latin-10)
              Este conjunto abarca muchos de los idiomas que cubre el 8859-2 y soporta el  rumano
              de forma más completa que aquel.

KOI8-R

       El  KOI8-R es un conjunto de caracteres no ISO popular en Rusia. La primera mitad es el US
       ASCII; la segunda es un conjunto de caracteres cirílico algo mejor  diseñado  que  el  ISO
       8859-5.  KOI8-U  es  un conjunto de caracteres común, basado en KOI8-R, que tiene un mejor
       soporte para el ucraniano. A diferencia de las series ISO-8859, ninguno de estos conjuntos
       es compatible con el estándar ISO-2022.

       El  soporte  de  consola para el KOI8-R está disponible en Linux a través de utilidades de
       usuario (como setfont(8)) que modifican las asociaciones de teclas y la tabla de  gráficos
       EGA y emplean la tabla de tipos de letra de "correspondencia de usuario" en el controlador
       de consola.

JIS X 0208

       JIS X 0208 es un conjunto nacional estándar de caracteres japoneses.  Aunque  hay  algunos
       conjuntos nacionales estándares más de caracteres japoneses (como JIS X 0201, JIS X 0212 y
       JIS X 0213), éste es el más importante. Los caracteres se proyectan en una matriz de 94x94
       celdas  de  2  bytes, donde cada byte se encuentra en el rango 0x21-0x7e.  Dese cuenta que
       JIS X 0208 es un conjunto de caracteres, no una codificación. Esto significa que el propio
       JIS  X  0208  no se usa para expresar datos de texto. JIS X 0208 se usa como un componente
       para  construir  codificaciones  como  EUC-JP,  Shift_JIS  y  ISO-2022-JP.  EUC-JP  es  la
       codificación  más  importante  para  Linux e incluye ASCII IS y JIS X 0208. En EUC-JP, los
       caracteres JIS X 0208 se expresan con 2 dos bytes, cada uno de los cuales es el código JIS
       X 0208 más 0x80.

KS X 1001

       KS  X  1001  es  un conjunto nacional estándar de caracteres coreanos.  Al igual que JIS X
       0208, los caracteres se proyectan en una matriz de 94x94 celdas de 2 bytes. KS X  1001  se
       usa  como  JIS X 0208, como un componente para construir codificaciones tales como EUC-KR,
       Johab e ISO-2022-KR. EUC-KR es la codificación más importante para Linux e  incluye  ASCII
       US y KS X 1001. KS C 5601 es el antiguo nombre de KS X 1001.

GB 2312

       GB  2312  es  un conjunto nacional estándar de caracteres para el chino continental que se
       usa para expresar chino simplificado. Al igual que JIS X 0208, los caracteres se proyectan
       en  una matriz de 94x94 celdas de dos bytes que se usa para construir la codificación EUC-
       CN. EUC-CN es la codificación más importante para Linux e incluye ASCII US y GB 2312. Dese
       cuenta que EUC-CN frecuentemente se identifica como GB, GB 2312 o CN-GB.

Big5

       Big5 es un conjunto de caracteres popular en Taiwan para expresar chino tradicional. (Big5
       es tanto un conjunto de caracteres como una codificación.) Es un superconjunto  del  ASCII
       US.  Los  caracteres  no ASCII se expresan con dos bytes. Los bytes 0xa1-0xfe se usan como
       primer byte en los caracteres de dos bytes. Big5 y sus extensiones se usan ampliamente  en
       Taiwan y Hong Kong. No cumple con el estándar ISO-2022.

TIS 620

       TIS  620 es un conjunto nacional estándar de caracteres tailandeses y un superconjunto del
       ASCII US. Al igual que las series ISO 8859, los caracteres tailandeses se proyectan en  el
       rango  0xa1-0xfe.  TIS  620  es el único conjunto de caracteres comunmente usado en Linux,
       además de UTF-8, para tener caracteres de combinación.

UNICODE

Unicode (ISO 10646) es un estándar cuyo objetivo es representar inequívocamente cada
carácter conocido en cada lenguaje humano. La estructura de Unicode admite 20'1 bits para
codificar cada caracter. Sin embargo, ya que la mayoría de los computadores no incluyen
enteros de 20'1 bits, normalmente Unicode se codifica internamente mediante enteros de 32
bits y, o bien una serie de enteros de 16 bits (UTF-16) (que necesita dos enteros de 16
bits sólo cuando se codifican ciertos caracteres poco comunes), o bien una serie de bytes
de 8 bits (UTF-8). Hay información sobre Unicode en el URL <http://www.unicode.com>.

Linux representa Unicode empleando el Formato de Transformación Unicode de 8 bits (UTF-8).
UTF-8 es una codificación de Unicode de longitud variable. Emplea 1 byte para codificar 7
bits, 2 bytes para 11 bits, 3 bytes para 16 bits, 4 bytes para 21 bits, 5 bytes para 26
bits, y 6 bytes para 31 bits.

Sean 0, 1, x el 0, el 1 ó un bit arbitrario. Un byte 0xxxxxxx representa el carácter
Unicode 00000000 0xxxxxxx que codifica el mismo símbolo que el ASCII 0xxxxxxx. Así, ASCII
va sin cambio alguno dentro de UTF-8, y la gente que emplea ASCII no nota ningún cambio:
ni en el código ni en tamaños de fichero.

Un byte 110xxxxx es el comienzo de un código de 2 bytes, y 110xxxxx 10yyyyyy se ensambla
en 00000xxx xxyyyyyy. Un byte 1110xxxx es el comienzo de un código de 3 bytes, y 1110xxxx
10yyyyyy 10zzzzzz se ensambla en xxxxyyyy yyzzzzzz. (Cuando se emplea UTF-8 para
codificar el ISO 10646 de 31 bits, esta progresión continúa hasta códigos de 6 bytes.)

Para la mayoría de la gente que usa los conjuntos de caracteres ISO-8859, esto significa
que los caracteres fuera de ASCII se codifican ahora con dos bytes. Esto tiende a expandir
los ficheros de texto ordinarios en sólo un 1 o 2%. Para el ruso y el griegos, esto
expande los ficheros de texto ordenarios en un 100%, ya que el texto en estos idiomas se
encuentra en su mayor parte fuera de ASCII. Para los usuarios japoneses esto significa que
los códigos de 16 bits de uso común actualmente necesitarán tres bytes. Aunque hay
conversiones algorítmicas desde algunos conjuntos de caracteres (esp. ISO-8859-1) a
Unicode, una conversión general requiere andar con tablas de conversión que puede ser
bastante grandes para los códigos de 16 bits.

Observe que UTF-8 es auto-sincronizante: 10xxxxxx es una cola, y cualquier otro byte es la
cabeza de un código. Observe que de la única manera que los bytes ASCII aparecen en un
flujo UTF-8 es como ellos mismos. En particular, no hay NULs o '/'s incluidos que formen
parte de algún código más grande.

Puesto que ASCII, y, en particular, NUL y '/', permanecen inalterados, el núcleo no se
entera de que se está empleando UTF-8. No le importa en absoluto para qué son los bytes
que está manejando.

La representación de los flujos de datos Unicode se maneja normalmente a través de tablas
de `subtipo' que hacen corresponder un subconjunto de Unicode a glifos. Internamente el
núcleo emplea Unicode para describir el subtipo de letra cargada en RAM de vídeo. Esto
significa que en el modo UTF-8 uno puede emplear un conjunto de caracteres con 512
símbolos diferentes. Esto no basta para el japonés, chino ni coreano, pero es bastante
para la mayoría de otros propósitos.

Por el momento, el manejador de consola no maneja caracteres de combinación. Por lo que el
tailandés, el siux y otros alfabetos que necesitan caracteres de combinación no pueden ser
manejados en la consola.

ISO 2022 Y ISO 4873

       Los  estándares  ISO 2022 y 4873 describen un modelo de control de tipo de letra basado en
       la VT100. Este modelo es (parcialmente) admitido por el núcleo de Linux  y  por  xterm(1).
       Es popular en Japón y Corea.

       Hay  4  conjuntos  de  caracteres gráficos, llamados G0, G1, G2 y G3, y uno de ellos es el
       conjunto de caracteres actual para los códigos con el bit más alto a 0 (inicialmente  G0),
       y  uno de ellos es el conjunto de caracteres actual para los códigos con el bit más alto a
       1 (inicialmente G1). Cada conjunto de caracteres gráfico tiene 94 ó 96  caracteres,  y  es
       esencialmente  un  conjunto  de  caracteres  de 7 bits. Emplea códigos bien entre 040-0177
       (041-0176) o bien entre 0240-0377 (0241-0376).  G0 siempre tiene de tamaño  94   y  emplea
       códigos en el rango 041-0176.

       El  cambio  entre los conjuntos de caracteres se realiza empleando las funciones de cambio
       ^N (SO o LS1), ^O (SI o LS0), ESC n (LS2), ESC o (LS3), ESC N (SS2), ESC O  (SS3),  ESC  ~
       (LS1R),  ESC } (LS2R), ESC | (LS3R).  La función LSn hace que el conjunto de caracteres Gn
       sea el actual para los códigos con el bit más alto a 0.   La  función  LSnR  hace  que  el
       conjunto  de  caracteres  Gn  sea  el actual para los códigos con el bit más alto a 1.  La
       función SSn hace que el conjunto de caracteres  Gn  (n=2  ó  3)  sea  el  actual  para  el
       siguiente carácter solamente (tenga lo que tenga su bit más alto).

       Un  conjunto  de  94  caracteres  se  designa  como  el  conjunto de caracteres Gn por una
       secuencia de escape ESC ( xx (para G0), ESC ) xx (para G1), ESC * xx (para G2), ESC  +  xx
       (para  G3),  donde  xx  es  un  símbolo o un par de símbolos del Registro Internacional de
       Conjuntos de Caracteres Codificados ISO 2375.  Por ejemplo, ESC ( @ selecciona el conjunto
       de caracteres ISO 646 como el G0, ESC ( A selecciona el conjunto de caracteres estándar de
       R.U. (con la libra esterlina en lugar del signo numeral #), ESC ( B  selecciona  el  ASCII
       (con  el  dólar  $  en  lugar  del símbolo monetario ¤), ESC ( M selecciona un conjunto de
       caracteres para lenguas africanas, ESC ( ! selecciona el conjunto  de  caracteres  cubano,
       etc. etc. etc.

       Un  conjunto  de  96  caracteres  se  designa  como  el  conjunto de caracteres Gn por una
       secuencia de escape ESC - xx (para G1), ESC . xx (para G2) o ESC  /  xx  (para  G3).   Por
       ejemplo, ESC - G selecciona el alfabeto hebreo como el G1.

       Un  conjunto  de caracteres multibyte se designa como el conjunto de caracteres Gn por una
       secuencia de escape ESC $ xx o ESC $ ( xx (para G0), ESC $ ) xx (para  G1),  ESC  $  *  xx
       (para  G2),  ESC  $  +  xx  (para  G3).   Por ejemplo, ESC $ ( C selecciona el conjunto de
       caracteres coreano para G0. El conjunto de caracteres japonés seleccionado  por  ESC  $  B
       tiene una versión más reciente seleccionada por ESC & @ ESC $ B.

       ISO  4873  estipula  un  uso  más  reducido de conjuntos de caracteres, donde G0 está fijo
       (siempre ASCII), de modo que G1, G2 y G3 sólo pueden ser llamados para códigos con el  bit
       más alto a 1.  En particular, ^N y ^O ya no se usan más, ESC ( xx sólo puede emplearse con
       xx=B y ESC ) xx, ESC * xx, ESC + xx son equivalentes a ESC - xx,  ESC  .  xx,  ESC  /  xx,
       respectivamente.

VÉASE TAMBIÉN

       console(4),   console_ioctl(4),  console_codes(4),  ascii(7),  iso_8859_1(7),  unicode(7),
       utf-8(7)