bionic (7) regex.7.gz

Provided by: manpages-es_1.55-10_all bug

NOMBRE

       regex - expresiones regulares POSIX 1003.2

DESCRIPCIÓN

       Las  expresiones  regulares  (``ER''s),  tal  y  como  se definen en POSIX 1003.2, tienen dos formas: ERs
       modernas (tal y como egrep; llama a estas ERs ``extendidas'' de 1003.2) y  ERs  obsoletas  (las  que  usa
       ed(1); son ERs ``básicas'' de 1003.2).

       Las  ERs  obsoletas  existen  como  tales por mantener la compatibilidad para algunos viejos programas; y
       serán discutidas al final.

       1003.2 deja abiertos algunos aspectos de la sintaxis  y  semántica  de  las  ER;  `(dg'  es  una  de  las
       decisiones  tomadas al respecto de estos temas que puede no ser portable con otras implementaciones de la
       1003.2.

       Una ER (moderna) es una (!) o más de una(!) rama no vacía, separadas por `|'.  Acepta cualquier cosa  que
       se corresponda con una de las ramas.

       Una  rama  es  una  (!)  o  más  de una pieza, concatenadas.  Acepta algo que corresponda con la primera,
       seguida por algo que corresponda con la segunda, etc.

       Una pieza es un átomo posiblemente seguido por un solo (!) `*', `+', `?', o  por  un  límite.   Un  átomo
       seguido  por  `*'  ajusta  con  una secuencia de 0 o más átomos.  Un átomo seguido por `+' ajusta con una
       secuencia de 1 o más átomos.  Un átomo seguido por `?'  ajusta con una secuencia de 0 o 1 átomo.

       Un límite es un `{'  seguido  por  un  entero  decimal  sin  signo,  posiblemente  seguido  por  una  `,'
       posiblemente  seguida  por  otro  entero decimal sin signo, y todo acabado por un `}'.  Los enteros deben
       encontrarse entre 0 y RE_DUP_MAX (255(!))  inclusive, y si hay dos de ellos,  el  primero  no  podrá  ser
       mayor  que el segundo.  Un átomo seguido por un límite conteniendo un solo entero i y sin coma ajusta con
       una secuencia de exactamente i átomos.  Un átomo seguido por un límite conteniendo un entero i y una coma
       ajusta con una secuencia de i o más átomos.  Un átomo seguido por un límite conteniendo dos enteros i y j
       ajusta con una secuencia de entre i y j átomos (ambos inclusive).

       Un átomo es una expresión regular dentro de `()' (ajustándose con una aparición de la expresión regular),
       un  conjunto  vacío de `()' (ajustando con una cadena vacía)(!), una expresión con corchetes (ver abajo),
       `.'  (ajustándose con un solo carácter), `^' (ajustando con la cadena vacía al principio de  una  linea),
       `$'  (ajustando  con  la  cadena  vacía  al final de una linea), un `\' seguido por uno de los caracteres
       `^.[$()|*+?{\' (ajustando con ese carácter tenido como un carácter  normal),  un  `\'  seguido  por  otro
       carácter(!)   (ajustando  con ese carácter tenido como un carácter ordinario, como si el `\' no estuviera
       presente(!)), o un solo carácter sin ningún otro significado adicional (ajustando con ese carácter).   Un
       `{'  seguido  por  un  carácter  diferente  de  un dígito es un carácter ordinario, no el principio de un
       límite.(!)  Es ilegal terminar una ER con `\'.

       Una expresión con corchetes es una lista de caracteres entre unos `[]'. Normalmente ajusta con  solo  uno
       de  los caracteres de la lista (pero vea más adelante).  Si la lista comienza por `^', ajusta con un solo
       carácter (pero vea más adelante) que no pertenezca al resto  de  la  lista.   Si  hay  en  la  lista  dos
       caracteres separados por `-', es una abreviación de un rango completo de caracteres entre dos (inclusive)
       en la secuencia, por ejemplo `[0-9]' en ASCII ajusta con cualquier dígito decimal.  Es ilegal(!) que  dos
       rangos compartan un carácter, por ejemplo `a-c-e'.

       Los  rangos  son  muy  dependientes  de la secuencia de especificación y los programas portables deberían
       evitar utilizarlos.

       Para incluir un literal `]' en la lista, debe aparecer el primero en la misma  (siguiendo  a  un  posible
       `^').   Para  incluir  un literal `-', debe aparecer el primero o el último en la lista, o ser el segundo
       carácter de un rango.

       Para usar un literal `-' como el primer carácter de un rango,  debe  rodearse  entre  `[.'  y  `.]'  para
       hacerlo un elemento a tratar (vea más abajo).  Con la excepción de estas y algunas combinaciones que usan
       `[' (vea los siguientes párrafos), todos los otros caracteres  especiales,  incluyendo  `\',  pierden  su
       significado especial dentro de una expresión entre corchetes.

       Dentro  de  una  expresión entre corchetes, un elemento a tratar (un carácter, una secuencia de más de un
       carácter que se interpreta como si fuera un solo  carácter,  o  un  nombre  de  secuencia  de  definición
       incluido  entre `[.' y `.]' se entiende como la secuencia de caracteres de ese elemento.  La secuencia es
       un elemento aislado de la lista contenida en la expresión con corchetes. Una expresión con corchetes  que
       contenga  un  elemento  de  más  de  un  carácter puede ajustar por más de un carácter, por ejemplo si la
       secuencia incluye un elemento `ch', entonces la ER `[[.ch.]]*c' ajusta con los primeros cinco  caracteres
       de `chchcc'.

       Dentro  de  una  expresión  con  corchetes,  un  elemento  englobado  entre  `[='  y `=]' es una clase de
       equivalencia, comprendiendo las secuencias de caracteres de todos los elementos equivalentes a ese  otro,
       incluyéndose  a  él  mismo.  (Si  no  hay ningún otro elemento equivalente, el tratamiento es como si los
       delimitadores hubieran sido `[.' y `.]'.)   Por  ejemplo,  si  o  y  ^  son  miembros  de  una  clase  de
       equivalencia,  entonces,  entonces  `[[=o=]]',  `[[=^=]]',  y  `[o^]'  son todos sinónimos.  Una clase de
       equivalencia no(!) puede formar parte de un rango.

       Dentro de una expresión con corchetes, el nombre de una clase de caracteres englobado entre `[:'  y  `:]'
       se  interpreta  como la lista de todos los caracteres que pertenecen a esa clase.  Los nombre de clase de
       caracteres estándar son:

              alnum       digit       punct
              alpha       graph       space
              blank       lower       upper
              cntrl       print       xdigit

       Están compuestos por las clases de caracteres definidos en wctype(3).   Localmente  podrán  proveerse  de
       otras.  Una clase de caracteres no puede formar parte de un rango.

       Hay  dos  casos  especiales(!)  de  expresiones  con corchetes: las expresiones con corchetes `[[:<:]]' y
       `[[:>:]]' ajustan con la cadena vacía del principio y final de una palabra, respectivamente.  Una palabra
       se  define  como  una  secuencia de caracteres de palabra que no se encuentra ni precedida ni seguida por
       caracteres de palabra.  Un carácter de palabra es un carácter de la clase alnum (tal y como se define  en
       wctype(3))  o un carácter de subrayado.  Esta es una extensión, compatible pero no especificada por POSIX
       1003.2, y debe ser usada con cuidado en aquel software que deba ser portable a otros sistemas.

       En el caso en que una ER puede ajustar con más de una subcadena de la cadena dada, la ER  se  ajusta  con
       aquella que comience antes en la cadena dada.  Si la ER puede ajustar con varias subcadenas que comienzan
       en el mismo punto, se ajusta con la más larga.  Las subexpresiones también ajustan con las subcadenas más
       largas  posibles,  sujetas  a  la  restricción  de  que  el  ajuste  global sea el más largo posible, con
       subexpresiones que empiecen antes en la ER con mayor prioridad que aquellas que comiencen después.

       Nótese que las  subexpresiones  de  nivel  más  alto  tienen  prioridad  respecto  a  sus  subexpresiones
       componentes de nivel inferior.

       Las  longitudes de los ajustes son medidas en caracteres, no en elementos.  Una cadena vacía se considera
       más larga que cualquier otro ajuste.  Por ejemplo, `bb*' se ajusta con los tres caracteres del centro  de
       `abbbc', `(wee|week)(knights|nights)' se ajusta con los diez caracteres de `weeknights' , cuando `(.*).*'
       se intenta ajustar con `abc' la subexpresión se ajusta con los  tres  caracteres,  y  cuando  `(a*)*'  se
       intenta ajustar con `bc' tanto la ER como la subexpresión entre paréntesis se ajustan a la cadena vacía.

       Si  se  ha  especificado  un  ajuste  no  dependiente  de  las mayúsculas, el efecto es como si todas las
       distinciones entre mayúsculas y minúsculas hubieran desaparecido del alfabeto.   Cuando  un  término  del
       alfabeto  existe  tanto  en mayúsculas como en minúsculas aparece como un carácter ordinario fuera de una
       expresión con corchetes, se transforma en una expresión con corchetes  conteniendo  los  dos  casos,  por
       ejemplo,  `x'  se  convierte  en `[xX]'.  Cuando aparece dentro de una expresión con corchetes, todos los
       casos posibles son añadidos a la expresión con corchetes, de  tal  manera  que  (por  ejemplo)  `[x]'  se
       convierte en `[xX]' y `[^x]' se convierte en `[^xX]'.

       No  se  impone  ningún  límite  en  particular en la longitud de las ERs(!).  Los programas que deban ser
       portables no deben emplear ERs más largas de 256 bytes, ya  que  una  implementación  puede  rechazar  el
       aceptar estas ERs y seguir cumpliendo POSIX.

       Las  expresiones  regulares  obsoletas  (``basic'')  difieren  en  varios  aspectos.  `|', `+', y `?' son
       caracteres ordinarios y no existe el equivalente para sus funcionalidades.  Los  delimitadores  para  los
       límites  son  `\{'  y  `\}', con `{' y `}' como caracteres ordinarios. Los paréntesis para subexpresiones
       anidadas son `\(' y `\)', siendo `(' y `)' caracteres ordinarios.  `^' es un carácter  ordinario  excepto
       en  el  principio  de  la  ER  o(!)  al  principio de una subexpresión con paréntesis, `$' es un carácter
       ordinario excepto al final de la ER o(!) al final de  una  subexpresión  con  paréntesis,  y  `*'  es  un
       carácter  ordinario  si  aparece  al principio de la ER o al principio de una subexpresión con paréntesis
       (después de un posible `^' inicial).  Finalmente, existe un nuevo tipo  de  átomo,  la  referencia  hacia
       atrás:  `\'  seguido  por  un dígito decimal mayor que cero d ajusta con la misma secuencia de caracteres
       ajustada por la subexpresión con paréntesis d-ésima (numerando las subexpresiones por las  posiciones  de
       sus  paréntesis  de  apertura,  y  de  izquierda a derecha), de tal manera que (por ejemplo) `\([bc]\)\1'
       ajusta con `bb' o `cc' pero no con `bc'.

VÉASE TAMBIÉN

       regex(3)

       POSIX 1003.2, sección 2.8 (Regular Expression Notation).

FALLOS

       Tener dos tipos de ERs es molesto.

       La especificación actual de 1003.2 dice que un `)' es un carácter ordinario en ausencia  de  un  `('  sin
       ajustar;  este  fue  un  resultado  no  intencionado  de  un  error  de  redacción, y es probable que sea
       modificado.  Evite usarlo.

       Las referencias hacia  atrás  son  una  espantosa  `chapuza',  añadiendo  bastantes  problemas  para  una
       implementación  eficiente.   También  hay  cosas  vagamente  definidas  (¿  `a\(\(b\)*\2\)*d'  ajusta con
       `abbbd'?). Evite usarlo.

       La especificación 1003.2 sobre  el  ajuste  independiente  de  mayúsculas  es  muy  vaga.  La  definición
       ``mayúsculas  o  minúsculas implican al otro'' (N. del T.  ``one case implies all cases'') dada arriba es
       un consenso entre todos los implementadores como la buena interpretación.

       La sintaxis para límites de palabras es increíblemente desagradable.

AUTOR

       Esta página ha sido obtenida del paquete regex de Henry Spencer.

                                                 7 febrero 1994                                         REGEX(7)