Ubuntu Manpage: regex - expresiones regulares POSIX.2

nombre
descripción
errores
autor
véase también
traducción

NOMBRE

       regex - expresiones regulares POSIX.2

DESCRIPCIÓN

       Las  expresiones regulares ("ER"s), tal y como se definen en POSIX.2, tienen dos formas: ER modernas (tal
       como egrep(1); llama a estas ER "extendidas" de POSIX.2) y ER  obsoletas  (las  que  usa  ed(1);  son  ER
       "básicas"  de  POSIX.2).  Las ER obsoletas existen como tales por mantener la compatibilidad para algunos
       viejos programas; y serán discutidas al final. POSIX.2 deja abiertos algunos aspectos de  la  sintaxis  y
       semántica  de  las ER; "(dg" es una de las decisiones tomadas al respecto de estos temas que puede no ser
       portable con otras implementaciones de la POSIX.2.

       Una ER (moderna) es una (!) o más de una(!) rama no vacía, separadas por '|'. Acepta cualquier  cosa  que
       se corresponda con una de las ramas.

       Una  rama es una(!) o más de una pieza, concatenadas. Acepta algo que corresponda con la primera, seguida
       por algo que corresponda con la segunda, etc.

       Una pieza es un átomo posiblemente seguido por un solo(!) '*', '+',  '?',  o  por  un  límite.  Un  átomo
       seguido  por  '*'  ajusta  con  una  secuencia de 0 o más átomos. Un átomo seguido por '+' ajusta con una
       secuencia de 1 o más átomos. Un átomo seguido por '?'  ajusta con una secuencia de 0 o 1 átomo.

       Un límite es un '{'  seguido  por  un  entero  decimal  sin  signo,  posiblemente  seguido  por  una  ','
       posiblemente  seguida  por  otro  entero  decimal sin signo, y todo acabado por un '}'. Los enteros deben
       encontrarse entre 0 y RE_DUP_MAX (255(!)) inclusive, y si hay dos de ellos, el primero no podrá ser mayor
       que  el  segundo.  Un  átomo seguido por un límite conteniendo un solo entero i y sin coma ajusta con una
       secuencia de exactamente i átomos. Un átomo seguido por un límite conteniendo un  entero  i  y  una  coma
       ajusta  con una secuencia de i o más átomos. Un átomo seguido por un límite conteniendo dos enteros i y j
       ajusta con una secuencia de entre i y j átomos (ambos inclusive).

       Un átomo es una expresión regular dentro de "()" (ajustándose con una aparición de la expresión regular),
       un  conjunto  vacío de "()" (ajustando con una cadena vacía)(!), una expresión con corchetes (ver abajo),
       '.' (ajustándose con un solo carácter), '^' (ajustando con la cadena vacía al principio  de  una  línea),
       '$'  (ajustando  con  la  cadena  vacía  al final de una línea), un '\' seguido por uno de los caracteres
       "^.[$()|*+?{\" (ajustando con es carácter tenido como  un  carácter  normal),  un  '\'  seguido  de  otro
       carácter(!)   (ajustando  con ese carácter tenido como un carácter ordinario, como si el '\' no estuviera
       presente(!)), o un solo carácter sin ningún otro significado adicional (ajustando con ese carácter). Un A
       '{'  seguido  de  un  carácter  diferente  de  un  dígito es un carácter ordinario, no el principio de un
       límite.(!) Es ilegal terminar una ER con '\'.

       Una expresión con corchetes es una lista de caracteres entre unos "[]". Normalmente ajusta con  solo  uno
       de  los  caracteres de la lista (pero vea más adelante). Si la lista comienza por '^', ajusta con un solo
       carácter (pero vea más adelante) que no pertenezca al  resto  de  la  lista.  Si  hay  en  la  lista  dos
       caracteres separados por '-', es una abreviación de un rango completo de caracteres entre dos (inclusive)
       en la secuencia, por ejemplo "[0-9]" en ASCII ajusta con cualquier dígito decimal. Es ilegal(!)  que  dos
       intervalos  compartan  un  carácter,  p.  ej: "a-c-e". Los rangos son muy dependientes de la secuencia de
       especificación y los programas portables deberían evitar utilizarlos.

       Para incluir un literal '' en la lista, debe aparecer el primero en la  misma  (siguiendo  a  un  posible
       '^').  Para  incluir  un literal '-'), debe aparecer el primero o el último en la lista, o ser el segundo
       carácter de un rango. Para usar un literal '-') como el primer carácter de un rango, debe rodearse  entre
       "[."  y  ".]"  para  hacerlo  un  elemento  a tratar (vea más abajo). Con la excepción de estas y algunas
       combinaciones que usan '['  (vea  los  siguientes  párrafos),  todos  los  otros  caracteres  especiales,
       incluyendo '\', pierden su significado especial dentro de una expresión entre corchetes.

       Dentro  de  una  expresión entre corchetes, un elemento a tratar (un carácter, una secuencia de más de un
       carácter que se interpreta como si fuera un solo  carácter,  o  un  nombre  de  secuencia  de  definición
       incluido  entre  "[." y ".]" se entiende como la secuencia de caracteres de ese elemento. La secuencia es
       un elemento aislado de la lista contenida en la expresión con corchetes. Una expresión con corchetes  que
       contenga  un  elemento  de  más  de  un  carácter puede ajustar por más de un carácter, por ejemplo si la
       secuencia incluye un elemento "ch", entonces la ER "[[.ch.]]*c" ajusta con los primeros cinco  caracteres
       de "chchcc".

       Dentro  de  una  expresión  con  corchetes,  un  elemento  englobado  entre  "[="  y "=]" es una clase de
       equivalencia, comprendiendo las secuencias de caracteres de todos los elementos equivalentes a ese  otro,
       incluyéndose  a  él  mismo.  (Si  no  hay ningún otro elemento equivalente, el tratamiento es como si los
       delimitadores hubieran sido "[." y  ".]".)  Por  ejemplo,  si  o  y  ^  son  miembros  de  una  clase  de
       equivalencia,  entonces,  entonces  "[[=o=]]",  "[[='=]]"  y  "[oo']"  son  todos sinónimos. Una clase de
       equivalencia no(!) puede ser el extremo de un intervalo.

       Dentro de una expresión con corchetes, el nombre de una clase de caracteres englobado entre "[:"  y  ":]"
       se  interpreta  como  la lista de todos los caracteres que pertenecen a esa clase. Los nombre de clase de
       caracteres estándar son:

              alnum   digit   punct
              alpha   graph   space
              blank   lower   upper
              cntrl   print   xdigit

       Están compuestos por las clases de caracteres definidos en  wctype(3).  Localmente  podrán  proveerse  de
       otras. Una clase de caracteres no puede formar parte de un rango.

       En  el  caso  en que una ER puede ajustar con más de una subcadena de la cadena dada, la ER se ajusta con
       aquella que comience antes en la cadena dada. Si la ER puede ajustar con varias subcadenas que  comienzan
       en  el mismo punto, se ajusta con la más larga. Las subexpresiones también ajustan con las subcadenas más
       largas posibles, sujetas a la restricción de  que  el  ajuste  global  sea  el  más  largo  posible,  con
       subexpresiones que empiecen antes en la ER con mayor prioridad que aquellas que comiencen después. Nótese
       que las subexpresiones de nivel más alto tienen prioridad respecto a sus  subexpresiones  componentes  de
       nivel inferior.

       Las  longitudes  de los ajustes son medidas en caracteres, no en elementos. Una cadena vacía se considera
       más larga que cualquier otro ajuste. Por ejemplo, "bb*" se ajusta con los tres caracteres del  centro  de
       "abbbc", "(wee|week)(knights|nights)" se ajusta con los diez caracteres de "weeknights" , cuando "(.*).*"
       se intenta ajustar con "abc" la subexpresión se ajusta con los  tres  caracteres,  y  cuando  "(a*)*"  se
       intenta ajustar con "bc" tanto la ER como la subexpresión entre paréntesis se ajustan a la cadena vacía.

       Si  se  ha  especificado  un  ajuste  no  dependiente  de  las mayúsculas, el efecto es como si todas las
       distinciones entre mayúsculas y minúsculas hubieran desaparecido del  alfabeto.  Cuando  un  término  del
       alfabeto  existe  tanto  en mayúsculas como en minúsculas aparece como un carácter ordinario fuera de una
       expresión con corchetes, se transforma en una expresión con corchetes  conteniendo  los  dos  casos,  por
       ejemplo,  'x'  se  convierte  en  "[xX]". Cuando aparece dentro de una expresión con corchetes, todos los
       casos posibles son añadidos a la expresión con corchetes, de  tal  manera  que  (por  ejemplo)  "[x]"  se
       convierte en "[xX]" y "[^x]" se convierte en "[^xX]".

       No  se  impone  ningún  límite  en  particular  en  la longitud de las ER(!). Los programas que deban ser
       portables no deben emplear ER más largas de 256 bytes,  ya  que  una  implementación  puede  rechazar  el
       aceptar estas ER y seguir cumpliendo POSIX.

       Las expresiones regulares obsoletas ("basic") difieren en varios aspectos.  '|', '+' y '?' son caracteres
       ordinarios y no existe el equivalente para sus funcionalidades. Los delimitadores para  los  límites  son
       "\{"  y  "\}",  con '{' y '}' como caracteres ordinarios. Los paréntesis para subexpresiones anidadas son
       "\(" y "\)", siendo '(' and ')' caracteres ordinarios.  '^'  es  un  carácter  ordinario  excepto  en  el
       principio  de  la  ER  o(!) al principio de una subexpresión con paréntesis, '$' es un carácter ordinario
       excepto al final de la ER o(!) al final de  una  subexpresión  con  paréntesis,  y  '*'  es  un  carácter
       ordinario  si aparece al principio de la ER o al principio de una subexpresión con paréntesis (después de
       un posible '^') inicial).

       Finalmente, existe un nuevo tipo de átomo, la referencia hacia atrás: '\' seguido por un  dígito  decimal
       mayor  que cero d ajusta con la misma secuencia de caracteres ajustada por la subexpresión con paréntesis
       d-ésima (numerando las subexpresiones por las posiciones de sus paréntesis de apertura, y de izquierda  a
       derecha), de tal manera que (por ejemplo) "\([bc]\)\1" ajusta con "bb" o "cc" pero no con "bc".

ERRORES

       Tener dos tipos de ER es molesto.

       La  especificación  actual  de POSIX.2 dice que un ')' es un carácter ordinario en ausencia de un '(' sin
       ajustar; este fue un resultado no  intencionado  de  un  error  de  redacción,  y  es  probable  que  sea
       modificado. Evite usarlo.

       Las  referencias  hacia  atrás  son  una  espantosa  'chapuza',  añadiendo  bastantes  problemas para una
       implementación  eficiente.  También  hay  cosas  vagamente  definidas  (¿  "a\(\(b\)*\2\)*d"  ajusta  con
       "abbbd"?). Evite usarlo.

       La  especificación  POSIX.2  sobre  el  ajuste  independiente  de  mayúsculas  es muy vaga. La definición
       "mayúsculas o minúsculas implican al otro" (N. del T.  "one case implies all cases") dada  arriba  es  un
       consenso entre todos los implementadores como la buena interpretación.

AUTOR

       Esta página ha sido obtenida del paquete regex de Henry Spencer.

VÉASE TAMBIÉN

       grep(1), regex(3)

       POSIX.2, sección 2.8 (Regular Expression Notation).

TRADUCCIÓN

       La   traducción  al  español  de  esta  página  del  manual  fue  creada  por  Juan  José  López  Mellado
       <laveneno@hotmail.com> y Marcos Fouces <marcos@debian.org>

       Esta  traducción  es   documentación   libre;   lea   la   GNU   General   Public   License   Version   3
       ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩  o posterior con respecto a las condiciones de copyright.  No
       existe NINGUNA RESPONSABILIDAD.

       Si encuentra algún error en la traducción de esta página  del  manual,  envíe  un  correo  electrónico  a
       ⟨debian-l10n-spanish@lists.debian.org⟩.