oracular (1) html2pdbtxt.1.gz

Provided by: txt2pdbdoc_1.4.4-8build2_amd64 bug

html2pdbtxt(1)                                                                     html2pdbtxt(1)

NAME

       html2pdbtxt - HTML zu Doc-Text Umwandler für Palm Pilots

ÜBERSICHT

       html2pdbtxt [ -bZeichen ] [ -tTitel ] [ -uURL ] Datei.htm [ Datei.txt ]
       html2pdbtxt -v

BESCHREIBUNG

       html2pdbtxt  wandelt  HTML-  in  Textdateien  um,  die für eine weitere Umwandlung in eine
       Doc(4)-Datei mittels txt2pdbdoc(1) geeignet sind. Wenn kein Dateiname  für  die  Textdatei
       angegeben wird, erfolgt die Ausgabe des Textes auf die Standardausgabe.

   HTML Tags
       Folgende  HTML-Tags  (und  die  entsprechenden  End-Tags) werden erkannt: ADDRESS, A NAME,
       BLOCKQUOTE, BR, CENTER, DIV, DL, DT, H1, H2, H3, H4, H5, H6, OL, OPTION, PRE,  P,  SELECT,
       SCRIPT, STYLE, TABLE, TITLE, UL. Es wird versucht, die Attribute so gut wie möglich in die
       Vorgaben des Doc(4)-Formats umzusetzen, das im wesentlichen Klartext  ist.  Der  Text  des
       ALT-Attributs  (meist  in IMG-Tags) wird zwischen Klammern in den Text eingebettet. [so z.
       B.]. Alle anderen HTML-Tags werden entfernt.

   Zeichen
       Umschreibungen für HTML-Zeichen und numerische Zeichen (dezimal und hexadezimal) werden in
       ihren  Wert  im  Zeichensatz  ISO 8859-1 (Latin 1) umgewandelt, damit sie korrekt im Pilot
       erscheinen. Zum Beispiel: aus ``résumé'' wird ``resume''  mit  einem  betonten
       'e'.

   Dokumenttitel
       Wenn  nicht  schon  mit der Option -t angegeben, wird die HTML-Datei nach den Tags <TITLE>
       und </TITLE> durchsucht und, wenn  gefunden,  wird  der  Titel  in  die  erste  Zeile  des
       erzeugten Textes gesetzt.

   Lesezeichen
       Lesezeichen  werden in den erzeugten Text immer dort eingesetzt, wo ein <A NAME="..."> Tag
       in der HTML-Datei gefunden wurde.

OPTIONEN

       -b Zeichen
                 Angabe der Zeichenfolge, die als Lesezeichen-Kennung  verwendet  wird.  Standard
                 ist (*). (Siehe BESONDERHEITEN.)

       -t Titel  Angabe  des  Dokumenttitels,  der  in  die  erste  Zeile  des  erzeugten  Textes
                 eingesetzt wird und Titel, die in der HTML-Datei zwischen <TITLE>  ...  </TITLE>
                 Tags gefunden wurden, überschreibt.

       -u URL    Angabe  der  URL  von der die HTML-Datei angeblich stammt; sie wird in die Zeile
                 nach dem Titel des erzeugten Textes eingesetzt.

       -v        Schreibt die Versionsnummer von html2pdbtxt auf die Standardausgabe und  beendet
                 sich.

BEISPIEL

       Umwandlung einer HTML-Datei in Doc:

            html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt
            txt2pdbdoc "`head -1 alice.txt`" alice.txt alice.pdb

BESONDERHEITEN

       1.  Einige   Doc-Leseprogramme   haben   eine   ``Funktion'',   beim   Suchen   nach   der
           Lesezeichenkennung diese Zeichenfolge überall  im  Text  zu  erkennen,  nicht  nur  am
           Zeilenanfang.

       2.  Bei  einigen  Doc-Leseprogrammen  darf  die  Lesezeichenkennung  nicht  das  Zeichen >
           enthalten, weil es als Endezeichen  der  Kennung  verwendet  wird,  z.  B.  <->>  wird
           lediglich als Folge - erkannt.

       3.  Nummerierte Listen (mit dem Tag OL) werden als unnummerierte Listen umgesetzt (wie mit
           dem Tag UL), weil es so kompliziert wäre, dass es richtig ausgewertet  werden  müsste,
           statt nur eine einfache Ersetzung auszuführen.

SIEHE AUCH

       pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)

       International  Standards  Organization.  ``ISO  8859-1:  Information  Processing  -- 8-bit
       single-byte coded graphic character sets -- Part 1: Latin alphabet No. 1.'' 1987.

       World Wide  Web  Consortium.  ``Character  entity  references  in  HTML  4.0.''  HTML  4.0
       Specification, http://www.w3.org/

AUTOR

       Paul J. Lucas <pauljlucas@mac.com>
       Deutsche Übersetzung: Erik Schanze <eriks@debian.org>

html2pdbtxt                              06. August 2005                           html2pdbtxt(1)