Provided by: txt2pdbdoc_1.4.4-4_i386 bug

html2pdbtxt(1)                                                  html2pdbtxt(1)

NAME

       html2pdbtxt - HTML zu Doc-Text Umwandler für Palm Pilots

ÜBERSICHT

       html2pdbtxt [ -bZeichen ] [ -tTitel ] [ -uURL ] Datei.htm [ Datei.txt ]
       html2pdbtxt -v

BESCHREIBUNG

       html2pdbtxt wandelt HTML- in  Textdateien  um,  die  für  eine  weitere
       Umwandlung  in  eine Doc(4) -Datei mittels txt2pdbdoc(1) geeignet sind.
       Wenn kein Dateiname für  die  Textdatei  angegeben  wird,  erfolgt  die
       Ausgabe des Textes auf die Standardausgabe.

   HTML Tags
       Folgende  HTML-Tags  (und  die entsprechenden End-Tags) werden erkannt:
       ADDRESS, A NAME, BLOCKQUOTE, BR, CENTER, DIV, DL, DT, H1, H2,  H3,  H4,
       H5,  H6,  OL,  OPTION, PRE, P, SELECT, SCRIPT, STYLE, TABLE, TITLE, UL.
       Es wird versucht, die Attribute so gut wie möglich in die Vorgaben  des
       Doc(4)  -Formats umzusetzen, das im wesentlichen Klartext ist. Der Text
       des ALT-Attributs (meist in IMG-Tags) wird  zwischen  Klammern  in  den
       Text eingebettet.  [so z. B.].  Alle anderen HTML-Tags werden entfernt.

   Zeichen
       Umschreibungen für HTML-Zeichen und  numerische  Zeichen  (dezimal  und
       hexadezimal)  werden  in ihren Wert im Zeichensatz ISO 8859-1 (Latin 1)
       umgewandelt, damit sie korrekt im Pilot erscheinen.  Zum Beispiel:  aus
       ‘‘résumé’’ wird ‘‘resume’’ mit einem betonten ’e’.

   Dokumenttitel
       Wenn  nicht schon mit der Option -t angegeben, wird die HTML-Datei nach
       den Tags <TITLE> und </TITLE> durchsucht und, wenn gefunden,  wird  der
       Titel in die erste Zeile des erzeugten Textes gesetzt.

   Lesezeichen
       Lesezeichen  werden in den erzeugten Text immer dort eingesetzt, wo ein
       <A NAME="..."> Tag in der HTML-Datei gefunden wurde.

OPTIONEN

       -bZeichen Angabe  der   Zeichenfolge,   die   als   Lesezeichen-Kennung
                 verwendet wird.  Standard ist (*).  (Siehe BESONDERHEITEN.)

       -tTitel   Angabe  des  Dokumenttitels,  der  in  die  erste  Zeile  des
                 erzeugten Textes  eingesetzt  wird  und  Titel,  die  in  der
                 HTML-Datei   zwischen  <TITLE>  ...  </TITLE>  Tags  gefunden
                 wurden, überschreibt.

       -uURL     Angabe der URL von der die HTML-Datei angeblich  stammt;  sie
                 wird  in  die  Zeile  nach  dem  Titel  des  erzeugten Textes
                 eingesetzt.

       -v        Schreibt  die  Versionsnummer   von   html2pdbtxt   auf   die
                 Standardausgabe und beendet sich.

BEISPIEL

       Umwandlung einer HTML-Datei in Doc:

            html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt
            txt2pdbdoc "‘head -1 alice.txt‘" alice.txt alice.pdb

BESONDERHEITEN

       1.  Einige  Doc-Leseprogramme haben eine ‘‘Funktion’’, beim Suchen nach
           der  Lesezeichenkennung  diese  Zeichenfolge  überall  im  Text  zu
           erkennen, nicht nur am Zeilenanfang.

       2.  Bei  einigen  Doc-Leseprogrammen  darf die Lesezeichenkennung nicht
           das Zeichen >  enthalten,  weil  es  als  Endezeichen  der  Kennung
           verwendet wird, z. B. <->> wird lediglich als Folge - erkannt.

       3.  Nummerierte Listen (mit dem Tag OL) werden als unnummerierte Listen
           umgesetzt (wie mit dem Tag UL), weil es so kompliziert  wäre,  dass
           es  richtig  ausgewertet  werden  müsste,  statt  nur eine einfache
           Ersetzung auszuführen.

SIEHE AUCH

       pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)

       International  Standards  Organization.   ‘‘ISO   8859-1:   Information
       Processing -- 8-bit single-byte coded graphic character sets -- Part 1:
       Latin alphabet No. 1.’’  1987.

       World Wide Web  Consortium.   ‘‘Character  entity  references  in  HTML
       4.0.’’  HTML 4.0 Specification, http://www.w3.org/

AUTOR

       Paul J. Lucas <pauljlucas@mac.com>
       Deutsche Übersetzung: Erik Schanze <schanzi_@gmx.de>

html2pdbtxt                     21. Januar 2005                 html2pdbtxt(1)