Provided by:
txt2pdbdoc_1.4.4-4_i386 
html2pdbtxt(1) html2pdbtxt(1)
NAME
html2pdbtxt - HTML zu Doc-Text Umwandler für Palm Pilots
ÜBERSICHT
html2pdbtxt [ -bZeichen ] [ -tTitel ] [ -uURL ] Datei.htm [ Datei.txt ]
html2pdbtxt -v
BESCHREIBUNG
html2pdbtxt wandelt HTML- in Textdateien um, die für eine weitere
Umwandlung in eine Doc(4) -Datei mittels txt2pdbdoc(1) geeignet sind.
Wenn kein Dateiname für die Textdatei angegeben wird, erfolgt die
Ausgabe des Textes auf die Standardausgabe.
HTML Tags
Folgende HTML-Tags (und die entsprechenden End-Tags) werden erkannt:
ADDRESS, A NAME, BLOCKQUOTE, BR, CENTER, DIV, DL, DT, H1, H2, H3, H4,
H5, H6, OL, OPTION, PRE, P, SELECT, SCRIPT, STYLE, TABLE, TITLE, UL.
Es wird versucht, die Attribute so gut wie möglich in die Vorgaben des
Doc(4) -Formats umzusetzen, das im wesentlichen Klartext ist. Der Text
des ALT-Attributs (meist in IMG-Tags) wird zwischen Klammern in den
Text eingebettet. [so z. B.]. Alle anderen HTML-Tags werden entfernt.
Zeichen
Umschreibungen für HTML-Zeichen und numerische Zeichen (dezimal und
hexadezimal) werden in ihren Wert im Zeichensatz ISO 8859-1 (Latin 1)
umgewandelt, damit sie korrekt im Pilot erscheinen. Zum Beispiel: aus
‘‘résumé’’ wird ‘‘resume’’ mit einem betonten ’e’.
Dokumenttitel
Wenn nicht schon mit der Option -t angegeben, wird die HTML-Datei nach
den Tags <TITLE> und </TITLE> durchsucht und, wenn gefunden, wird der
Titel in die erste Zeile des erzeugten Textes gesetzt.
Lesezeichen
Lesezeichen werden in den erzeugten Text immer dort eingesetzt, wo ein
<A NAME="..."> Tag in der HTML-Datei gefunden wurde.
OPTIONEN
-bZeichen Angabe der Zeichenfolge, die als Lesezeichen-Kennung
verwendet wird. Standard ist (*). (Siehe BESONDERHEITEN.)
-tTitel Angabe des Dokumenttitels, der in die erste Zeile des
erzeugten Textes eingesetzt wird und Titel, die in der
HTML-Datei zwischen <TITLE> ... </TITLE> Tags gefunden
wurden, überschreibt.
-uURL Angabe der URL von der die HTML-Datei angeblich stammt; sie
wird in die Zeile nach dem Titel des erzeugten Textes
eingesetzt.
-v Schreibt die Versionsnummer von html2pdbtxt auf die
Standardausgabe und beendet sich.
BEISPIEL
Umwandlung einer HTML-Datei in Doc:
html2pdbtxt -u http://www.wonderland.org/ alice.html alice.txt
txt2pdbdoc "‘head -1 alice.txt‘" alice.txt alice.pdb
BESONDERHEITEN
1. Einige Doc-Leseprogramme haben eine ‘‘Funktion’’, beim Suchen nach
der Lesezeichenkennung diese Zeichenfolge überall im Text zu
erkennen, nicht nur am Zeilenanfang.
2. Bei einigen Doc-Leseprogrammen darf die Lesezeichenkennung nicht
das Zeichen > enthalten, weil es als Endezeichen der Kennung
verwendet wird, z. B. <->> wird lediglich als Folge - erkannt.
3. Nummerierte Listen (mit dem Tag OL) werden als unnummerierte Listen
umgesetzt (wie mit dem Tag UL), weil es so kompliziert wäre, dass
es richtig ausgewertet werden müsste, statt nur eine einfache
Ersetzung auszuführen.
SIEHE AUCH
pdbtxt2html(1), txt2pdbdoc(1), doc(4), pdb(4)
International Standards Organization. ‘‘ISO 8859-1: Information
Processing -- 8-bit single-byte coded graphic character sets -- Part 1:
Latin alphabet No. 1.’’ 1987.
World Wide Web Consortium. ‘‘Character entity references in HTML
4.0.’’ HTML 4.0 Specification, http://www.w3.org/
AUTOR
Paul J. Lucas <pauljlucas@mac.com>
Deutsche Übersetzung: Erik Schanze <schanzi_@gmx.de>
html2pdbtxt 21. Januar 2005 html2pdbtxt(1)