Ubuntu Manpage: konwert - interfejs do różnych konwersji kodowań znaków

NAZWA

       konwert - interfejs do różnych konwersji kodowań znaków

UŻYCIE

       konwert FILTR [PLIK]... [-o WYNIK | -O]

OPIS

Konwert pozwala filtrować wiele plików przez wiele filtrów. Filtruje podane PLIKI, albo
stdin jeśli żadnych nie określono.

Prosty FILTR jest nazwą pliku wykonywalnego z katalogu ~/.konwert/filters albo z
ogólnosystemowego, normalnie /usr/share/konwert/filters. Taki program sam filtruje stdin
na stdout.

Reguła filtrowania może być bradziej skomplikowana:

konwert FILTR1+FILTR2 znaczy konwert FILTR1 | konwert FILTR2.

konwert FORMAT1-FORMAT2, o ile taki filtr nie istnieje, próbuje znaleźć wspólny FORMAT3,
taki że oba filtry FORMAT1-FORMAT3 i FORMAT3-FORMAT1 istnieją.

konwert FILTR/ARG/... przekazuje filtrowi argumenty. Argumenty mogą być też podane tutaj:
FORMAT1/ARG-FORMAT2. Znaczenie arguentów zależy od konkretnego filtru.

konwert '(KOMENDA ARG...)' wykonuje dane polecenie powłoki. Jest to przydatne z opcjami -o
albo -O. Komenda nie może zawierać łańcucha )+, który zakończy specyfikację tego filtru.

OPCJE
-o WYNIK wyjście idzie do tego pliku/katalogu zamiast na stdout

-O każdy plik źródłowy jest zastępowany swoim tłumaczeniem

--help wyświetla opis i wychodzi

--version wyświetla informację o wersji i wychodzi

Przekierowanie wyjścia do jednego z plików źródłowych przez -o albo > zamiast -O zniszczy
ten plik! Opcja -O tworzy tymczasowy plik w /tmp i później kopiuje go z powrotem na
źródło.

KONWERSJE KODOWAŃ ZNAKÓW

       Można  konwertować  tekst  między  dowolnymi  dwoma  zestawami znaków, na przykład konwert
       cp437-iso2.

       Znaki niedostępne w docelowym zestawie będą zastąpione przybliżeniami dostępnymi  znakami.
       Przybliżenia nie muszą być pojedynczymi znakami.

       Filtry obsługują teraz następujące zestawy znaków:

       ascii  siedmiobitowe ASCII

       utf8 = unicode  Unikod (Unicode) w UTF-8

       iso1 = isolatin1
              ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)
       iso2 = isolatin2
              ISO-8859-2 albo ISO Latin 2 (środkowoeuropejskie)
       iso3 = isolatin3
              ISO-8859-3 albo ISO Latin 3 (Esperanto)
       iso4 = isolatin4
              ISO-8859-4 albo ISO Latin 4 (bałtyckie)
       iso5 = isolatincyr
              ISO-8859-5 (cyrylica)
       iso6 = isolatinarabic
              ISO-8859-6 (arabskie)
       iso7 = isolatingreek
              ISO-8859-7 (greckie)
       iso8 = isolatinhebrew
              ISO-8859-8 (hebrajskie)
       iso9 = isolatin5 = isolatintur
              ISO-8859-9 albo ISO Latin 5 (tureckie)
       iso10 = isolatin6 = isolatinnordic
              ISO-8859-10 albo ISO Latin 6 (nordyckie)
       iso12 = isolatin7 = isolatinceltic
              ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft
       iso13 = isolatin8 = isolatinbaltic
              ISO-8859-13 albo ISO Latin 6 (bałtyckie) - Draft
       iso14 = isolatin9 = isolatinsami
              ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft
       iso15  ISO-8859-15 - Draft

       koi8r    KOI8-R (rosyjskie)
       koi8u    KOI8-U (ukraińskie, białoruskie)
       koi8uni  KOI8-Uni (cyrylica)

       cp1250 = wince = winlatin2    Windows CP-1250 albo Win Latin 2 (środkowoeuropejskie)
       cp1251 = wincyr               Windows CP-1251 (cyrylica)
       cp1252 = winwest = winlatin1  Windows CP-1252 albo Win Latin 1 (zachodnioeuropejskie)
       cp1253 = wingr                Windows CP-1253 (greckie)
       cp1254 = wintur               Windows CP-1254 (tureckie)
       cp1255 = winhebrew            Windows CP-1255 (hebrajskie)
       cp1256 = winarabic            Windows CP-1256 (arabskie)
       cp1257 = winbaltic            Windows CP-1257 (bałtytckie)
       cp1258 = winviet              Windows CP-1258 (wietnamskie)

       cp437 = icmeng               DOS CP-437 (angielskie)
       cp737 = dosgreek             DOS CP-737 (greckie)
       cp775 = dosbaltic            DOS CP-775 (bałtyckie)
       cp850 = doswest = doslatin1  DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)
       cp852 = dosce = doslatin2    DOS CP-852 aka DOS Latin 2 (środkowoeuropejskie)
       cp855 = doscyr               DOS CP-855 (cyrylica)
       cp857 = dostur               DOS CP-857 (tureckie)
       cp860 = dosportugal          DOS CP-860 (portugalskie)
       cp861 = dosiceland           DOS CP-861 (islandzkie)
       cp862 = doshebrew            DOS CP-862 (hebrajskie)
       cp863 = doscanadfr           DOS CP-863 (kanadyjskie - francuskie)
       cp864 = dosarabic            DOS CP-864 (arabskie)
       cp865 = dosnordic            DOS CP-865 (nordyckie)
       cp866 = dosrussian           DOS CP-866 (rosyjskie)
       cp869 = dosgreek2            DOS CP-869 (greckie 2)
       cp874 = dosthai              DOS CP-874 (tajskie)

       mac         Macintosh Roman (zachodnioeuropejskie)
       macce       Macintosh Central European (wschodnioeuropejskie)
       maccyr      Macintosh Cyrillic (cyrylica)
       macgreek    Macintosh Greek (greckie)
       maciceland  Macintosh Icelandic (islandzkie)
       mactur      Macintosh Turkish (tureckie)

       csk,
       cyfromat,
       dhn,
       fidomazovia,
       iea,
       logic,
       mazovia,
       microvex     DOSowe zestawy znaków do polskiego

       amigapl,
       fat,
       xjp      Amigowe zestawy znaków do polskiego

       kamenicky  DOSowy zestaw znaków do czeskiego i sĽowackiego

       wingreek  WinGreek (kodowanie dla starożytnej greki według windowsowego fontu)

       babelpl  TeX [polish]{babel}: "a"c"e"l"n"o"s"z"r
       ciachy   TeX \prefixing: /a/c/e/l/n/o/s/x/z

       xmetodo        Esperanto: cx gx hx jx sx ux (vx w)
       hmetodo        Esperanto: ch gh hh jh sh u
       antauxcxap     Esperanto: ^c ^g ^h ^j ^s ^u (~u)
       postcxap       Esperanto: c^ g^ h^ j^ s^ u^ (u~)
       apostrofoj     Esperanto: c' g' h' j' s' u'
       malapostrofoj  Esperanto: c` g` h` j` s` u`

       viscii  VISCII (wietnamski)
       viqri   Vietnamese Quoted Readable Implicit

       htmldec  SGMLowe/HTMLowe numery znaków (dziesiątkowo): &#198; &#283; &#8594;
       htmlhex  SGMLowe/HTMLowe numery znaków (szesnastkowo) &#xC6; &#x11B; &#x2192;
       htmlent  SGMLowe/HTMLowe encje (nazwy znaków): &AElig; &ecaron &rarr;
       html     Wszystkie trzy powyżej (tylko jako format wejściowy)

       tex    TeX  wraz  z  niektórymi  rozszerzeniami  LaTeXa albo AMS-TeXa. Nie ma rozróżnienia
              między normalnym trybem a matematycznym - prawdopodobbie  będziesz  musiał  ręcznie
              podostawiać trochę znaków $.

       mnemonic   Mnemoniki RFC 1345 poprzedzone przez &
       mnemonic1  Mnemoniki RFC 1345 poprzedzone przez `

       any/JĘZYK (np. any/pl-iso2)
              Ten  specjalny  format  wejściowy  rozpozna  kodowanie  automatycznie, na podstawie
              częstości znaków znalezionych w tekście. Z każdym językiem  jest  skojarzony  zbiór
              możliwych  kodowań  używanych  dla niego i średnie częstości jego liter (wyłączając
              litery ASCII). Użyte zostanie najlepiej pasujące kodowanie. Filtr  obsługuje  teraz
              języki  cs  (czeski), de (niemiecki), el (grecki), eo (Esperanto), es (hiszpański),
              fr (francuski), he (hebrajski), it (włoski),  pl  (polski),  pt  (portugalski),  ru
              (rosyjski) i sv (szwedzki).

       varpl  Wymieszane  polskie  ISO-8859-2,  CP-1250  i  UTF-8.  W polskich warunkach sugeruję
              podpięcie  tego  jako  filtr  w  czytniku  newsów  (dla  szybkości   lepiej   wołać
              bezpośrednio, a nie przez konwerta).

       vareo  Wymieszane różne kodowania Esperanta.

OPCJE KONTROLUJĄCE POWYŻSZE KONWERSJE

       /1 (np. konwert iso2-ascii/1)
              Każdy niedostępny znak będzie zastąpiony przez pojedynczy przybliżający znak, a nie
              przez napis. Przydatne dla programu filterm albo dla  preformatowanego  tekstu.  Ta
              opcja jest automatycznie włączana jeśli filtr jest używany jako wyjście filterma.

       /html  Zakłada,  że  tekst  jest  HTMLem. Znaki " & < > wynikłe z przybliżeń innych znaków
              będą prawidłowo wyeskejpowane do &quot; &amp;  &lt;  &gt;.   Nagłówek  <META  http-
              equiv="content-type"  content="text/html;  charset=...">  będzie  poprawiony  jeśli
              wystąpi.

       /htmldec
              Konwertuje META jak wyżej. Niedostępne znaki będą zakodowane w &#Unikodzie;.

       /htmlhex
              Konwertuje META jak  wyżej.  Niedostępne  znaki  będą  zakodowane  w  szesnastkowym
              &#xUnikodzie;.

       /tex   Niedostępne  znaki  będą  opisane  w  TeXu.  Znaki  # $ % & \ ^ _ { | } ~ wynikłe z
              przybliżeń  niektórych  znaków  będą  prawidłowo  wyeskejpowane  do  \#  \$  \%  \&
              $\backslash$ \^{} \_ \{ $|$ \} \~{}.

       /asciichar
              Rozpoznaje niektóre reprezentacje znaków w ASCII, np. (c) ... 1/2 >=.

       /rosyjski
              Rosyjski tekst będzie oddany w polskiej transkrypcji fonetycznej.

       Niektóre  filtry  wyjściowe  mogą  użyć  informacji  o  języku  do  lepszego  przybliżenia
       niedostępnych liter, np. w /de (niemieckim): ä → ae zamiast a.

INNE FILTRY

any/JĘZYK-test
Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje tylko nazwę kodowania.
Dodatkowa opcja /all pokazuje wszystkie możliwe kodowania, posortowane od lepszych
do gorszych.

cr
lf
crlf Wymusza określoną konwencję oznaczenia końców linii. cr = Macintosh, lf = Unix i
Amiga, crlf = Windows i DOS. Konwencja wejściowa jest rozpoznawana automatycznie.

expand Rozwija tabulacje na spacje (używa programu expand z textutils).

unexpand
Kompresuje spacje na początku linii do tabulacji (używa programu unexpand z
textutils).

rmspacesateol
Usuwa spacje i tabulacje z końców linii.

qp-8bit
8bit-qp
Kodowanie MIME Quoted Printable: =A3=F3d=BC.

rtf-8bit
8bit-rtf
Rich Text Format: \'a3\'f3d\'9f.

txt-htmlchar
Eskejpuje " & < > w SGMLowe/HTMLowe encje &quot; &amp; &lt; &gt;. Wygodne do
włączania pliku tekstowego w HTMLowych tagach <PRE> </PRE>.

htmlchar-txt
W drugą stronę.

rot13 Gb wrfg qrzbafgenpwn ebg13.

toupper
tolower
Zamienia tekst na duże / małe litery. Na razie tylko ASCII.

prn7pl Konwertuje polskie znaki na sekwencje sterujęce drukarki zgodnej z EPSON
wykorzystując jedynie podstawowe znaki 7-bitowe, cofając głowicę drukarki i
drukując na odpowiedniej wysokości ,.'` dające w sumie pseudo- polskie znaki.
Przyjmuje opcje: /nlq (domyślne) optymalizowane do drukarek o lepszej
rozdzielczości i /draft - np. dla trybu draft 9-igłówki.

PLIKI

       /usr/share/konwert/filters/*
       ~/.konwert/filters/*

ZOBACZ TEŻ

       trs(1), filterm(1)

BŁĘDY

       Znak  APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie są zachowywane przy konwersji
       nawet kiedy są dostępne.  Również  nie  przestrzegają  opcji  /1.  Powód:  nie  ma  ich  w
       Unikodzie.

COPYRIGHT

       Konwert jest pakietem służącym do konwersji między różnymi kodowaniami znaków.

       Copyright (c) 1998 Marcin 'Qrczak' Kowalczyk

       Niniejszy  program jest oprogramowaniem wolnodostępnym; możesz go rozprowadzać dalej i/lub
       modyfikować na warunkach Powszechnej  Licencji  Publicznej  GNU,  wydanej  przez  Fundację
       Wolnodostępnego  Oprogramowania  -  według  wersji  2-giej  tej  Licencji  lub  którejś  z
       późniejszych wersji.

       Niniejszy program rozpowszechniany jest z nadzieją, iż będzie on użyteczny  -  jednak  BEZ
       JAKIEJKOLWIEK   GWARANCJI,   nawet   domyślnej   gwarancji   PRZYDATNOŚCI  HANDLOWEJ  albo
       PRZYDATNOŚCI DO OKREŚLONYCH ZASTOSOWAŃ. W celu uzyskania bliższych informacji - Powszechna
       Licencja Publiczna GNU.

       Z  pewnością  wraz  z  niniejszym programem otrzymałeś też egzemplarz Powszechnej Licencji
       Publicznej GNU; jeśli nie - napisz do Free Software Foundation,  Inc.,  59  Temple  Place,
       Suite 330, Boston, MA  02111-1307  USA

AUTOR

        __("<   Marcin Kowalczyk * qrczak@knm.org.pl http://qrczak.home.ml.org/
        \__/       GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
         ^^                W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t
       QRCZAK                  5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-