Ubuntu Manpage: bzip2, bunzip2 - komprimuje a dekomprimuje soubory, používá metodu blokového třídění,

JMÉNO

       bzip2,  bunzip2  -  komprimuje  a  dekomprimuje soubory, používá metodu blokového třídění,
       v1.0.8
       bzcat - dekomprimuje soubory do standardního výstupu (stdout)
       bzip2recover - získává data z poškozených bzip2 souborů

POUŽITÍ

       bzip2 [ -cdfkqstvzVL123456789 ] [ soubory ... ]
       bzip2 [ -h|--help ]
       bunzip2 [ -fkvsVL ] [ soubory ... ]
       bunzip2 [ -h|--help ]
       bzcat [ -s ] [ soubory ... ]
       bzcat [ -h|--help ]
       bzip2recover soubor

POPIS

bzip2 komprimuje /zhustí či zmenší/ soubory užitím Burrow-Wheelerova blokového třídícího
textového komprimačního algoritmu a Huffmanova kódování. Komprese je všeobecně mnohem
lepší než dosahují obvyklé komprimační nástroje založené na LZ77/LZ78 algoritmech (např.
gzip) a blíží se výkonu PPM rodiny statistických kompresorů.

Volby příkazového řádku jsou záměrně velmi podobné volbám nástroje GNU gzip, ale nejsou
zcela totožné.

bzip2 očekává příkaz doprovázený seznamem jmen souborů na příkazovém řádku. Každý soubor
je nahrazen komprimovanou verzí sebe sama se jménem "původní_jméno.bz2". Každý
komprimovaný soubor má stejné datum změny, přístupová práva a je-li to možné, také stejné
vlastníky odpovídající původnímu souboru, takže tyto vlastnosti mohou být správně obnoveny
při dekomprimaci. Zacházení se jménem souboru je možno považovat za hloupé na souborových
systémech, kterým chybí mechanismus zabezpečení původního jména souboru, přístupových
práv, vlastnictví nebo datumů či mají závažné omezení délky souborového jména (např.
MS-DOS).

bzip2 a bunzip2 standardně nepřepisují již existující soubory. Jestliže toto žádáte,
užijte volbu -f.

Pokud není určeno žádné jméno, bzip2 komprimuje standardní vstup do standardního výstupu.
V tom případě bzip2 odmítne zapsat komprimovaný výstup na terminál, protože by to bylo
zcela nesrozumitelné a tudíž zbytečné. (pozn. překl: bzip2 | cat již ano, ale psssst)

bunzip2 (nebo bzip2 -d) dekomprimuje všechny označené soubory. Soubory, které nebyly
vytvořeny bzip2 budou rozeznány, vyřazeny a jejich jména obsažena ve varovném hlášení.
bzip2 se pokouší vyvodit jméno dekomprimovaného souboru z komprimovaného, jak je uvedeno v
následujících příkladech.

soubor.bz2 přejde na soubor
soubor.bz přejde na soubor
soubor.tbz2 přejde na soubor.tar
soubor.tbz přejde na soubor.tar
libéVámjméno přejde na libéVámjméno.out

Jestliže souborové jméno nekončí jednou z následujících možností .bz2, .bz, .tbz2 nebo
.tbz, bzip2 si postěžuje, že nemůže vyluštit jméno původního souboru a použije původní
jméno se zakončením .out.

Stejně jako při kompresi, chybějící jméno způsobí dekompresi ze standardního vstupu do
standardního výstupu. S tím rozdílem, že nyní není důvod odmítnout výstup na terminál.

bunzip2 správně dekomprimuje soubor který je zřetězením dvou či více komprimovaných
souborů. Výsledkem je zřetězení odpovídajících nekomprimovaných souborů. Testovaní
celistvosti (-t) zřetězených komprimovaných souborů je také podporováno.

Můžete také komprimovat a dekomprimovat soubory do standardního výstupu volbou -c.
Hromadné soubory mohou být komprimovány a dekomprimovány také tak. Výsledné výstupy jsou
postupně naskládány do standardního výstupu (stdout). Komprese hromadných souborů tímto
způsobem vytváří proud obsahující hromadné komprimované soubory. Takový proud může být
správně dekomprimován pouze bzip2 version 0.9.0 nebo vyšší. Nižší verze bzip2 se zastaví
po dekomprimování prvního souboru v proudu.

bzcat (or bzip2 -dc) dekomprimuje všechny uvedené soubory do standardního výstupu.

bzip2 přečte argumenty z proměnných prostředí BZIP2 a BZIP, v tomto pořadí, a zpracuje je
ještě před načtením argumentů z příkazové řádky. Tímto způsobem mohou být nastaveny
obecné(defaultní) argumenty.

Komprese je vždy provedena, dokonce i tehdy, je-li získaný komprimovaný soubor nepatrně
větší než původní. U souborů menších než zhruba sto bajtů je sklon ke zvětšení, neboť
komprimační mechanismus má stálou režii kolem 50 bajtů. Náhodná data (uvažován výstup
většiny souborových kompresorů) jsou kódována v 8.05 bitech na bajt při rozpětí kolem
0.5%.

Jako sebekontrolní mechanismus bzip2 užívá 32-bit CRC k ověření identity dekomprimované
verze s originálem. To chrání proti deformaci komprimovaných dat a proti nerozeznaných
chybám v bzip2 (doufejme, že velmi nepravděpodobných). Možnost nerozpoznaného poškození
dat je nepatrná, v poměru 1 ku čtyřem biliónům na každý zpracovaný soubor. Uvědomme si
však, že kontrola při dekompresi může pouze oznámit, že je něco špatně. Nemůže pomoci
získat původní nekomprimovaná data. Pokud se chcete pokusit získat z poškozených souborů
data, použijte program bzip2recover.

Návratové hodnoty: 0 správný konec, 1 problémy prostředí (soubor nebyl nalezen, špatné
volby, I/O (vstupně/výstupní) chyby), 2 označuje porušení komprimovaného souboru, 3
vnitřní logickou chybu (tj. bug), jenž způsobila pád bzip2.

VOLBY

-c --stdout
Komprimuje nebo dekomprimuje do standardního výstupu

-d --decompress
Vyvolá dekompresi. bzip2, bunzip2 and bzcat jsou ve skutečnosti stejné programy a
rozhodnutí jaké činnosti budou provedeny závisí na užitém jménu. Avšak volba
parametrem převyšuje nad tímto mechanismem a vyvolá bzip2 pro dekompresi.

-z --compress
Protiklad k -d. Způsobí kompresi bez ohledu na volané jméno.

-t --test
Kontroluje celistvost uvedeného souboru, ale nedekomprimuje jej. Ve skutečnosti
provádí zkušební dekompresi a zahodí výsledek.

-f --force
Přepíše výstupní soubory. Normálně bzip2 nepřepisuje existující výstupní soubory.
Také bzip2 přeruší pevné odkazy k souborům, což by jinak neprovedl.

bzip2 normálně odmítne dekomprimovat soubory, jimž nesedí "magická hlavička". Při
volbě -f (--force) bzip2 dekomprimuje i tyto soubory, čímž napodobuje chování GNU
gzip.

-k --keep
Zachová (nemaže) vstupní soubory během komprese nebo dekomprese.

-s --small
Omezí velikost použité paměti pro kompresi, dekompresi i testování. Při dekompresi
a testování je užíván upravený algoritmus, jenž vyžaduje pouze 2.5 bajtů pro blok.
To znamená, že jakýkoliv soubor může být dekomprimován pouze s 2300 kB dostupné
paměti, avšak poloviční rychlostí.

Během komprese, znak -s vybere velikost bloku 200 kB, čímž příslušně omezí velikost
užité paměti za cenu nižšího kompresního poměru. Tedy, má-li váš počítač 8MB či
méně operační paměti užijte volbu -s. Čtete ŘÍZENÍ PAMĚTI dále.

-q --quiet
Potlačí nepodstatná varování. Zprávy týkající se I/O chyb a jiných kritických
událostí nebudou potlačeny.

-v --verbose
Upovídaná volba -- ukazuje pro každý zpracovaný soubor kompresní poměr. Dále volba
-v zvyšuje výmluvnost, chrlí množství informací, které jsou zajímavé zejména pro
diagnostické účely.

-h --help
Print a help message and exit.

-L --license -V --version
Zobrazí verzi, licenční podmínky.

-1 (či --fast) až -9 (či --best)
Nastaví velikost bloku na 100kB, 200kB ... 900kB pro komprimaci. Nemá žádný vliv na
dekomprimaci. Čti ŘÍZENÍ PAMĚTI dále. Volby --fast a --best jsou podporovány z
důvodu kompatability s GNU gzip. Popravdě, --fast toho moc neurychlí. A --best
pouze zvolí defaultní chování.

-- Považuje všechny následující argumenty za souborová jména, i pokud začínají
pomlčkou. Takže můžete zacházet také se soubory s pomlčkou například bzip2 --
-méskvělévyspekulovanéjménosouboru.

--repetitive-fast --repetitive-best
Tato volba je zbytečná ve verzi 0.9.5 a vyšších. Poskytovala určité surové ovládání
chování třídícího algoritmu v předchozích verzích a byla v lecčem užitečná. Verze
0.9.5 a vyšší mají zdokonalený algoritmus, který činí tuto volbu bezvýznamnou.

ŘÍZENÍ PAMĚTI

bzip2 komprimuje velké soubory v blocích. Velikost bloku má vliv jednak na dosažený
kompresní poměr a také na množství potřebné paměti pro kompresi a dekompresi. Volby -1 až
-9 určují velikost bloku od 100kB do 900KB (standard). Při dekompresi je velikost bloku,
užitá pro kompresi, načtena z hlavičky zkomprimovaného souboru a bunzip2 již sám vyhradí
dostatek paměti pro dekompresi. Protože velikost bloku je uložena ve zkomprimovaném
souboru, volby -1 až -9 jsou zbytečné a proto při dekompresi zůstanou nepovšimnuty.

Kompresní a dekompresní paměťové požadavky v bajtech mohou být odhadnuty takto:

Komprese: 400 k + (8 x velikost bloku)

Dekomprese: 100 k + (4 x velikost bloku) nebo
100 k + (2.5 x velikost bloku)

Větší bloky nepřinášejí přiměřený nárůst komprese, neboť většina komprese je vytvořena v
prvních dvou či třech stech tisících bajtů bloku (což těší mysl uživatele malých strojů).
Je také důležité si uvědomit, že dekompresní paměťové požadavky jsou nastaveny v době
komprese výběrem velikosti bloku.

Pro soubor komprimovaný s přednastavenou velikostí bloku 900 kB bunzip2 vyžaduje při
dekompresi 3700kB paměti. Pro umožnění dekomprimování libovolného souboru na počítači s
pouze 4MB operační paměti má bunzip2 volbu pro dekompresi užívající přibližně poloviční
množství paměti, kolem 2300kB. Rychlost je také snížena na polovinu, proto byste tuto
možnost měli užít pouze, je-li to opravdu nutné. Odpovídající volba je -s.

Obecně řečeno, zkuste a užijte největší možnou velikost bloku v zájmu dosažení maximální
komprese. Rychlost komprese a dekomprese prakticky není velikostí bloku ovlivněna.

Dále se podíváme na uplatnění bzip2 na soubory, které se vejdou do jednoho bloku. To je
většina souborů, se kterými se setkáte, pokud použijete velkou blokovou velikost. Množství
skutečně užité paměti je přiměřená velikosti takového souboru, protože soubor je menší než
blok. Například příkaz komprimace souboru velkého 20kB s volbou -9 způsobí, že kompresor
přidělí asi 7600 kB paměti, ale použije pouze 400 k + (20000 * 8) = 560kB. Podobně
dekompresor přidělí 3700 kB ale použije pouze 100 kB + (2000 * 4) = 180KB.

Následuje tabulka sestávající z hodnot maximálního užití paměti pro různé velikosti bloku.
Obsahuje také výslednou komprimovanou velikost balíku 14 souborů Calgary Text Compression
Corpus mající původní celkovou velikost 3,141,622 bajtů. Tento údaj dovolí nahlédnout
vlivu velikosti bloku na kompresi. Tabulka směřuje k výkladu výhod užití větších bloků pro
větší soubory.

Komprese Dekomprese Dekomprese Velikost
volba paměť paměť -s paměť korpusu

-1 1200k 500k 350k 914704
-2 2000k 900k 600k 877703
-3 2800k 1300k 850k 860338
-4 3600k 1700k 1100k 846899
-5 4400k 2100k 1350k 845160
-6 5200k 2500k 1600k 838626
-7 6100k 2900k 1850k 834096
-8 6800k 3300k 2100k 828642
-9 7600k 3700k 2350k 828642

ZÍSKÁNÍ DAT Z POŠKOZENÝCH SOUBORŮ

bzip2 komprimuje soubory v blocích, obyčejně 900 kB velkých. S každých blokem je nakládáno
nezávisle. Jestliže chyba záznamu či přenosu se projeví v některém z bloků, .bz2 soubor je
poškozen, ale přesto je možné získat data z nepoškozených bloků data.

Komprimované prohlášení každého bloku je vymezeno 48-bit předlohou, která umožňuje
nalezení hranic bloku s přijatelnou přesností. Každý blok také uchovává vlastní 32-bit CRC
a tak poškozené bloky mohou být rozlišeny od nepoškozených.

bzip2recover je jednoduchý program, jehož úlohou je hledat bloky v .bz2 souborech a
zapisovat každý blok do vlastního souboru .bz2 Můžete užít bzip2 -t , jenž ověřuje
spojitost výsledných souborů a dekomprimuje nepoškozené bez zápisu výstupu.

bzip2recover vyžaduje jednoduše jméno poškozeného souboru a vytváří číslované soubory
"rec0001soubor.bz2", "rec002soubor.bz2" atd., obsahující rozbalené bloky. Pojmenování
výstupních souborů je navrženo tak, aby použití žolíkových znaků způsobilo správnou
sestavu souborů. Např. "bzip2 -dc rec*file.bz2 > získaná_data".

Použití bzip2recover je spojeno s velkými .bz2 soubory, právě takové obsahují mnoho bloků.
Je zřejmě marné pokoušet se zachránit jednoblokový poškozený soubor, neboť samotný
poškozený blok nemůže být obnoven. Jestliže usilujete o zmenšení rizika ztráty dat
zapříčiněnou chybou média či přenosu, uvažujte o kompresi s malou velikostí bloku.

POZNÁMKA K VÝKONU

       Třídící část komprese shromažďuje podobné řetězce v souboru. Z toho důvodu může být mnohem
       pomalejší  komprimace souboru, obsahujícího velmi dlouhé nudle opakujících se znaků, např.
       "aabaabaabaab ...", než je obvyklé. Verze 0.9.5 a  vyšší  toto  mnohem  lépe  tráví  nežli
       předchozí verze. Poměr mezi nejhorším a průměrných časem komprese je kolem 10:1. Předchozí
       verze statečně dosahovaly poměru 100:1. Pokud zadáte volbu -vvvv, můžete sledovat průběh v
       detailu.

       Dekompresní rychlost tím není ovlivněna.

       bzip2 obvykle obsadí několik megabajtů paměti a pak je vyplňuje doslova náhodně rozmařilým
       způsobem. To znamená, že výkon komprese i dekomprese je silně ovlivněn  rychlostí  obsluhy
       cache.  Proto  malé  změny v kódu přístupu cache by měly způsobit nepoměrně velké zlepšení
       výkonu. Výkon bzip2 bude pravděpodobně nejlepší na strojích s velmi velkými cache.

NÁSTRAHY

       I/O chybové zprávy nejsou tak užitečné, jak by mohly být. bzip2 se pilně pokouší  rozeznat
       I/O  chyby  a  slušně  ukončit  činnost, ale detailní zprávy o problému jsou občas poněkud
       matoucí.

       This manual page pertains to version 1.0.8 of  bzip2.  Compressed  data  created  by  this
       version  is  entirely forwards and backwards compatible with the previous public releases,
       versions 0.1pl2, 0.9.0, 0.9.5, 1.0.0, 1.0.1, 1.0.2  and  above,  but  with  the  following
       exception:  0.9.0  and  above  can  correctly  decompress multiple concatenated compressed
       files. 0.1pl2 cannot do this; it will stop after decompressing just the first file in  the
       stream.

       bzip2recover   verze   starší   než  1.0.2  používaly  32-bitovou  reprezentaci  pozice  v
       komprimovaném souboru, a proto se nevypořádaly se soubory většími než 512 MB. Verze  1.0.2
       a  novější  používají  64-bitovou  reprezentaci pozice na systémech, kde je to podporováno
       (GNU systémy a Windows). Pro zjitění, zda byl bzip2recover skompilován s  tímto  omezením,
       spusťte  ho  bez parametrů. Kdekoliv si můžete skompilovat verzi bez tohoto omezení, pokud
       nastavíte MaybeUInt64 na nějaký typ odpovídající unsigned 64-bit integer.

AUTOR

       Julian Seward, jseward@acm.org.

       https://sourceware.org/bzip2/

       Myšlenky vložené do bzip2 pocházejí od následujících lidí: Michael Burrows a David Wheeler
       (bloky   řadící  přeměna),  David  Wheeler  (opět,  Huffmanovo  kodóvání),  Peter  Fenwick
       (strukturovaný model kódování v původním  bzip,  a  řada  zdokonalení),  Alistair  Moffat,
       Radford  Neal  a  Ian  Witten  (aritmetické kódovaní v původním bzip). Mnoho jim vděčím za
       jejich pomoc, podporu a rady. Pro odkazy na zdrojovou dokumentaci se podívejte do příručky
       v balíčku zdrojového kódu. Christian von Roques mě přivedl k hledání rychlejšího třídícího
       algoritmu, to pro zvýšení rychlosti komprese. Bela Lubkin mě podpořil při zdokonalení toho
       nejhoršího  případu  kompresního výkonu. Skripty bz* jsou odvozeny od GNU gzip. Mnoho lidí
       poslalo záplaty, pomohlo s problémy v přenositelnosti, půjčilo stroje, dalo  rady  a  byli
       obecně nápomocni.

PŘEKLAD

       Překlad  této  příručky  do  češtiny vytvořili Karel Dušek <kargee.dusek@seznam.cz> a Petr
       Sykora <petrsykora@jabber.tecka.cz>

       Tento překlad je bezplatná dokumentace; Přečtěte si GNU General Public License  Version  3
       ⟨https://www.gnu.org/licenses/gpl-3.0.html⟩ nebo novější ohledně podmínek autorských práv.
       Neexistuje ŽÁDNÁ ODPOVĚDNOST.

       Pokud narazíte na nějaké  chyby  v  překladu  této  příručky,  pošlete  e-mail  na  adresu
       ⟨translation-team-cs@lists.sourceforge.net⟩.

                                                                                         bzip2(1)