Ubuntu Manpage: bzip2, bunzip2 - sortujący bloki kompresor/dekompresor plików, v1.0.6

NAZWA

       bzip2, bunzip2 - sortujący bloki kompresor/dekompresor plików, v1.0.6
       bzcat - dekompresuje pliki na standardowe wyjście
       bzip2recover - odzyskuje dane z uszkodzonych plików bzip2

SKŁADNIA

       bzip2 [-cdfkqstvzVL123456789] [nazwy_plików...]
       bzip2 [ -h|--help ]
       bunzip2 [ -fkvsVL ] [nazwy_plików...]
       bunzip2 [ -h|--help ]
       bzcat [ -s ] [nazwy_plików...]
       bzcat [ -h|--help ]
       bzip2recover nazwa_pliku

OPIS

bzip2 kompresuje pliki przy użyciu algorytmu sortowania bloków Burrowsa-Wheelera i kodu
Huffmana. Kompresja jest generalnie sporo lepsza od konwencjonalnych kompresorów opartych
o metodę LZ77/LZ78 i jest porównywalna z osiągnięciami statystycznych kompresorów z
rodziny PPM.

Opcje wiersza poleceń są w większości bardzo podobne do tych z GNU gzip, ale nie są
identyczne.

bzip2 oczekuje listy plików towarzyszących parametrom wiersza poleceń. Każdy plik jest
zastępowany przez swoją skompresowaną wersję, z nazwą "oryginalny_plik.bz2". Każdy
skompresowany plik ma ten sam czas modyfikacji, uprawnienia i, jeśli to możliwe,
właściciela, co oryginał, po to, aby te ustawienia mogły zostać odtworzone podczas
dekompresji. Utrzymywanie nazwy plików nie jest do końca dokładne w tym sensie, że nie ma
możliwości przetrzymywania daty, uprawnień, właściciela i nazw plików na systemach, na
których brakuje tych możliwości lub mają ograniczenia co do długości nazwy, takich jak np.
MS-DOS.

bzip2 i bunzip2 standardowo nie nadpisują istniejących już plików. Aby to robiły, trzeba
użyć parametru -f.

Jeśli nie podano żadnej nazwy pliku, bzip2 kompresuje ze standardowego wejścia na
standardowe wyjście. Odmawia wówczas wypisywania skompresowanego wyjścia na terminal, gdyż
byłoby to całkiem niezrozumiałe i przez to bez większego sensu.

bunzip2 (lub bzip2 -d) dekompresuje wszystkie podane pliki. Pliki, które nie były
utworzone przez bzip2, zostaną wykryte i zignorowane, a na ekranie pojawi się komunikat
ostrzegawczy. bzip2 próbuje zgadnąć nazwę dla dekompresowanego pliku w następujący
sposób:

nazwa_pliku.bz2 staje się nazwa_pliku
nazwa_pliku.bz staje się nazwa_pliku
nazwa_pliku.tbz2 staje się nazwa_pliku.tar
nazwa_pliku.tbz staje się nazwa_pliku.tar
inna_nazwa staje się inna_nazwa.out

Jeśli plik nie ma jednego z następujących rozpoznawalnych rozszerzeń: .bz2, .bz, .tbz2 lub
.tbz, to bzip2 napisze, że nie może zgadnąć nazwy pierwotnego pliku, i użyje oryginalnej
nazwy z dodanym rozszerzeniem .out.

Tak jak w przypadku kompresji, niepodanie żadnych nazw plików powoduje dekompresję ze
standardowego wejścia na standardowe wyjście.

bunzip2 poprawnie zdekompresuje plik, który jest połączeniem dwóch lub więcej
skompresowanych plików. Rezultatem jest połączenie odpowiednich nieskompresowanych plików.
Obsługiwane jest również sprawdzanie spójności (-t) połączonych skompresowanych plików.

Można również kompresować lub dekompresować pliki na standardowe wyjście używając
parametru -c. W ten właśnie sposób można przeprowadzać kompresję wielu plików
równocześnie. Powstałe wyniki są przesyłane sekwencyjnie na standardowe wyjście. W ten
sposób kompresja wielu plików generuje strumień zawierający reprezentacje kilku
skompresowanych plików. Taki strumień może być zdekompresowany poprawnie tylko przez bzip2
w wersji 0.9.0 lub późniejszej. Wcześniejsze wersje bzip2 zatrzymają się po
zdekompresowaniu pierwszego pliku w strumieniu.

bzcat (lub bzip2 -dc) dekompresuje wszystkie wybrane pliki na standardowe wyjście.

bzip2 czyta argumenty ze zmiennych środowiskowych BZIP2 i BZIP, w podanej kolejności, i
przetwarza je przed jakimikolwiek argumentami przeczytanymi z linii poleceń. To dobra
metoda na specyfikowanie standardowych ustawień.

Kompresja stosowana jest zawsze, nawet jeśli skompresowany plik jest nieco większy od
pliku oryginalnego. Pliki mniejsze niż około sto bajtów stają się większe, ponieważ
mechanizm kompresji ma stały nagłówek wynoszący mniej więcej 50 bajtów. Przypadkowe dane
(włączając wyjście większości kompresorów plików) są kodowane na mniej więcej 8,05 bitów
na bajt, zwiększając plik o około 0,5%.

Jako dodatkowe zabezpieczenie bzip2 używa 32-bitowych CRC, aby upewnić się, że
zdekompresowana wersja pliku jest identyczna z oryginalną. To strzeże przed stratami w
skompresowanych danych i przed niewykrytymi błędami w bzip2 (na szczęście bardzo
rzadkich). Możliwość niewykrycia utraty danych jest mikroskopijna, mniej więcej jedna
szansa na cztery miliardy dla każdego pliku. Trzeba jednak uważać, gdyż sprawdzenie jest
dokonywane przed dekompresją, więc program poinformuje tylko o tym, że coś jest nie w
porządku. Nie pomoże to odzyskać oryginalnych nieskompresowanych danych. Można użyć
bzip2recover, aby spróbować odzyskać dane z uszkodzonych plików.

Zwracane wartości: 0 dla normalnego wyjścia, 1 dla problemów technicznych (plik
nieznaleziony, niewłaściwy parametr, błąd wejścia/wyjścia itp.), 2 dla zasygnalizowania
błędu skompresowanego pliku, 3 dla wewnętrznego błędu (np. bug), który zmusił bzip2 do
przerwania.

OPCJE

-c --stdout
Kompresuje lub dekompresuje na standardowe wyjście.

-d --decompress
Wymusza dekompresję. bzip2, bunzip2 i bzcat są tak naprawdę tymi samymi programami
i decyzja o tym, jakie akcje będą wykonane, jest podejmowana na podstawie nazwy,
jaka została użyta. Ten parametr ma wyższy priorytet i wymusza na bzip2
dekompresję.

-z --compress
Podobne do -d: wymusza kompresję, bez względu na sposób wywołania.

-t --test
Sprawdza integralność wybranego pliku/plików, ale nie dekompresuje ich. Wymusza to
próbną dekompresję i mówi, jaki jest rezultat.

-f --force
Wymusza zastępowanie plików wyjściowych. Normalnie bzip2 nie zastępuje istniejących
plików wyjściowych. Flaga ta wymusza również na bzip2 łamanie dowiązań twardych,
czego normalnie nie robi.

bzip2 normalnie odmawia dekompresji plików, które nie mają poprawnych magicznych
bajtów nagłówka. Jeśli jednak nastąpi wymuszenie (opcja -f), przetworzy takie pliki
niezmodyfikowane. Jest to zachowanie typowe dla GNU gzip.

-k --keep
Zatrzymuje (nie kasuje) pliki wejściowe przy kompresji lub dekompresji.

-s --small
Redukuje użycie pamięci na kompresję, dekompresję i testowanie. Pliki są
dekompresowane i testowane przy użyciu zmodyfikowanego algorytmu, który potrzebuje
tylko 2,5 bajta na blok bajtów. Oznacza to, że każdy plik może być zdekompresowany
przy użyciu około 2300 k pamięci, jednak przy szybkości o około połowę mniejszej
niż normalnie.

Podczas kompresji -s wybiera bloki wielkości 200 k, których limity pamięci wynoszą
mniej więcej tyle samo, w zamian za jakość kompresji. W skrócie, jeśli komputer ma
mało pamięci (8 megabajtów lub mniej), należy używać opcji -s do wszystkiego.
Zobacz ZARZĄDZANIE PAMIĘCIĄ poniżej.

-q --quiet
Wyłącza wszystkie nieistotne komunikaty ostrzegawcze. Nie są eliminowane
komunikaty dotyczące błędów wejścia/wyjścia i innych zdarzeń krytycznych.

-v --verbose
Tryb szczegółowy -- pokazuje stopień kompresji dla każdego pliku. Następne -v
zwiększają stopień szczegółowości, powodując wyświetlanie dużej ilości informacji,
przydatnych głównie przy diagnostyce.

-h, --help
Wyświetla krótki komunikat pomocy.

-L --license -V --version
Wyświetla wersję programu i warunki licencji.

-1 (lub --fast) do -9 (lub --best)
Ustawia wielkość bloku podczas kompresji na 100 k, 200 k... 900 k. Nie ma żadnego
znaczenia przy dekompresji. Zobacz ZARZĄDZANIE PAMIĘCIĄ poniżej. Aliasy --fast i
--best zostały dodane głównie dla zgodności z GNU gzip. W szczególności --fast
niczego znacząco nie przyspiesza. Natomiast --best zaledwie powoduje wybór
zachowania domyślnego.

-- Traktuje wszystkie następujące po nim argumenty jako nazwy plików, nawet jeśli
zaczynają się one od łącznika. Możesz więc kompresować i dekompresować pliki,
których nazwa zaczyna się od łącznika, na przykład: bzip2 -- -mój_plik.

--repetitive-fast --repetitive-best
Te parametry nie mają znaczenia w wersjach 0.9.5 i wyższych. Umożliwiały one pewną
infantylną kontrolę nad zachowaniem algorytmu sortującego we wcześniejszych
wersjach, co było czasami użyteczne. Wersje 0.9.5 i wyższe mają usprawniony
algorytm, który powoduje bezużyteczność tej funkcji.

ZARZĄDZANIE PAMIĘCIĄ

bzip2 kompresuje duże pliki w blokach. Rozmiar bloku ma wpływ zarówno na stopień osiąganej
kompresji, jak i na ilość pamięci potrzebnej do kompresji i dekompresji. Parametry od -1
do -9 wybierają rozmiar bloku odpowiednio od 100.000 bajtów aż do 900.000 bajtów
(standardowo). W czasie dekompresji rozmiar bloku użytego do kompresji jest odczytywany z
nagłówka pliku skompresowanego, następnie bunzip2 sam zajmuje odpowiednią do dekompresji
ilość pamięci. Ponieważ rozmiar bloków jest przetrzymywany w pliku skompresowanym,
parametry od -1 do -9 nie mają przy dekompresji żadnego znaczenia.

Wymagania kompresji i dekompresji (w bajtach) można oszacować następująco:

Kompresja: 400 k + (8 * rozmiar bloku)

Dekompresja: 100 k + (4 * rozmiar bloku) lub
100 k + (2,5 * rozmiar bloku)

Większe bloki dają duże zmniejszenie zwrotów marginalnych. Większość kompresji pochodzi z
pierwszych stu lub dwustu kilobajtów rozmiaru bloku. Warto o tym pamiętać, używając bzip2
na wolnych komputerach. Warto również podkreślić, że rozmiar pamięci potrzebnej do
dekompresji jest wybierany poprzez ustawienie odpowiedniej wielkości bloku przy kompresji.

Dla plików skompresowanych standardowym blokiem wielkości 900 k bunzip2 będzie wymagał
około 3700 kilobajtów do dekompresji. Aby umożliwić dekompresję na komputerze wyposażonym
jedynie w 4 megabajty pamięci, bunzip2 ma opcję, która może zmniejszyć wymagania prawie do
połowy, tzn. około 2300 kilobajtów. Prędkość dekompresji jest również bardzo zmniejszona,
więc należy używać tej opcji tylko wtedy, kiedy jest to konieczne. Tym parametrem jest -s.

Generalnie należy próbować i używać największych rozmiarów bloków, jeśli ilość pamięci na
to pozwala. Prędkość kompresji i dekompresji w zasadzie nie zależy od wielkości użytego
bloku.

Inna ważna rzecz dotyczy plików, które mieszczą się w pojedynczym bloku - czyli większości
plików, na które się można natknąć, używając dużych bloków. Rozmiar realny zabieranej
pamięci jest proporcjonalny do wielkości pliku, ponieważ plik jest mniejszy niż blok. Na
przykład kompresja pliku o wielkości 20.000 bajtów z parametrem -9 wymusi na kompresorze
odnalezienie 7600 k pamięci, ale zajęcie tylko 400 k + 20000 * 8 = 560 kilobajtów z tego.
Podobnie, dekompresor odnajdzie 3700 k, ale zajmie tylko 100 k + 20000 * 4 = 180
kilobajtów.

Oto tabela, która podsumowuje maksymalne użycie pamięci dla różnych rozmiarów bloków.
Podano też całkowity rozmiar skompresowanych 14 plików tekstowych ("Calgary Text
Compression Corpus") zajmujących razem 3.141.622 bajtów. Ta kolumna daje pewne pojęcie o
tym, jaki wpływ na kompresję ma wielkość bloków. Wartości te zaniżają jednak korzyści
wynikające z użycia większych bloków dla większych plików, ponieważ "Corpus" jest
zdominowany przez mniejsze pliki.

Użycie Użycie Użycie Rozmiar
Parametr kompresji dekompresji dekompresji -s "Corpusu"

-1 1200k 500k 350k 914704
-2 2000k 900k 600k 877703
-3 2800k 1300k 850k 860338
-4 3600k 1700k 1100k 846899
-5 4400k 2100k 1350k 845160
-6 5200k 2500k 1600k 838626
-7 6100k 2900k 1850k 834096
-8 6800k 3300k 2100k 828642
-9 7600k 3700k 2350k 828642

ODZYSKIWANIE DANYCH ZE ZNISZCZONYCH PLIKÓW BZIP2

bzip2 kompresuje pliki w blokach, zazwyczaj 900-kilbajtowych. Każdy blok jest przetwarzany
niezależnie. Jeśli błędy transmisji lub nośnika uszkodzą wieloblokowy plik .bz2, możliwe
jest odtworzenie danych zawartych w niezniszczonych blokach pliku.

Skompresowana reprezentacja każdego bloku jest oznaczona przez 48-bitowy wzorzec, który
umożliwia znajdowanie granic bloków z rozsądną pewnością. Każdy blok ma również swój
32-bitowy CRC, więc bloki uszkodzone mogą być łatwo odróżnione od poprawnych.

bzip2recover jest oddzielnym programem, którego zadaniem jest poszukiwanie bloków w
plikach .bz2 i zapisywanie ich do własnego pliku .bz2. Można potem użyć bzip2 -t, aby
sprawdzić spójność wyjściowych plików i zdekompresować te, które nie są uszkodzone.

bzip2recover pobiera pojedynczy argument - nazwę uszkodzonego pliku, i tworzy pewną liczbę
plików "rec0001plik.bz2", "rec0002plik.bz2" itd., przetrzymujących odzyskane bloki.
Wyjściowe nazwy plików są tworzone tak, by łatwo było potem używać ich razem za pomocą
gwiazdek - na przykład "bzip2 -dc rec*plik.bz2 > odzyskany_plik" przetworzy pliki we
właściwej kolejności.

bzip2recover powinien być używany najczęściej z dużymi plikami .bz2, jako iż właśnie one
zawierają najczęściej dużo bloków. Jest czystym bezsensem używać go na uszkodzonym
jednoblokowym pliku, ponieważ uszkodzony blok nie może być odzyskany. W celu
zminimalizowania jakichkolwiek możliwych strat danych poprzez nośnik lub transmisję należy
zastanowić się nad użyciem mniejszych bloków.

UWAGI DOTYCZĄCE WYDAJNOŚCI

       Etap sortujący kompresji gromadzi podobne ciągi znaków w pliku. Przez to pliki zawierające
       bardzo długie ciągi powtarzających się symboli, jak "aabaabaabaab..." (powtórzone kilkaset
       razy), mogą być kompresowane wolniej niż normalnie. Wersje 0.9.5 i  wyższe  zachowują  się
       dużo  lepiej  w  tej  sytuacji  niż  wersje poprzednie. Różnica stopnia kompresji pomiędzy
       najgorszym a najlepszym przypadkiem kompresji wynosi około 10:1. Dla wcześniejszych wersji
       było  to  nawet  około  100:1.  Aby  monitorować  postępy  bardzo  szczegółowo, można użyć
       parametru -vvvv.

       Szybkość dekompresji nie jest zmieniana przez te zjawiska.

       bzip2 zazwyczaj rezerwuje kilka megabajtów pamięci do działania, a potem wykorzystuje ją w
       dość przypadkowy sposób. Oznacza to, że szybkość zarówno kompresji, jak i dekompresji jest
       w dużej części zależna od szybkości, z jaką komputer użytkownika może  obsłużyć  chybienia
       bufora  podręcznego.  Z  tego  powodu wprowadzone zostały małe zmiany kodu, aby zmniejszyć
       współczynnik  chybień,  które  dały  nieproporcjonalnie  duży  wzrost  osiągnięć.    bzip2
       prawdopodobnie   będzie   działał  najlepiej  na  komputerach  z  bardzo  dużymi  buforami
       podręcznymi.

ZASTRZEŻENIA

Wiadomości o błędach wejścia/wyjścia nie są aż tak pomocne, jak mogłyby być. bzip2 stara
się wykryć błąd wejścia/wyjścia i wyjść "czysto", ale szczegóły tego, jaki to problem,
mogą być czasami bardzo mylące.

Ta strona podręcznika odnosi się do wersji 1.0.6 programu bzip2. Skompresowane pliki
utworzone przez tę wersję są kompatybilne zarówno w przód, jak i wstecznie z poprzednimi
publicznymi wydaniami, wersjami 0.1pl2, 0.9.0, 0.9.5, 1.0.0, 1.0.1, 1.0.2 i wyższymi, ale
z jednym wyjątkiem: 0.9.0 i wyższe potrafią poprawnie dekompresować wiele skompresowanych
plików złączonych w jeden. 0.1pl2 nie potrafi tego; zatrzyma się już po dekompresji
pierwszego pliku w strumieniu.

bzip2recover w wersjach niższych od 1.0.2 używał 32-bitowych liczb do reprezentacji
pozycji bitu w skompresowanym pliku, więc nie mógł przetwarzać skompresowanych plików
dłuższych niż 512 megabajtów. Wersja 1.0.2 i wyższe używają 64-bitowych liczb na
niektórych obsługujących je platformach (zgodne z GNU oraz Windows). Aby sprawdzić, czy
bzip2recover został zbudowany z takim ograniczeniem, należy uruchomić go bez żadnych
argumentów. Zawsze istnieje możliwość zbudowania własnej wersji nieposiadającej tego
ograniczenia - należy w tym celu skompilować program ze zmienną MaybeUInt64 zdefiniowaną
jako 64-bitowa liczba całkowita.

AUTOR

       Julian Seward, jseward@acm.org.

       http://www.bzip.org

       Idee zawarte w bzip2 są zasługą (przynajmniej) następujących osób: Michael Burrows i David
       Wheeler  (transformacja  sortująca  bloki),  David  Wheeler  (znów, koder Huffmana), Peter
       Fenwick (struktura kodowania modelu w oryginalnym bzip2 i wiele udoskonaleń) oraz Alistair
       Moffar,  Radford  Neal  i  Ian  Witten (arytmetyczny koder w oryginalnym bzip2). Jestem im
       bardzo wdzięczny za ich pomoc, wsparcie i porady. Na  stronie  podręcznika  w  dystrybucji
       źródłowej  znajdują  się  odsyłacze  do źródeł dokumentacji. Christian von Roques zachęcił
       mnie do wymyślenia szybszego algorytmu sortującego po to, by przyspieszyć kompresję.  Bela
       Lubkin  zachęciła  mnie  do polepszenia wyników kompresji w najgorszych przypadkach. Donna
       Robinson przekonwertowała dokumentację do formatu XML. Skrypty bz* są oparte o  skrypty  z
       GNU  gzip.  Wiele osób przysłało łatki, pomogło w różnych problemach, pożyczyło komputery,
       udzieliło porad i było ogólnie pomocnych.

TŁUMACZENIE

       Autorami polskiego tłumaczenia niniejszej strony podręcznika man są: Maciej  Wojciechowski
       (PTM) <wojciech@staszic.waw.pl> i Michał Górny <zrchos+manpagespl@gmail.com>.

       Polskie  tłumaczenie jest częścią projektu manpages-pl; uwagi, pomoc, zgłaszanie błędów na
       stronie  http://sourceforge.net/projects/manpages-pl/.  Jest  zgodne   z   wersją    1.0.6
       oryginału.

                                                                                         bzip2(1)