#gzip #bzip2
#gzip #bzip2
Вопрос:
Я заметил, что многие файлы, созданные в моей команде, имеют расширения .gz.bz2. Это чисто текстовые файлы. Цель — сэкономить место на диске. Я попробовал эксперимент, в котором я использовал gzip и gzip bzip2 для одного и того же набора файлов:
$ du -h pat0/*
1.6M pat0/p0_c1.diag.csv.gz
1.5M pat0/p0_c2.diag.csv.gz
2.3M pat0/p0_c3.diag.csv.gz
1.8M pat0/p0_c4.diag.csv.gz
3.0M pat0/p0_c5.diag.csv.gz
3.2M pat0/p0_c6.diag.csv.gz
3.0M pat0/p0_c7.diag.csv.gz
3.0M pat0/p0_c8.diag.csv.gz
$ du -h pat0.bak/*
1.6M pat0.bak/p0_c1.diag.csv.gz.bz2
1.5M pat0.bak/p0_c2.diag.csv.gz.bz2
2.3M pat0.bak/p0_c3.diag.csv.gz.bz2
1.8M pat0.bak/p0_c4.diag.csv.gz.bz2
3.0M pat0.bak/p0_c5.diag.csv.gz.bz2
3.2M pat0.bak/p0_c6.diag.csv.gz.bz2
3.0M pat0.bak/p0_c7.diag.csv.gz.bz2
2.9M pat0.bak/p0_c8.diag.csv.gz.bz2
Я не вижу значительного улучшения. Если ничего существенного не ожидается, то в чем преимущество выполнения .gz.bz2? Почему бы не использовать только одно или другое?
Ответ №1:
Вы уже провели эксперимент, и ваши результаты типичны. Сжатие уже сжатого файла обеспечит значительный выигрыш, только если исходные данные были настолько избыточными, что была исчерпана максимальная способность первого компрессора к сжатию.
Если вы собираетесь потратить время на bzip2 для этих файлов, вы получите гораздо лучшие результаты, сначала разархивировав их, а затем применив bzip2. Применение xz было бы еще лучше.