Есть ли какое-либо преимущество в выполнении .gz.bz2?

#gzip #bzip2

#gzip #bzip2

Вопрос:

Я заметил, что многие файлы, созданные в моей команде, имеют расширения .gz.bz2. Это чисто текстовые файлы. Цель — сэкономить место на диске. Я попробовал эксперимент, в котором я использовал gzip и gzip bzip2 для одного и того же набора файлов:

 $ du -h pat0/*
1.6M    pat0/p0_c1.diag.csv.gz
1.5M    pat0/p0_c2.diag.csv.gz
2.3M    pat0/p0_c3.diag.csv.gz
1.8M    pat0/p0_c4.diag.csv.gz
3.0M    pat0/p0_c5.diag.csv.gz
3.2M    pat0/p0_c6.diag.csv.gz
3.0M    pat0/p0_c7.diag.csv.gz
3.0M    pat0/p0_c8.diag.csv.gz

$ du -h pat0.bak/*
1.6M    pat0.bak/p0_c1.diag.csv.gz.bz2
1.5M    pat0.bak/p0_c2.diag.csv.gz.bz2
2.3M    pat0.bak/p0_c3.diag.csv.gz.bz2
1.8M    pat0.bak/p0_c4.diag.csv.gz.bz2
3.0M    pat0.bak/p0_c5.diag.csv.gz.bz2
3.2M    pat0.bak/p0_c6.diag.csv.gz.bz2
3.0M    pat0.bak/p0_c7.diag.csv.gz.bz2
2.9M    pat0.bak/p0_c8.diag.csv.gz.bz2
  

Я не вижу значительного улучшения. Если ничего существенного не ожидается, то в чем преимущество выполнения .gz.bz2? Почему бы не использовать только одно или другое?

Ответ №1:

Вы уже провели эксперимент, и ваши результаты типичны. Сжатие уже сжатого файла обеспечит значительный выигрыш, только если исходные данные были настолько избыточными, что была исчерпана максимальная способность первого компрессора к сжатию.

Если вы собираетесь потратить время на bzip2 для этих файлов, вы получите гораздо лучшие результаты, сначала разархивировав их, а затем применив bzip2. Применение xz было бы еще лучше.