Как заставить Hive работать с bz2?

#compression #hadoop #hive

#сжатие #hadoop #улей

Вопрос:

Поскольку bz2 разделяется и экономит место, я планирую хранить данные таблицы в формате bzip2. Однако, похоже, он не распознает сжатый формат. С форматом gzip все было в порядке. Код, который я использовал, выглядит следующим образом:

 CREATE TABLE IF NOT EXISTS image_bzip (
    image_id STRING,
    image_feature STRING, 
    other_stuff STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION '/hivestore/bzip';

LOAD DATA LOCAL INPATH '/nfs/directory/*.bz2' OVERWRITE INTO TABLE image_bzip;
 

Может кто-нибудь указать мне, чего мне не хватает?

Спасибо.

Ответ №1:

если мы правильно настроили кодек сжатия, он работает естественным образом.

Ответ №2:

почему бы вам не попробовать создать внешнюю таблицу со сжатыми файлами bz2 в HDFS?