Как выполнить ТАБЛИЦУ ВОССТАНОВЛЕНИЯ MSCK для загрузки только определенных разделов

#apache-spark #hive

#apache-spark #улей

Вопрос:

У меня есть данные в AWS S3 более 2 месяцев, которые разделены и хранятся day . Я хочу начать использовать данные, используя внешнюю таблицу, которую я создал.

В настоящее время я вижу только пару разделов, и я хочу убедиться, что мои метаданные отображают все разделы. Я попытался использовать msck repair table tablename using hive после входа в систему на главном узле кластера EMR. Однако, возможно, из-за объема данных, выполнение этой команды занимает много времени.

Могу ли я выполнить таблицу восстановления msck, чтобы я мог загружать только определенный день? msck позволяет ли загружать определенные разделы?

Ответ №1:

Вы можете использовать

 ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];
  

…как описано в документе Hive DDL.