Как выполнить ТАБЛИЦУ ВОССТАНОВЛЕНИЯ MSCK для загрузки только определенных разделов

#apache-spark #hive

#apache-spark #улей

Вопрос:

У меня есть данные в AWS S3 более 2 месяцев, которые разделены и хранятся day . Я хочу начать использовать данные, используя внешнюю таблицу, которую я создал.

В настоящее время я вижу только пару разделов, и я хочу убедиться, что мои метаданные отображают все разделы. Я попытался использовать msck repair table tablename using hive после входа в систему на главном узле кластера EMR. Однако, возможно, из-за объема данных, выполнение этой команды занимает много времени.

Могу ли я выполнить таблицу восстановления msck, чтобы я мог загружать только определенный день? msck позволяет ли загружать определенные разделы?

Ответ №1:

Вы можете использовать

 ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];

…как описано в документе Hive DDL.

Вопрос:

Ответ №1:

Вам также может понравиться

Как удерживать экземпляр сокета при обновлении страницы?

Vi/Vim ведет себя совершенно иначе на удаленном сервере по сравнению с моим локальным ПК (ubuntu)

Конвейеры Bitbucket выходят из строя при недостаточной памяти во время тестирования с помощью cassandra в docker (Scala)