#apache-spark #hive
#apache-spark #улей
Вопрос:
У меня есть данные в AWS S3 более 2 месяцев, которые разделены и хранятся day
. Я хочу начать использовать данные, используя внешнюю таблицу, которую я создал.
В настоящее время я вижу только пару разделов, и я хочу убедиться, что мои метаданные отображают все разделы. Я попытался использовать msck repair table tablename
using hive
после входа в систему на главном узле кластера EMR. Однако, возможно, из-за объема данных, выполнение этой команды занимает много времени.
Могу ли я выполнить таблицу восстановления msck, чтобы я мог загружать только определенный день? msck
позволяет ли загружать определенные разделы?
Ответ №1:
Вы можете использовать
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location'][, PARTITION partition_spec [LOCATION 'location'], ...];
…как описано в документе Hive DDL.