AWS Athena — Что происходит при добавлении новых файлов в папку S3

#amazon-web-services #amazon-athena

#amazon-веб-сервисы #amazon-athena

Вопрос:

У меня есть пример работы, в котором я помещаю файл в S3. Что меня смущает, так это то, что происходит, когда я добавляю новые файлы CSV (с тем же форматом) в эту папку.

Доступны ли они мгновенно в запросах? Или вам нужно запустить Glue или что-то еще для их обработки? Так, например, что, если настроить функцию Lambda для извлечения нового CSV-файла каждый час или даже каждые 5 минут в тот же каталог S3.

Действительно ли Athena загружает данные в какую-то базу данных, чтобы выполнять быстрые запросы?

Ответ №1:

Если ваша таблица не разделена на разделы или вы добавляете файл в существующий раздел, данные будут доступны сразу.

Однако, если вы постоянно добавляете файлы, вам может потребоваться разбить таблицу на разделы для оптимизации производительности запросов, см.:

У самой Athena нет кэширования, любой запрос попадет в расположение таблицы S3.

Комментарии:

1. Спасибо, я сделал раздел по дате