Проглатывание дельты в druid из s3

#amazon-s3 #druid #superset

#amazon-s3 #druid

Вопрос:

Я делаю POC над druid. Я проглатываю данные из s3, для получения 289 МБ данных с конфигурациями по умолчанию требуется ~ 7 минут. Теперь я установил «maxNumConcurrentSubTasks»: 2 и «appendToExisting»: true. При попытке проглотить те же данные в druid из s3 это занимает почти столько же времени, сколько указано выше. Я ожидал гораздо меньшего времени, поскольку я не обновлял никаких данных и пытаюсь добавить вместо перезаписи полные.

Я неправильно понимаю концепцию добавления в druid, а также есть ли какой-либо оптимальный способ сделать проглатывание дельты из s3? Будем признательны за любые зацепки.

Ответ №1:

В консоли проверьте, выполняются ли подзадачи одновременно. Возможно, вам потребуется внести изменения в свой druid.worker.capacity , чтобы сообщить Druid, что для проглатывания доступно больше ядер.

Смотрите https://druid.apache.org/docs/latest/configuration/index.html#middlemanager-configuration.

Стоит проверить этот документ об обновлениях и о том, как он работает. https://druid.apache.org/docs/latest/ingestion/data-management.html#updating-existing-data

Существует также этот полезный учебник: https://druid.apache.org/docs/latest/tutorials/tutorial-update-data.html

Удивительный Itai написал сообщение в блоге о сохранении (что в любом случае полезно для чтения), но там есть немного о проглатывании дельты… Я никогда не пробовал его трюк, но вы могли бы провести несколько экспериментов и сообщить нам всем, что вы нашли: D 😀

https://medium.com/nmc-techblog/data-retention-and-deletion-in-apache-druid-74ffd12398a8