Соединитель приемника S3 создает слишком много небольших файлов при задержке

#amazon-web-services #amazon-s3 #apache-kafka #confluent-platform

Вопрос:

Я использую разъем приемника s3 для приема данных в s3 с нижеприведенными настройками. «rotate.interval.ms»: «3600000» «размер притока»: «2147483647»

Это прекрасно работает, когда нет отставания от опубликованных msgs кафки. однако, если есть задержка, он начинает создавать очень маленькие и слишком много файлов. у некоторых из них может быть только 2 записи.

Мне нужна настройка, при которой он запускается через 1 час, и я пытаюсь получить данные, присутствующие только в этот час, и максимум с 2 файлами.

Есть какие-нибудь предложения на этот счет? Заранее спасибо!

1. Если вы хотите, чтобы данные записывались каждый час, используйте настройки «запланированной» ротации

2. Я читал, что это не дает гарантии одноразовой доставки. так что в этом случае он будет получать дубликаты записей. что делать, если я использую только flush.size = 25 МБ, тогда он загрузит только это количество записей ?

3. Настройка размера флеша основана на записях, а не на размере файла

Вопрос:

Комментарии:

Вам также может понравиться

Выполнить функцию в зависимости от того, какой асинхронный вызов возвращается первым

многократное использование : более эффективно, если я принудительно выполняю оценку справа налево?

Как автоматизировать удаление переменного количества лишних строк в файлах данных?