#amazon-web-services #amazon-s3 #apache-kafka #confluent-platform
Вопрос:
Я использую разъем приемника s3 для приема данных в s3 с нижеприведенными настройками. «rotate.interval.ms»: «3600000» «размер притока»: «2147483647»
Это прекрасно работает, когда нет отставания от опубликованных msgs кафки. однако, если есть задержка, он начинает создавать очень маленькие и слишком много файлов. у некоторых из них может быть только 2 записи.
Мне нужна настройка, при которой он запускается через 1 час, и я пытаюсь получить данные, присутствующие только в этот час, и максимум с 2 файлами.
Есть какие-нибудь предложения на этот счет? Заранее спасибо!
Комментарии:
1. Если вы хотите, чтобы данные записывались каждый час, используйте настройки «запланированной» ротации
2. Я читал, что это не дает гарантии одноразовой доставки. так что в этом случае он будет получать дубликаты записей. что делать, если я использую только flush.size = 25 МБ, тогда он загрузит только это количество записей ?
3. Настройка размера флеша основана на записях, а не на размере файла