#delta-lake
Вопрос:
Не удается управлять потоковыми событиями со следующими настройками параметров. Пробовал также использовать maxFilesPerTrigger. Мы передаем данные из Дельта-таблицы, и с каждой фиксацией огромное количество данных будет собираться в один файл, который передается в наш процесс дельта-потоковой передачи. Мы хотели контролировать количество событий на триггер, поскольку наши объединения могли поддерживать только ограниченные входные данные в нашем кластере.
inputStreamDtaframe.writeStream
.format("delta")
.outputMode("append")
.foreachBatch {(batchDF: DataFrame, batchId: Long) =>
writeTransformations(batchDF,batchId)
}.outputMode("update")
.option("checkpointLocation", "/mnt/delta/events/_checkpoints/abc1234")
.option("mergeSchema", "true")
.option("maxBytesPerTrigger",1000)
.start()