Структурированная потоковая передача Spark: Начните с самой последней версии/моментального снимка из дельта-таблицы

#apache-spark #pyspark #databricks #spark-structured-streaming #delta-lake

Вопрос:

Я надеюсь, что вы сможете помочь мне с моей проблемой. Когда структурированное потоковое задание spark повреждается, т. Е. Несоответствие между дельта-журналом и файлом контрольной точки, или версия моментального снимка, на которую ссылается, больше не существует и т. Д., Я хотел бы иметь возможность перезапустить потоковое задание без удаления файлов контрольных точек и журналов транзакций.

Есть ли способ запустить структурированное потоковое задание и указать Spark начать с самой последней версии дельта-таблицы и соответствующим образом настроить файл контрольной точки? Потеря некоторых данных в моем случае не такая уж большая проблема, более важно перезапустить потоковое задание.

Я не смог найти в документах spark ничего, что привело бы к удовлетворительному решению.

Заранее спасибо