#apache-spark #pyspark #databricks #spark-structured-streaming #delta-lake
Вопрос:
Я надеюсь, что вы сможете помочь мне с моей проблемой. Когда структурированное потоковое задание spark повреждается, т. Е. Несоответствие между дельта-журналом и файлом контрольной точки, или версия моментального снимка, на которую ссылается, больше не существует и т. Д., Я хотел бы иметь возможность перезапустить потоковое задание без удаления файлов контрольных точек и журналов транзакций.
Есть ли способ запустить структурированное потоковое задание и указать Spark начать с самой последней версии дельта-таблицы и соответствующим образом настроить файл контрольной точки? Потеря некоторых данных в моем случае не такая уж большая проблема, более важно перезапустить потоковое задание.
Я не смог найти в документах spark ничего, что привело бы к удовлетворительному решению.
Заранее спасибо