Структурированная потоковая передача в Databricks Azure вызывает исключение — java.lang.Исключение IllegalStateException: ошибка чтения дельта-файла dbfs:/raw_zone/1.delta

#apache-spark-sql #spark-streaming #spark-structured-streaming #azure-databricks #spark-checkpoint

#apache-spark-sql #искровая потоковая передача #spark-structured-streaming #azure-databricks #spark-контрольная точка

Вопрос:

Мы используем структурированную потоковую передачу в среде Databricks, каждый раз, когда мы запускаем эту программу — kAFKA — Structured Streaming (DBR6.6, Spark 2.4.5) — запись в CosmosDB, мы получаем то же исключение, что и ниже, непосредственно перед тем, как выполнить окончательные объединения для сохранения данных в Cosmos DB. Мы не изменяли никаких специфичных для spark настроек и не использовали конфигурации spark / DBR по умолчанию.

 Caused by: org.apache.spark.SparkException:
           Job aborted due to stage failure:
           Task 174 in stage 9353.0 failed 4 times, most recent failure:
           Lost task 174.3 in stage 9353.0 (TID 60863, 10.139.64.9, executor 1): 
           java.lang.IllegalStateException:
           Error reading delta file dbfs:/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues/1.delta of HDFSStateStoreProvider[id = (op=8,part=174),dir = dbfs:/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues]: 
           dbfs:/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues/1.delta does not exist
Caused by: java.io.FileNotFoundException:
           /6455647419774311/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues/1.delta
 

Комментарии:

1. Файл не существует. Проверьте правильность пути

2. Он будет работать в течение некоторого времени, после записи больших объемов данных в дельту, обычно мы наблюдаем эту проблему. Пути являются правильными, так как мы даем их через программу.