#apache-spark-sql #spark-streaming #spark-structured-streaming #azure-databricks #spark-checkpoint
#apache-spark-sql #искровая потоковая передача #spark-structured-streaming #azure-databricks #spark-контрольная точка
Вопрос:
Мы используем структурированную потоковую передачу в среде Databricks, каждый раз, когда мы запускаем эту программу — kAFKA — Structured Streaming (DBR6.6, Spark 2.4.5) — запись в CosmosDB, мы получаем то же исключение, что и ниже, непосредственно перед тем, как выполнить окончательные объединения для сохранения данных в Cosmos DB. Мы не изменяли никаких специфичных для spark настроек и не использовали конфигурации spark / DBR по умолчанию.
Caused by: org.apache.spark.SparkException:
Job aborted due to stage failure:
Task 174 in stage 9353.0 failed 4 times, most recent failure:
Lost task 174.3 in stage 9353.0 (TID 60863, 10.139.64.9, executor 1):
java.lang.IllegalStateException:
Error reading delta file dbfs:/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues/1.delta of HDFSStateStoreProvider[id = (op=8,part=174),dir = dbfs:/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues]:
dbfs:/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues/1.delta does not exist
Caused by: java.io.FileNotFoundException:
/6455647419774311/raw_zone/uffRetail_jointbl_dev_cp1/state/8/174/left-keyToNumValues/1.delta
Комментарии:
1. Файл не существует. Проверьте правильность пути
2. Он будет работать в течение некоторого времени, после записи больших объемов данных в дельту, обычно мы наблюдаем эту проблему. Пути являются правильными, так как мы даем их через программу.