Задание Spark, выполняемое в распределенном кластере с использованием Windows env, жалуется на невозможность удалить одну из временных папок

#apache-spark #broadcast #fileutils

Вопрос:

То же самое задание spark отлично работает в локальном режиме. Есть ли способ настроить spark worker таким образом, чтобы он мог продолжать обработку задания, даже если он не может удалить одну из временных папок?
Лямбда-вызов spark с примитивными типами данных, похоже, отлично работает в кластере, но когда я включаю panda DF в качестве параметров, я заметил приведенную ниже ошибку. Вот немного более подробно об ошибке. Любая помощь приветствуется.

 py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, 10.173.138.98, executor 0): java.io.IOException: Failed to delete original file 'C:UsersSSUVVAAppDataLocalTempspark-13ea6c1e-0462-43e0-8d1a-510008f5aebbexecutor-c62cc252-6fad-4446-8eca-546d7d9dabfespark-90fb5a66-67c4-4baf-97bc-0906e97359d0broadcast4823832564960018342' after copy to 'C:UsersSSUVVAAppDataLocalTempspark-13ea6c1e-0462-43e0-8d1a-510008f5aebbexecutor-c62cc252-6fad-4446-8eca-546d7d9dabfeblockmgr-be9a1ae8-9c41-456f-a6a4-b4251647c94037broadcast_0_python'
    at org.apache.commons.io.FileUtils.moveFile(FileUtils.java:2835)