Может ли SparkSession.catalog.clearCache () удалять данные из hdfs?

#apache-spark #hadoop #hortonworks-data-platform #apache-spark-2.3

#apache-spark #hadoop #hortonworks-платформа данных #apache-spark-2.3

Вопрос:

Я испытываю некоторую проблему с удалением данных, поскольку мы перешли с CDH на HDP (spark 2.2 на 2.3). Таблицы считываются из хранилища hdfs, и через определенное время запуск задания spark, которое считывает и обрабатывает эти таблицы, выдает исключение таблица не найдена, и когда мы проверяем это хранилище, все записи исчезают. В моем коде spark (Java), который я вижу перед чтением этой таблицы, вызывается clearCache(). Может ли он удалить эти файлы? Если да, то как мне это исправить?

Комментарии:

1. clearCache Удаляет все кэшированные таблицы из кэша в памяти. spark.apache.org/docs/latest/api/java/org/apache/spark/sql /…

2. Да, я проверил это, но будет ли это означать, что он удаляет файлы / записи таблицы из hdfs? Я не понимаю, что это означает, удаляя из кэша в памяти. @mazaneicha

Ответ №1:

Я думаю, вам следует взглянуть на исходный код — у Spark есть своя реализация кэширования пользовательских данных, и они никогда не удаляют их, управляя этим кэшем через CacheManager. Есть поиск