#apache-spark #spark-streaming
#apache-spark #spark-streaming
Вопрос:
Обновляются ли статические ресурсы, загружаемые через api, например read.csv, во время каждого микропатча, когда выполняется статическое объединение потока в spark.
var a = sparkSession.read.csv(directory).as[A]
var b = sparkSession.readStream... # kafka stream
a.join(b, expr("some expre"), "inner") # Will the changes in directory made after the spark run started. be reflected in the join? Or is it completely static.
Почему я задаю этот вопрос, потому что в некоторых случаях я видел, что данные из статических ресурсов также обновляются. Но не смог объяснить, почему он обновляется во время выполнения.
Я не смог найти ничего по этому поводу в документации.
Комментарии:
1. добавьте
.cache
, если вы хотите, чтобы они были «статическими»2. То есть вы имеете в виду, что статические источники (например, a, в приведенном выше примере) также обновляются во время каждого микропакета?