Обновляются ли статические ресурсы, загружаемые через api, например read.csv, во время каждого микропатча при выполнении статического соединения потока в spark

#apache-spark #spark-streaming

Вопрос:

Обновляются ли статические ресурсы, загружаемые через api, например read.csv, во время каждого микропатча, когда выполняется статическое объединение потока в spark.

 var a = sparkSession.read.csv(directory).as[A] 
var b = sparkSession.readStream... # kafka stream
a.join(b, expr("some expre"), "inner") # Will the changes in  directory made after the spark run started. be reflected in the join? Or is it completely static.

Почему я задаю этот вопрос, потому что в некоторых случаях я видел, что данные из статических ресурсов также обновляются. Но не смог объяснить, почему он обновляется во время выполнения.

Я не смог найти ничего по этому поводу в документации.

1. добавьте .cache , если вы хотите, чтобы они были «статическими»

2. То есть вы имеете в виду, что статические источники (например, a, в приведенном выше примере) также обновляются во время каждого микропакета?

Вопрос:

Комментарии:

Вам также может понравиться

Как изменить значение xml с помощью XSL

какой эквивалентный XML-тег для указания пути к диску в ehcache версии 3.x

Странное поведение QMap