Некоторые задания Spark не инициализируются и не получают управление обратно из действия записи Spark

#apache-spark #apache-spark-sql #spark-java #spark-ui

Вопрос:

Я использовал Spark 3.1.1 и драйвер Java, поддерживал кэш spark для своих данных и создал представление. Выполните следующие преобразования.

  1. Запрос данных из представления
  2. Выполнение запроса MySQL для некоторых данных.
  3. Выполнение объединения для наборов данных 1 и 2
  4. Выполнение преобразования RegexTokenizer, StopWordsRemover.
  5. Использование функции разнесения для слов, преобразованных из StopWordsRemover.
  6. Выполнение группирования по разнесенным словам и выполнение операций объединения с небольшим транслируемым набором данных.
  7. Выполнение действия записи.

Здесь я не получаю контроль от действия записи. В пользовательском интерфейсе Spark и прослушивателях драйверов Spark я могу видеть задания и задачи вплоть до RegexTokenizer, преобразования StopWordsRemover. Для остальных преобразований никакие задания не создаются и контроль не возвращается.

Если я выполняю DataSet3.cache() перед выполнением 4-го преобразования, никаких проблем не наблюдается.

Пожалуйста, помогите мне понять, почему задания spark не создаются и не получают контроль в первом случае.

Комментарии:

1. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.