задачи spark не начинают выполняться

#scala #apache-spark #task #spark-ui

#scala #apache-spark #задача #spark-пользовательский интерфейс

Вопрос:

я выполняю задание в spark shell job

 --num-executors 15 
--driver-memory 15G 
--executor-memory 7G 
--executor-cores 8 
--conf spark.yarn.executor.memoryOverhead=2G 
--conf spark.sql.shuffle.partitions=500 
--conf spark.sql.autoBroadcastJoinThreshold=-1 
--conf spark.executor.memoryOverhead=800
  

задание застряло, и не запуск
кода выполняет перекрестное объединение с условиями фильтрации для большого набора данных в 270m.
я увеличил разделы до 16000 для большой таблицы 270m и маленькой таблицы (100000),
я преобразовал ее в широковещательную переменную

я добавил пользовательский интерфейс spark для задания ,

итак, мне нужно уменьшить разделы, увеличить исполнителей, есть идеи

спасибо за помощь.

![spark ui 1] [1] ! [spark ui 2] [2] ![spark ui 3] [3] через 10 часов

статус: задачи: 7341/16936 (сбой 16624)

проверьте журналы ошибок контейнера

 RM Home
NodeManager
Tools
Failed while trying to construct the redirect url to the log server. Log Server url may not be configured
java.lang.Exception: Unknown container. Container either has not started or has already completed or doesn't belong to this node at all.
  

[50% завершенного пользовательского интерфейса 1] [4] [50% завершенного пользовательского интерфейса 2] [5]
[1]: https://i.stack.imgur.com/nqcys.png
[2]: https://i.stack.imgur.com/S2vwL.png
[3]: https://i.stack.imgur.com/81FUn.png
[4]: https://i.stack.imgur.com/h5MTa.png
[5]: https://i.stack.imgur.com/yDfKF.png

Комментарии:

1. Я бы попытался уменьшить ваши требования к памяти и процессору. Похоже, что Spark ожидает получения запрашиваемых вами ресурсов.

2. хорошо, но он работает с той же настройкой, когда я уменьшаю размер данных с 270mil * 100,000 до 270mil * 1000 и насколько я должен уменьшить объем памяти до . thx

3. Я не думаю, что он ожидает ресурсов, поскольку он уже обработал 5 заданий. Поскольку вы говорите, что увеличение размера широковещательной рассылки создает проблему: уменьшите количество исполнителей и увеличьте память исполнителя

Ответ №1:

Если вы можете указать свои конфигурации кластера, это было бы полезно.

Но поскольку вы добавили трансляцию небольшой таблицы из 1000, она работает, но 100 000, вероятно, нет, вам нужно настроить конфигурацию памяти.

Согласно вашей конфигурации, я предполагаю, что у вас всего: 15 * 7 = 105GB памяти.

Вы можете попробовать с --num-executors 7 --executor-memory 15

Это даст больше памяти каждому исполнителю для хранения широковещательной переменной. Пожалуйста, настройте --executor-cores соответствующим образом для правильного использования