Как объяснить длительную задержку, прежде чем другой исполнитель выберет задачи?

#apache-spark #spark-graphx

#apache-spark #spark-graphx

Вопрос:

Как вы можете объяснить следующий результат выполнения spark graphx pregel? В кластере spark постоянного размера выполняется одно задание graphx pregel.

Код доступен на GitHub, хотя я не ожидаю, что кто-нибудь углубится в детали, поскольку это довольно сложно.

Мои параметры:

 bin/spark-submit 
    --master k8s://http://localhost:8001 
    --deploy-mode cluster 
    --name iga-adi-graph 
    --driver-cores 3 
    --driver-memory 5G 
    --executor-cores 3 
    --executor-memory 6G 
    --conf spark.executor.instances=10 
    --conf spark.default.parallelism=30 
    --conf spark.kubernetes.executor.request.cores=3000m 
    --conf spark.kubernetes.executor.limit.cores=3000m 
    --conf spark.kubernetes.memoryOverheadFactor=0.2 
    --conf spark.kubernetes.container.image.pullPolicy=Always 
    --conf spark.kubernetes.container.image=kbhit/iga-adi-pregel 
    --conf spark.scheduler.minRegisteredResourcesRatio=1.0 
    --conf spark.scheduler.maxRegisteredResourcesWaitingTime=300s 
    --files /opt/metrics.properties 
    --conf spark.metrics.conf=/opt/metrics.properties 
    --jars /opt/metrics-influxdb.jar,/opt/spark-influx-sink.jar 
    --conf spark.driver.extraClassPath=spark-influx-sink.jar:metrics-influxdb.jar  
    --conf spark.executor.extraClassPath=/opt/spark-influx-sink.jar:/opt/metrics-influxdb.jar  
    --conf spark.executor.extraJavaOptions="" 
    --conf spark.driver.extraJavaOptions="-Dproblem.size=192 -Dproblem.steps=1" 
    --conf spark.kryo.unsafe=true 
    --conf spark.kryoserializer.buffer=32m 
    --conf spark.network.timeout=360s 
    --conf spark.memory.fraction=0.5 
    --conf spark.cleaner.periodicGC.interval=10s 
    --conf spark.locality.wait.node=0 
    --conf spark.locality.wait=9999999 
    --conf spark.kubernetes.executor.volumes.emptyDir.mycheckpoints.mount.path=/tmp/checkpoints 
    --conf spark.kubernetes.driver.volumes.emptyDir.mycheckpoints.mount.path=/tmp/checkpoints 
    --class edu.agh.kboom.iga.adi.graph.IgaAdiPregelSolver 
    local:///opt/iga-adi-pregel.jar amp;
  

Длительный прогрев

Комментарии:

1. Является ли 10.244.1.10 узлом драйвера? не могли бы вы, пожалуйста, опубликовать код?

2. Нет, все они подчиненные. Добавлен приведенный выше код.