#apache-spark #shuffle
#apache-spark #перемешать
Вопрос:
Я просматриваю четные журналы задания spark. Существует показатель, называемый временем записи в случайном порядке. Когда я суммирую все время записи в случайном порядке, я получаю 1846856495 за задание, которое длилось 15 секунд.
Мой вопрос в том, в какой единице на этот раз? Похоже, это не миллисекунды или микосекунды
Комментарии:
1. можете ли вы поделиться еще несколькими журналами?
2. Вы можете получить все значения метрик даже из пользовательского интерфейса Spark.
3. Показатели записи в случайном порядке»: {«Записанные байты в случайном порядке»: 5991746, «Время записи в случайном порядке»: 12773576, «Записанные записи в случайном порядке»: 1000000}, «Входные показатели»: {«Прочитанные байты»: 0, «Прочитанные записи»: 0}, «Выходные показатели»: {«БайтыЗаписано «: 0, «Записи записаны»: 0}, «Обновленные блоки»:[]}}
4. Я знаю, что могу получать показатели из пользовательского интерфейса spark, но я хочу рассчитать пропускную способность в скрипте, и мне нужно использовать журналы.
Ответ №1:
Единицей времени для shufflewrite*10-6 является миллисекунда. Время, затрачиваемое на блокировку записи на диск или в буферный кэш. Значение выражается в наносекундах.