#hadoop #hive #pyspark #cpu #core
#hadoop #улей #pyspark #процессор #Ядро
Вопрос:
Работа над pyspark, Hive and Hadoop
существует ли какая-либо связь между каналами ввода / вывода и количеством ядер (cpu).
Я понимаю, что
1 core = 2 channels = 1 input channel and 1 output channel.
если это так, то
при записи фрейма данных в таблицу выходной канал будет занят записью данных hadoop/hive
. поскольку выходной канал связан с ядром (ЦП), могу ли я назвать это процесс с интенсивным использованием ЦП?
если это не так
, пожалуйста, дайте мне знать, что на самом деле является задачей с интенсивным использованием ЦП, особенно в pyspark
Комментарии:
1. Нет, я бы сказал, нет. Задача с интенсивным использованием ЦП — это задача, ограниченная доступностью ресурсов ЦП. Запись в БД не требует больших затрат процессора. Канал, вероятно, представляет собой соединение TCP / IP между контейнерами и мастером приложения Spark. Это не ограничивает параллелизм. Я даже не уверен, назначает ли Tez, механизм DAG в Spark, задачу логическому процессору, если на нем все еще выполняется другая задача (т. Е. Что-то вроде совместной многопоточности). Таким образом, более одного канала, вероятно, бессмысленно.