что такое задача с интенсивным использованием ЦП в pyspark?

#hadoop #hive #pyspark #cpu #core

#hadoop #улей #pyspark #процессор #Ядро

Вопрос:

Работа над pyspark, Hive and Hadoop

существует ли какая-либо связь между каналами ввода / вывода и количеством ядер (cpu).
Я понимаю, что

 1 core = 2 channels = 1 input channel and 1 output channel.

если это так, то
при записи фрейма данных в таблицу выходной канал будет занят записью данных hadoop/hive . поскольку выходной канал связан с ядром (ЦП), могу ли я назвать это процесс с интенсивным использованием ЦП?
если это не так
, пожалуйста, дайте мне знать, что на самом деле является задачей с интенсивным использованием ЦП, особенно в pyspark

1. Нет, я бы сказал, нет. Задача с интенсивным использованием ЦП — это задача, ограниченная доступностью ресурсов ЦП. Запись в БД не требует больших затрат процессора. Канал, вероятно, представляет собой соединение TCP / IP между контейнерами и мастером приложения Spark. Это не ограничивает параллелизм. Я даже не уверен, назначает ли Tez, механизм DAG в Spark, задачу логическому процессору, если на нем все еще выполняется другая задача (т. Е. Что-то вроде совместной многопоточности). Таким образом, более одного канала, вероятно, бессмысленно.

Вопрос:

Комментарии:

Вам также может понравиться

Получение всех результатов поиска Google в Ruby

Схема аукциона mongodb

Могу ли я импортировать базу данных Oracle при мультизагрузке?