Вывод количества разделов в Spark SQL

#apache-spark #apache-spark-sql

Вопрос:

В нашем проекте мы имеем дело с большими наборами данных, и поэтому мы довольно часто сталкиваемся с проблемами производительности в наших запросах Spark SQL (особенно в объединениях). Следовательно, я пытаюсь найти способы оптимизации этих запросов.

Может кто-нибудь, пожалуйста, помочь мне понять —

Как определить количество разделов, на которые в данный момент разбита конкретная таблица. (это поможет определить, следует ли перераспределять таблицу для оптимизации объединений)

Как определить оптимальное количество разделов, которые необходимо установить для Join оптимального функционирования a, на основе размеров участвующих таблиц? Существует ли какое-либо эмпирическое правило для получения этого числа для оптимальной работы Join / Aggregation и т. Д.?

Любая помощь приветствуется. Спасибо.

Вопрос:

Комментарии:

Вам также может понравиться

ошибка контекстного фильтра в Drupal 7 sql

как найти ячейки, значения которых имеют строковый тип внутри фрейма данных

Один-горячие столбцы в новый столбец списка строк