#apache-spark #apache-spark-sql
#apache-spark #apache-spark-sql
Вопрос:
В нашем проекте мы имеем дело с большими наборами данных, и поэтому мы довольно часто сталкиваемся с проблемами производительности в наших запросах Spark SQL (особенно в объединениях). Следовательно, я пытаюсь найти способы оптимизации этих запросов.
Может кто-нибудь, пожалуйста, помочь мне понять —
Как определить количество разделов, на которые в данный момент разбита конкретная таблица. (это поможет определить, следует ли перераспределять таблицу для оптимизации объединений)
Как определить оптимальное количество разделов, которые необходимо установить для Join
оптимального функционирования a, на основе размеров участвующих таблиц? Существует ли какое-либо эмпирическое правило для получения этого числа для оптимальной работы Join / Aggregation и т. Д.?
Любая помощь приветствуется. Спасибо.
Комментарии:
1. Вы пробовали
df.getNumPartitions()
?2. Мне нужно узнать значение с помощью запросов SQL API. Не могли бы вы помочь, пожалуйста?