#apache-spark #hadoop #hive
#apache-spark #hadoop #улей
Вопрос:
У меня есть данные о продажах клиентов, разделенные по штатам / провинциям в Hive, но в некоторых провинциальных разделах содержатся огромные данные, где продажи высоки, а в некоторых провинциальных разделах меньше данных. Как обрабатывать сценарий для более быстрого выполнения / оптимизации.
Комментарии:
1. Какой механизм выполнения использует ваш улей?
2. Движок улья был сохранен по умолчанию — MR .
3. @MaheshKhatai вы нашли какое-либо решение для этого?