#apache-spark #amazon-emr
#apache-spark #amazon-emr
Вопрос:
У меня около 100 заданий Spark для отправки. Но мой кластер может запускать не более 4-5 заданий в определенный момент времени. Могу ли я отправить все задания за один раз? Как yarn будет вести себя в этом случае? Будет ли он выбирать задания, как только кластер будет доступен? Как долго задания могут ждать? Какую настройку мне нужно сделать?
Примечание: я не должен включать функцию автоматического масштабирования EMR.
Комментарии:
1. вы можете отправлять столько заданий, сколько сможете .. некоторые перейдут в состояние выполнения, а некоторые будут находиться в состоянии ПРИНЯТИЯ и ждать (в запланированной очереди), пока придет очередь.
2. Я бы сказал, следуйте применяемым здесь методам aws.amazon.com/blogs/big-data /…
3. запускайте каждое задание таким образом, чтобы использовать все доступные ресурсы, затем запускайте их одно за другим или запускайте их таким образом, чтобы два задания выполнялись последовательно