#hadoop #cloudera
#hadoop #cloudera
Вопрос:
Я запускаю 3 экземпляра с использованием AWS EC2 (m1.small — 20 ГБ жесткого диска и 1,7 ГБ оперативной памяти).
В кластере будут hadoop, MapReduce и несколько процессов мониторинга.
Вот как я разделяю :
1 Главный сервер
- NameNode
- SecondaryNameNode
- JobTracker
- Монитор активности
- Издатель предупреждений
- Сервер событий
- Монитор хоста
- Service Monitor
2 подчиненных сервера
- TaskTracker
- DataNode
Из-за спецификации сервера я думаю, что для главного сервера выполнение этих 8 заданий является своего рода бременем. Как мне разделить их? Должен ли я создать другой сервер для выделения процессов мониторинга?
Ответ №1:
Наличие NameNode и SeondaryNameNode на одном сервере не служит никакой цели.
Я не думаю, что вы сможете многое сделать с 1,7 ГБ оперативной памяти / компьютера. Вам нужно больше узлов или более высокая конфигурация. Я думаю, что 8 ГБ / узел должно быть минимальным.
Вы также можете назначить некоторые службы подчиненным узлам.
Комментарии:
1. Да, я согласен. Для справки, CDH 5 VM требует 8 гигабайт или ОЗУ
2. 8 ГБ оперативной памяти для каждого узла? Сколько серверов я должен подготовить, чтобы кластер работал как минимум? CDH рекомендует не менее 3 узлов данных, поэтому мне нужно 3 хоста для трех узлов данных и 1 хост для namenode и 1 для secondarynamenode. как минимум 5 хостов, верно?
3. Ваш дополнительный узел с именем может находиться в одном из ваших узлов данных. Вы собираетесь использовать это как производство? Если нет, вы можете установить коэффициент репликации равным 2 и использовать только 2 узла данных. Немного нестабильно, но будет служить целям разработки.