как мне настроить серверы для hadoop? (CDH)

#hadoop #cloudera

#hadoop #cloudera

Вопрос:

Я запускаю 3 экземпляра с использованием AWS EC2 (m1.small — 20 ГБ жесткого диска и 1,7 ГБ оперативной памяти).

В кластере будут hadoop, MapReduce и несколько процессов мониторинга.

Вот как я разделяю :

1 Главный сервер

  • NameNode
  • SecondaryNameNode
  • JobTracker
  • Монитор активности
  • Издатель предупреждений
  • Сервер событий
  • Монитор хоста
  • Service Monitor

2 подчиненных сервера

  • TaskTracker
  • DataNode

Из-за спецификации сервера я думаю, что для главного сервера выполнение этих 8 заданий является своего рода бременем. Как мне разделить их? Должен ли я создать другой сервер для выделения процессов мониторинга?

Ответ №1:

Наличие NameNode и SeondaryNameNode на одном сервере не служит никакой цели.

Я не думаю, что вы сможете многое сделать с 1,7 ГБ оперативной памяти / компьютера. Вам нужно больше узлов или более высокая конфигурация. Я думаю, что 8 ГБ / узел должно быть минимальным.

Вы также можете назначить некоторые службы подчиненным узлам.

Комментарии:

1. Да, я согласен. Для справки, CDH 5 VM требует 8 гигабайт или ОЗУ

2. 8 ГБ оперативной памяти для каждого узла? Сколько серверов я должен подготовить, чтобы кластер работал как минимум? CDH рекомендует не менее 3 узлов данных, поэтому мне нужно 3 хоста для трех узлов данных и 1 хост для namenode и 1 для secondarynamenode. как минимум 5 хостов, верно?

3. Ваш дополнительный узел с именем может находиться в одном из ваших узлов данных. Вы собираетесь использовать это как производство? Если нет, вы можете установить коэффициент репликации равным 2 и использовать только 2 узла данных. Немного нестабильно, но будет служить целям разработки.