как мне настроить серверы для hadoop? (CDH)

#hadoop #cloudera

Вопрос:

Я запускаю 3 экземпляра с использованием AWS EC2 (m1.small — 20 ГБ жесткого диска и 1,7 ГБ оперативной памяти).

В кластере будут hadoop, MapReduce и несколько процессов мониторинга.

Вот как я разделяю :

1 Главный сервер

NameNode
SecondaryNameNode
JobTracker
Монитор активности
Издатель предупреждений
Сервер событий
Монитор хоста
Service Monitor

2 подчиненных сервера

TaskTracker
DataNode

Из-за спецификации сервера я думаю, что для главного сервера выполнение этих 8 заданий является своего рода бременем. Как мне разделить их? Должен ли я создать другой сервер для выделения процессов мониторинга?

Ответ №1:

Наличие NameNode и SeondaryNameNode на одном сервере не служит никакой цели.

Я не думаю, что вы сможете многое сделать с 1,7 ГБ оперативной памяти / компьютера. Вам нужно больше узлов или более высокая конфигурация. Я думаю, что 8 ГБ / узел должно быть минимальным.

Вы также можете назначить некоторые службы подчиненным узлам.

1. Да, я согласен. Для справки, CDH 5 VM требует 8 гигабайт или ОЗУ

2. 8 ГБ оперативной памяти для каждого узла? Сколько серверов я должен подготовить, чтобы кластер работал как минимум? CDH рекомендует не менее 3 узлов данных, поэтому мне нужно 3 хоста для трех узлов данных и 1 хост для namenode и 1 для secondarynamenode. как минимум 5 хостов, верно?

3. Ваш дополнительный узел с именем может находиться в одном из ваших узлов данных. Вы собираетесь использовать это как производство? Если нет, вы можете установить коэффициент репликации равным 2 и использовать только 2 узла данных. Немного нестабильно, но будет служить целям разработки.

Вопрос:

1 Главный сервер

2 подчиненных сервера

Ответ №1:

Комментарии:

Вам также может понравиться

vue, условный стиль для табличных данных

Преобразование JSON (одно поле) в CSV (одна строка с разделителем)

Как вычислить среднее значение для каждого канала из гистограммы?