Hadoop против. Диско против. Condor?

#python #distributed-computing

#python #распределенные вычисления

Вопрос:

Я пытаюсь найти инструмент, который будет управлять кучей заданий на 100 машинах в кластере (отправлять задания на машины; убедиться, что задания выполняются и т.д.).

Какой инструмент было бы проще установить / управлять:

(1) Hadoop?

(2) Disco?

(3) Condor?

В идеале я ищу решение, которое было бы максимально простым, но при этом надежным. Python интеграция также является плюсом.

Ответ №1:

Я не знаком с Disco и Condor, но я могу ответить относительно Hadoop:

Плюсы Hadoop:

  • Надежный и проверенный — вероятно, больше, чем что-либо еще. Используется многими организациями (включая ту, в которой я работаю) для запуска кластеров из 100 узлов и более.
  • Большая экосистема = поддержка множество подпроектов для упрощения жизни (например, Pig, Hive)
  • Поддержка Python должна быть возможна через функцию streaming MR или, может быть, Jython?

Недостатки Hadoop:

  • Ни простой, ни элегантный (имхо). Вам придется потратить время на обучение.

Комментарии:

1. Большая экосистема также означает учебные пособия и, возможно, ответы на stackoverflow. Возможность задавать вопросы (и получать ответы) действительно была бы плюсом для hadoop.

2. @extraneon Абсолютно! Спасибо, что добавили это!

3. Свинья не кошерна 🙂 поэтому я искал разные решения. Похоже, что Hadoop сложен в установке / обслуживании и т.д. (особенно для магазина с одним человеком), следовательно, я ищу что-то более простое в обслуживании. Шагать одинаково.

4. @user540009 также взгляните на GridGain. В прошлом я использовал его как более удобную для разработчиков альтернативу Hadoop. Ошибка одна и та же.

Ответ №2:

Рассматривали ли вы движок Sun Grid? http://wikis.sun.com/display/GridEngine/Home .