#python #distributed-computing
#python #распределенные вычисления
Вопрос:
Я пытаюсь найти инструмент, который будет управлять кучей заданий на 100 машинах в кластере (отправлять задания на машины; убедиться, что задания выполняются и т.д.).
Какой инструмент было бы проще установить / управлять:
(1) Hadoop?
(2) Disco?
(3) Condor?
В идеале я ищу решение, которое было бы максимально простым, но при этом надежным. Python
интеграция также является плюсом.
Ответ №1:
Я не знаком с Disco и Condor, но я могу ответить относительно Hadoop:
Плюсы Hadoop:
- Надежный и проверенный — вероятно, больше, чем что-либо еще. Используется многими организациями (включая ту, в которой я работаю) для запуска кластеров из 100 узлов и более.
- Большая экосистема = поддержка множество подпроектов для упрощения жизни (например, Pig, Hive)
- Поддержка Python должна быть возможна через функцию streaming MR или, может быть, Jython?
Недостатки Hadoop:
- Ни простой, ни элегантный (имхо). Вам придется потратить время на обучение.
Комментарии:
1. Большая экосистема также означает учебные пособия и, возможно, ответы на stackoverflow. Возможность задавать вопросы (и получать ответы) действительно была бы плюсом для hadoop.
2. @extraneon Абсолютно! Спасибо, что добавили это!
3. Свинья не кошерна 🙂 поэтому я искал разные решения. Похоже, что Hadoop сложен в установке / обслуживании и т.д. (особенно для магазина с одним человеком), следовательно, я ищу что-то более простое в обслуживании. Шагать одинаково.
4. @user540009 также взгляните на GridGain. В прошлом я использовал его как более удобную для разработчиков альтернативу Hadoop. Ошибка одна и та же.
Ответ №2:
Рассматривали ли вы движок Sun Grid? http://wikis.sun.com/display/GridEngine/Home .