Каков способ запуска задания Amazon Elastic Mapreduce, зависящего от Numpy?

#amazon-ec2 #amazon-emr

#amazon-ec2 #amazon-emr

Вопрос:

Часть карты моего задания Mapreduce зависит от Numpy. Итак, это означает, что мне нужно установить numpy как часть действий начальной загрузки.

Что я собираюсь сделать, так это создать пользовательский пакет Numpy, хранящийся на S3, который извлекается и устанавливается во время действий boostrap.

Есть ли способ лучше?

Комментарии:

1. На самом деле, похоже, что Numpy установлен по умолчанию в экземплярах mapreduce. Однако вопрос по-прежнему актуален для других пакетов, которые не установлены по умолчанию.

2. Я знаю, что это старый вопрос, и, возможно, вы уже решили его, но вы можете использовать jar от Amazon для запуска скриптов для выполнения скрипта (на S3), который настраивает все остальное, что вам нужно. Это то, что Amazon использует для установки Hive при запуске кластера EMR с поддержкой Hive.

Ответ №1:

Numpy теперь устанавливается в экземплярах Amazon Elastic MapReduce, но если вы хотите использовать другие модули, вы можете заархивировать их, распространить среди своих рабочих с помощью DistributedCache (используя «-cacheFile»), а затем импортировать их с помощью встроенного в Python модуля «zipimport». Модуль «zipimport».

Смотрите: http://www.cloudera.com/blog/2008/11/sending-files-to-remote-task-nodes-with-hadoop-mapreduce /