#azure #azure-storage #azure-hdinsight
#azure #azure-хранилище #azure-hdinsight
Вопрос:
Я использую HDInsight в Azure для исследования масштабируемости методов ранжирования машинного обучения (learning to rank, для инсайдеров) в Hadoop. Мне удалось протестировать мою реализацию алгоритма обучения ранжированию в кластере HDInsight и установить время для завершения операции.
Теперь я хочу снова и снова запускать один и тот же код с разным количеством ядер, чтобы увидеть, как время выполнения масштабируется в зависимости от количества ядер. Из других вопросов на этом форуме я понял, что HDInsight не позволяет изменять количество ядер кластера. Возможно ли вместо этого каким-либо образом удалить текущий кластер, а затем создать новый кластер, который использует точно такой же контейнер в моем хранилище Azure? Я попытался сделать это, просто присвоив новому кластеру то же имя, что и предыдущему (поскольку контейнер, созданный для нового кластера, автоматически именуется в честь кластера во время создания), но это не работает, поскольку к новому контейнеру, созданному для этого нового кластера, будет добавлено «-1″к имени кластера. Размер файла данных, который я пытаюсь обработать, составляет около 15 ГБ, поэтому было бы настоящей проблемой, если бы мне нужно было загружать этот файл в контейнер кластера для каждого создаваемого кластера.
Буду признателен за любую помощь в том, как я могу запускать свои алгоритмы в HDInsight с различным количеством ядер без необходимости повторной загрузки моих входных данных для каждой точки измерения!
С уважением,
Налог Ника
Ответ №1:
Вы должны иметь возможность связать существующий контейнер хранения с кластером HDInsight в соответствии с http://azure.microsoft.com/en-us/documentation/articles/hdinsight-use-blob-storage/#benefits
Используя пользовательское создание, у вас есть один из следующих вариантов для учетной записи хранилища по умолчанию:
- Используйте существующее хранилище
- Создание нового хранилища
- Используйте хранилище из другой подписки.
У вас также есть возможность создать свой собственный контейнер больших двоичных объектов или использовать существующий.
По ссылке показано, как это можно сделать с помощью портала Windows Azure.
Комментарии:
1. Это было именно то, что я искал! Большое спасибо!