#hadoop #distcp
#hadoop #distcp
Вопрос:
Я обрабатываю команду «DistCp», чтобы переместить несколько важных файлов из моего Cluster1 в Cluster2. Раньше эти критически важные файлы размещались с размером блока 64 МБ. И теперь перешел к Cluster2 [он получил размер блока 128 МБ).
Как после перемещения DistCp производительность критических файлов будет увеличиваться с новым размером блока в Cluster2 .. производительность увеличивается или уменьшается ..???
Ответ №1:
Это зависит от ваших файлов. Предполагается, что файлы Hadoop читаются последовательно, и если ваши файлы большие (скажем, Gbs или Tbs), это увеличит производительность, если вы увеличите размер блока, потому что это уменьшит количество выполняемых задач. Копирование с помощью Distcp не будет поддерживать свойства блока вашего файла, поскольку конфигурации блоков различаются от кластера к кластеру.