Как размер блока изменяется от Cluster1 к Cluster2, если мы используем команду DistCp?

#hadoop #distcp

#hadoop #distcp

Вопрос:

Я обрабатываю команду «DistCp», чтобы переместить несколько важных файлов из моего Cluster1 в Cluster2. Раньше эти критически важные файлы размещались с размером блока 64 МБ. И теперь перешел к Cluster2 [он получил размер блока 128 МБ).

Как после перемещения DistCp производительность критических файлов будет увеличиваться с новым размером блока в Cluster2 .. производительность увеличивается или уменьшается ..???

Ответ №1:

Это зависит от ваших файлов. Предполагается, что файлы Hadoop читаются последовательно, и если ваши файлы большие (скажем, Gbs или Tbs), это увеличит производительность, если вы увеличите размер блока, потому что это уменьшит количество выполняемых задач. Копирование с помощью Distcp не будет поддерживать свойства блока вашего файла, поскольку конфигурации блоков различаются от кластера к кластеру.