Балансировка HDFS, как сбалансировать данные hdfs

#hadoop #hdfs

#hadoop #hdfs

Вопрос:

У нас есть версия HDP — 2.6.4. На компьютере datanode мы видим, что данные hdfs не сбалансированы. На некоторых дисках мы имеем разный размер, поскольку

 sdb 11G 
and 
sdd 17G


/dev/sdd 20G 3.0G 17G 15% /grid/sdd 
/dev/sdb 20G 11G 9.3G 53% /grid/sdb <-- Why disks are not balanced?
  

После поиска в Google я нашел следующий интерфейс командной строки
( от https://community.hortonworks.com/questions/19694/help-with-exception-from-hdfs-balancer.html )

 hdfs balancer -Ddfs.balancer.movedWinWidth=5400000 -Ddfs.balancer.moverThreads=1000 -Ddfs.balancer.dispatcherThreads=200 -Ddfs.datanode.balance.bandwidthPerSec=100000000 -Ddfs.balancer.max-size-to-move=10737418240 -threshold 20 1>/tmp/balancer-out.log 2>/tmp/balancer-debug.log
  

и после того, как я его запускаю, мы получаем тот же размер hdfs

 /dev/sdd 20G 3.0G 17G 15% /grid/sdd
/dev/sdb 20G 11G 9.3G 53% /grid/sdb


more /tmp/balancer-out.log Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being Moved The cluster is balanced. Exiting... Mar 7, 2019 5:02:34 PM 0 0 B 0 B 0 B Mar 7, 2019 5:02:34 PM Balancing took 1.453 seconds
  

Итак, на самом деле мы не видим никакой разницы в балансировке дисков в hdfs.

Как сбалансировать данные hdfs, чтобы весь диск был одинакового используемого размера?

Ответ №1:

Я не эксперт в этом, я только начал изучать это. Я подозреваю, что вам следует использовать hdfs diskbalancer, а не balancer.