Лучший способ скопировать данные Hive из HDFS на другой компьютер?

#hadoop #hive #hdfs #fuse

#hadoop #улей #hdfs #предохранитель

Вопрос:

Источник: /mnt/fuse/project/hive (Это данные hive на HDFS, смонтированные с помощью fuse)

Назначение: host:/fs/dir (/fs/dir снова является подключенным к сети хранилищем, и у меня нет прямого доступа к «хосту»)

Я сделал rsync -avz -P -e ssh /mnt/fuse/project/hive user@host:/fs/dir , и это очень медленно. Я прервал процесс и попытался убить rsync, но не смог этого сделать, попробовал как kill -15, так и kill -9.

Хотите знать, есть ли лучший способ скопировать данные?

Комментарии:

1. вы пробовали distcp? Командная строка может быть чем-то вроде hadoop distcp hdfs:///path/to/hivedata fs:///user@host:/fs/dir

2. Я думаю, что distcp используется для копирования данных между кластерами.

3. о, его можно использовать с несколькими схемами, т.Е. hdfs, http, ftp, file …, я использовал его для файлов cp из HDFS в локальную файловую систему с помощью file:///, но я не пробовал ваш случай, вот почему я предложил вам попробовать

4. Я попробовал это, и он выдает мне исключение «fs: схема не найдена»