#hadoop #hive #hdfs #fuse
#hadoop #улей #hdfs #предохранитель
Вопрос:
Источник: /mnt/fuse/project/hive
(Это данные hive на HDFS, смонтированные с помощью fuse)
Назначение: host:/fs/dir
(/fs/dir снова является подключенным к сети хранилищем, и у меня нет прямого доступа к «хосту»)
Я сделал rsync -avz -P -e ssh /mnt/fuse/project/hive user@host:/fs/dir
, и это очень медленно. Я прервал процесс и попытался убить rsync, но не смог этого сделать, попробовал как kill -15, так и kill -9.
Хотите знать, есть ли лучший способ скопировать данные?
Комментарии:
1. вы пробовали distcp? Командная строка может быть чем-то вроде
hadoop distcp hdfs:///path/to/hivedata fs:///user@host:/fs/dir
2. Я думаю, что distcp используется для копирования данных между кластерами.
3. о, его можно использовать с несколькими схемами, т.Е. hdfs, http, ftp, file …, я использовал его для файлов cp из HDFS в локальную файловую систему с помощью file:///, но я не пробовал ваш случай, вот почему я предложил вам попробовать
4. Я попробовал это, и он выдает мне исключение «fs: схема не найдена»