#hadoop #sqoop
Вопрос:
Мы пытаемся импортировать данные PostgreSQL с помощью apache sqoop в среду Hadoop. На котором идентифицирован этот прямой(ключевое слово: —прямой) режим импорта SQOOP с использованием операции копирования PostgreSQL для быстрого импорта данных в HDFS. Если столбец содержит прерыватель строк(n) в качестве значения, то ЦИТАТА добавляется в значение столбца(пример, как показано ниже:1), которое рассматривалось как другая запись в таблице HIVE(ПУТЬ ЗАГРУЗКИ ДАННЫХ). Есть ли альтернатива, чтобы это сработало?
E1: Sample data in HDFS (tried importing with: Default or --input-escaped-by '' or --input-escaped-by 'n' doesn't help)
value1,"The some data
has line break",value3
Таблица Hive рассматривала ее как 2 записи.(при условии:—hive-разделители-замена » кажется, данные уровня HDFS имеют n, которые улей обнаруживает как новую запись)
value1 "the same data NULL
has line break" value3 NULL
Похоже, apache удалил этот проект, похоже, он больше не поддерживает исправления ошибок или какие-либо выпуски.
Кто-нибудь из вас сталкивался с такой же проблемой или кто-нибудь мог бы мне в этом помочь?
Примечание: Я могу импортировать, используя не прямой, и выбрать режим запроса.
Ответ №1:
Вы можете попробовать экспортировать свои данные в нетекстовый формат (например, Parquet, флаг sqoop «-как-файл»). Это решило бы проблему с новыми строками.
Комментарии:
1. Привет, фача, В прямом режиме импорта postgresql sqoop в качестве формата файла использовался CSV, похоже, никакой другой формат не поддерживается.