Проблема импорта Sqoop PostgreSQL разрыв строки данных

#hadoop #sqoop

Вопрос:

Мы пытаемся импортировать данные PostgreSQL с помощью apache sqoop в среду Hadoop. На котором идентифицирован этот прямой(ключевое слово: —прямой) режим импорта SQOOP с использованием операции копирования PostgreSQL для быстрого импорта данных в HDFS. Если столбец содержит прерыватель строк(n) в качестве значения, то ЦИТАТА добавляется в значение столбца(пример, как показано ниже:1), которое рассматривалось как другая запись в таблице HIVE(ПУТЬ ЗАГРУЗКИ ДАННЫХ). Есть ли альтернатива, чтобы это сработало?

 E1: Sample data in HDFS (tried importing with: Default or --input-escaped-by '' or --input-escaped-by 'n' doesn't help)
value1,"The some data 
has line break",value3
 

Таблица Hive рассматривала ее как 2 записи.(при условии:—hive-разделители-замена » кажется, данные уровня HDFS имеют n, которые улей обнаруживает как новую запись)

 value1          "the same data  NULL
has line break"  value3         NULL
 

Похоже, apache удалил этот проект, похоже, он больше не поддерживает исправления ошибок или какие-либо выпуски.

Кто-нибудь из вас сталкивался с такой же проблемой или кто-нибудь мог бы мне в этом помочь?

Примечание: Я могу импортировать, используя не прямой, и выбрать режим запроса.

Ответ №1:

Вы можете попробовать экспортировать свои данные в нетекстовый формат (например, Parquet, флаг sqoop «-как-файл»). Это решило бы проблему с новыми строками.

Комментарии:

1. Привет, фача, В прямом режиме импорта postgresql sqoop в качестве формата файла использовался CSV, похоже, никакой другой формат не поддерживается.