#hive #oozie-workflow #hive-query
#улей #oozie-рабочий процесс #улей-запрос
Вопрос:
Я создал рабочий процесс oozie XML для извлечения данных из таблицы базы данных hive и экспорта в файл CSV. Рабочий процесс Oozie выполняет три действия, как показано ниже
- Выполнение файла Jar, созданного из IntelliJ
- Сообщение об успешном завершении
- Сообщение об ошибке
Файл Jar генерируется из IntelliJ из проекта maven. В проекте я использую random.hql
файл. Приведенный ниже запрос присутствует в random.hql
файле
SELECT CONCAT(EMPLOYEEID,NAME,SALARY,AGE) FROM EMPLOYEES
Oozie worklflow запускается без проблем и создает CSV-файл в выходном каталоге. Данные в файле такие, как показано ниже
"_C0_"
"01267LSURESH3000026"
Мой вопрос в том, как удалить двойные кавычки («), которые находятся в начале и в конце строки?
Можно ли это сделать в самом запросе hive? Также дайте мне знать, есть ли способ избежать имени столбца ( _C0_
) в выходном файле.
Я бы просто хотел выводить, как показано ниже:
01267LSURESH3000026
Комментарии:
1. Как вы пишете CSV?
2. В oozie xml spark action я предоставляю формат вывода в виде CSV.