Как экспортировать данные в формате csv из Druid, который уже выходит в Druid?

#export #datasource #druid

Вопрос:

Я загрузил данные (почти 1 миллиард строк данных) из hdfs (Hadoop) в Apache Druid. Теперь я пытаюсь экспортировать этот набор данных в формате CSV в свой локальный. Есть ли какой-либо способ сделать это в Druid?

На druid SQL есть значок загрузки. Однако, когда вы нажимаете на него, он позволяет загружать данные до той страницы, на которой вы находитесь. У меня слишком много страниц, поэтому я не могу просмотреть все страницы, чтобы загрузить все данные.

Комментарии:

1. Если вы выполняете собственный запрос сканирования ( druid.apache.org/docs/latest/querying/scan-query.html ) при resultFormat заданном compactedList значении результат в свойстве events настолько близок к csv, насколько это возможно. С помощью такого инструмента, как jq, преобразовать данные в csv должно быть относительно легко.

2. Я не выполняю собственный запрос сканирования. То, что я пытаюсь сделать, это также получить экспорт результата моего запроса.

3. Вы выполняете запрос из командной строки? Или в вашем коде? Из командной строки вы должны иметь возможность преобразовать результат в csv с помощью такого инструмента, как jq .

Ответ №1:

Вы можете POST отправить SQL — запрос в API запросов и указать a resultFormat в своем POST оф csv .

https://druid.apache.org/docs/latest/querying/sql.html#responses