Рекомендуется ли использовать параллельную обработку экосистем Hadoop для управления и поддержания медленно изменяющихся размеров хранилища данных?

#hadoop #etl #data-warehouse #data-processing

#hadoop #etl #хранилище данных #обработка данных

Вопрос:

У нас есть данные о транзакциях за час и ежедневные данные, загружаемые массово из операционных систем, которые мы проектируем в измерения хранилища данных (и факты) в среде MS SQL Server. Если рекомендуется, какие быстрые и эффективные методы (Flume, Sqoop, Kafka, HDFS, HBase, Hive, KUDU, Spark, Impla) мы могли бы применить для достижения этого в Hadoop? Предполагается, что эти измерения будут использоваться хранилищем данных MS SQL Server ежечасно.

Ответ №1:

возможный вариант — Nifi или MiNiFi

https://nifi.apache.org/