Рекомендуется ли использовать параллельную обработку экосистем Hadoop для управления и поддержания медленно изменяющихся размеров хранилища данных?

#hadoop #etl #data-warehouse #data-processing

#hadoop #etl #хранилище данных #обработка данных

Вопрос:

У нас есть данные о транзакциях за час и ежедневные данные, загружаемые массово из операционных систем, которые мы проектируем в измерения хранилища данных (и факты) в среде MS SQL Server. Если рекомендуется, какие быстрые и эффективные методы (Flume, Sqoop, Kafka, HDFS, HBase, Hive, KUDU, Spark, Impla) мы могли бы применить для достижения этого в Hadoop? Предполагается, что эти измерения будут использоваться хранилищем данных MS SQL Server ежечасно.

Ответ №1:

возможный вариант — Nifi или MiNiFi

https://nifi.apache.org/

Вопрос:

Ответ №1:

Вам также может понравиться

Использование значений в списке для замены подстроки в отдельной переменной

Как мне заставить мой компьютер использовать другую версию python?

Ошибка при разборе локального файла: ‘E:androidappsrcmainAndroidManifest.xml» Пожалуйста, убедитесь, что манифест Android является действительным XML-документом, и повторите попытку