Что такое СЫРЬЕ и STG и потребление в проекте

#informatica #informatica-powercenter #informatica-cloud

Вопрос:

В моем проекте исходными файлами являются плоские файлы, и мы загружаем данные в базу данных HANA.

1-я фаза : мы загружаем данные плоских файлов в целевой плоский файл,применяя некоторые бизнес-логики,такие как ltrim, rtrim, round, подстрока 2-я фаза : мы берем сгенерированный целевой файл в качестве источника и загружаем эти данные в необработанные таблицы(DB2). здесь также мы применяем функции обрезки и округления с некоторым переходом даты на 3-ю фазу tgt : данные, загруженные в DB2, снова обрабатываются в таблицы STG в той же базе данных. (нет логики для данных столбцов)

Мой вопрос в том, почему мы загружаем данные в RAW и STG. не можем ли мы напрямую загружать данные в STG ?

Ответ №1:

Если я правильно понимаю вашу архитектуру, она выглядит так —

 Flat file -expr--> Flat File -->raw(DB2) --trim, date trim/filter --> STG(DB2)
 

Теперь, для rwa в stg, ясно, что ваша структура сначала переносит все данные в необработанный слой, А затем применяет некоторую логику даты и т. Д. Для загрузки в слой stg. RAW используется здесь на предварительном этапе и содержит все данные. STG будет загружаться постепенно(я предполагаю). Так что это идея, которую многие DW используют. Таким образом, загрузка stg занимает меньше времени, и если вам нужны все данные, у вас есть необработанная таблица слоев.
Да, вы можете напрямую загрузить в stg , но тогда гибкость запуска инкрементного хранения всех данных в необработанном виде будет потеряна. Это зависит от вас или вашего дизайна, вы также можете избежать необработанного, informatica может легко работать инкрементно.

В конце концов, кто-то сделал это с некоторой логикой в голове. Если вы видите лучшую производительность и бизнес одобряет это, пожалуйста, сделайте это.