Как я могу публиковать и использовать изменения из тысяч таблиц из СУБД с помощью Apache Nifi

#apache-kafka #apache-nifi

#apache-kafka #apache-nifi

Вопрос:

У вас есть СУБД с тысячами таблиц (~ 9.000). Изменения в этих таблицах должны быть опубликованы другим пользователям через Apache Kafka. Я знаю Apache Nifi как инструмент маршрутизации и преобразования данных практически из любого источника. И я думаю о графическом интерфейсе, в котором я могу выбрать таблицу / объект из исходной системы для публикации записей в Apache Kafka. Но как будет выглядеть сбор данных об изменении такого количества таблиц в Apache Nifi, а также в Apache Kafka? Должен ли я создать ~ 9.000 процессоров (по одному для каждой таблицы) и опубликовать каждую из таблиц в отдельной теме для каждой таблицы? Или есть какой-нибудь более элегантный способ сделать это?

Комментарии:

1. создайте группу процессов, которая принимает файл потока с именем таблицы в качестве входных данных. затем вам нужно просто запустить его 9 тысяч раз для разных таблиц

2. @daggett: И как бы выглядела сторона Kafka?

3. я не знаю специфики и нагрузки для вашего процесса. но вы можете передавать все сообщения через 1 очередь — имя таблицы может быть частью сообщения.

4. Вы также можете использовать ListDatabaseTables для создания потоковых файлов с именами таблиц

5. Я думаю, вам нужно начать с вашего источника — и посмотреть, можете ли вы использовать журналы СУБД для генерации изменений, подобно тому, как выполняется репликация. Что у вас за движок СУБД?