Обработка данных с использованием другой схемы

#python #pyspark #data-science #data-analysis #databricks

#python #pyspark #наука о данных #анализ данных #блоки данных

Вопрос:

Я использую автозагрузчик Azure Databricks.

У меня есть хранилище больших двоичных объектов с большим количеством файлов JSON. Они состоят из нескольких десятков разных схем.

Текущее решение основано на выводе схемы и сохранении данных в дельта-таблицах. Однако по мере увеличения количества таблиц и схем JSON становится трудно контролировать. В случае любой ошибки весь процесс импорта останавливается.

Я подумываю о создании отдельного автозагрузчика для каждой схемы, но мне трудно найти какую-либо статью, которая убедила бы меня в том, что это правильный подход.

Пожалуйста, дайте мне знать, что вы думаете, является ли допустимым подходом наличие 30-40 потоков записи, обращающихся к одному хранилищу больших двоичных объектов?

Я только начинаю в теме анализа данных, поэтому я был бы признателен даже за самые очевидные предложения.