#python #pyspark #data-science #data-analysis #databricks
#python #pyspark #наука о данных #анализ данных #блоки данных
Вопрос:
Я использую автозагрузчик Azure Databricks.
У меня есть хранилище больших двоичных объектов с большим количеством файлов JSON. Они состоят из нескольких десятков разных схем.
Текущее решение основано на выводе схемы и сохранении данных в дельта-таблицах. Однако по мере увеличения количества таблиц и схем JSON становится трудно контролировать. В случае любой ошибки весь процесс импорта останавливается.
Я подумываю о создании отдельного автозагрузчика для каждой схемы, но мне трудно найти какую-либо статью, которая убедила бы меня в том, что это правильный подход.
Пожалуйста, дайте мне знать, что вы думаете, является ли допустимым подходом наличие 30-40 потоков записи, обращающихся к одному хранилищу больших двоичных объектов?
Я только начинаю в теме анализа данных, поэтому я был бы признателен даже за самые очевидные предложения.