Настраиваемая конфигурация расположения журнала spark в хранилищах данных Azure

#pyspark #log4j #databricks #azure-databricks

Вопрос:

Мы выполняем конвейеры ноутбуков Databricks с использованием фабрики данных Azure. Мы настроили опцию «Доставка журналов» для получения журналов в DBFS. В настоящее время, когда два трубопровода работают одновременно, мы не можем четко разделить журналы для каждого трубопровода. С помощью spark, когда экземпляр легко доступен в базе данных, можно указать каталог журналов как ex /var/spark/{random_id}/logs/ ?

Комментарии:

1. что значит «не могу отделиться»? Вы выполняете задания ADF с опцией «Использовать существующий кластер» ? Пожалуйста, предоставьте более подробную информацию о конфигурации ADF и т.д.

2. Когда два конвейера ADF работают одновременно. Я получаю журналы из двух конвейеров в файле stdout, поэтому я не могу их разделить. Я указал dbfs:/cluster-logs/0507-083455-leaky918 в поле ведения журнала.

3. если каждое из заданий использует новые кластеры, вам необходимо настроить местоположение для dbfs:/cluster-logs/ задания — Databricks, которое создаст отдельную папку для каждого нового кластера, созданного для задания. Если вы используете «Существующий кластер», то вы не можете этого сделать

4. Я пытаюсь альтернативными способами сделать это, используя переопределение параметра log4j экземпляра spark.