Отслеживаемая архитектура ведения журнала EMR pyspark

#apache-spark #pyspark #log4j #amazon-emr

#apache-spark #pyspark #log4j #amazon-emr

Вопрос:

Я нахожусь в процессе создания приложения pyspark, которое часто выходит из строя и имеет много заданий с большим количеством шагов, поэтому поиск с помощью and невозможен cluster id step id . текущий формат, в котором сохраняется spark при сохранении emr, приведен ниже

 S3/buckt-name/logs/sparksteps/j-{clusterid}/steps/s-{stepid}/stderr.gz
 

Я хочу что-то отслеживаемое вместо {clusterid} и {stepid} такое, чтобы clustername datetime и step-name

Я видел log4j.properties, и в нем есть что-то с именем datepattern, но оно ничего не сохраняет с datetime

Ответ №1:

Вы можете индексировать журналы в кластере ELK (управляемом или нет) с помощью filebeats.

Или отправьте журналы в журналы cloudwatch, используя загрузочный скрипт на EMR или Lambda. Затем вы можете настроить имена групп журналов и потоков журналов в соответствии с вашими потребностями.