#apache-spark #pyspark #log4j #amazon-emr
#apache-spark #pyspark #log4j #amazon-emr
Вопрос:
Я нахожусь в процессе создания приложения pyspark, которое часто выходит из строя и имеет много заданий с большим количеством шагов, поэтому поиск с помощью and невозможен cluster id
step id
. текущий формат, в котором сохраняется spark при сохранении emr, приведен ниже
S3/buckt-name/logs/sparksteps/j-{clusterid}/steps/s-{stepid}/stderr.gz
Я хочу что-то отслеживаемое вместо {clusterid}
и {stepid}
такое, чтобы clustername datetime
и step-name
Я видел log4j.properties, и в нем есть что-то с именем datepattern, но оно ничего не сохраняет с datetime
Ответ №1:
Вы можете индексировать журналы в кластере ELK (управляемом или нет) с помощью filebeats.
Или отправьте журналы в журналы cloudwatch, используя загрузочный скрипт на EMR или Lambda. Затем вы можете настроить имена групп журналов и потоков журналов в соответствии с вашими потребностями.