AWS Glue - добавление префикса к имени выходного файла задания

#amazon-web-services #aws-glue #aws-glue-data-catalog #aws-glue-spark #aws-glue-workflow

#amazon-веб-сервисы #aws-glue #aws-glue-data-catalog #aws-glue-spark #aws-glue-рабочий процесс

Вопрос:

Имя выходного файла AWS Glue job по умолчанию начинается с jr_. Когда я ссылаюсь на эти журналы в потоке журналов Cloud Watch, очень сложно найти конкретное задание.

Кто-нибудь знает, могу ли я переименовать их или добавить префикс / суффикс?

Ответ №1:

Если вам известен конкретный идентификатор задания, вы можете использовать CloudWatch logs insights для запроса этого конкретного задания, например

 fields @timestamp, @logStream, @message
| filter @logStream like /*job id*/
| sort @timestamp desc
| limit 20

Для получения дополнительной информации см.: https://docs.aws.amazon.com/kinesisanalytics/latest/java/cloudwatch-logs-reading.html

1. Что ж! это происходит после того, как сотни журналов уже сгенерированы и хотят что-то искать. Однако, если я могу дать значимое имя в первую очередь, это упрощает все. Что-то вроде — «ABC-XYZ-Jr_0e89asjdasjdjlajd»

2. Есть ли какая-либо информация, которую вы могли бы знать заранее, которая помогла бы вам эффективно выполнять поиск в журналах? Как минимум, у вас есть следующие поля для анализа: время приема, журнал, поток журналов, сообщение, временная метка

3. Спасибо! но этот вопрос не о том, как анализировать / фильтровать журналы. Мой вопрос заключается в том, как я могу дать значимое имя этим файлам выходных журналов aws glue вместо «jr_<someRandomstring>»