Будет ли AWS Клеить закладку задания Spark для повторной обработки неудачных заданий?

#amazon-web-services #scala #apache-spark #bigdata #aws-glue

Вопрос:

Я новичок в AWS Glue и хотел бы понять, как ведет себя Spark Job. У меня есть задание Spark, которое терпит неудачу из-за высоких значений S3. Некоторые файлы обработаны (чтобы было ясно, что успешно обработанные файлы были записаны в корзину приемника), в то время как другие нет, обратите внимание, что «фиксация задания» еще не достигнута. Если закладка задания включена, будет ли она по-прежнему повторно обрабатывать те файлы, которые были записаны в приемник, или она просто выполнит инкрементное обновление с момента сбоя?

Ответ №1:

Документация по закладкам заданий, на мой взгляд, действительно полезна. Они даже включают пример для вашего варианта использования.

Короче говоря, длинная история:

Если выполнение задания завершается неудачно до выполнения функции job.commit(), файлы обрабатываются при последующем запуске.