#amazon-web-services #scala #apache-spark #bigdata #aws-glue
Вопрос:
Я новичок в AWS Glue и хотел бы понять, как ведет себя Spark Job. У меня есть задание Spark, которое терпит неудачу из-за высоких значений S3. Некоторые файлы обработаны (чтобы было ясно, что успешно обработанные файлы были записаны в корзину приемника), в то время как другие нет, обратите внимание, что «фиксация задания» еще не достигнута. Если закладка задания включена, будет ли она по-прежнему повторно обрабатывать те файлы, которые были записаны в приемник, или она просто выполнит инкрементное обновление с момента сбоя?
Ответ №1:
Документация по закладкам заданий, на мой взгляд, действительно полезна. Они даже включают пример для вашего варианта использования.
Короче говоря, длинная история:
Если выполнение задания завершается неудачно до выполнения функции job.commit(), файлы обрабатываются при последующем запуске.