#scala #apache-spark #amazon-s3 #parallel-processing #databricks
Вопрос:
У меня есть файл json объемом 1 ГБ(миллион записей)в папке s3. Я должен прочитать эти файлы и отправить в REST POST api.
мы используем платформу spark Scala для записи этих файлов в папку s3.
- мы должны сделать несколько вызовов REST, потому что api имеет ограничения по размеру полезной нагрузки
- мы также должны управлять смещением загруженных данных, чтобы избежать дублирования почтовых вызовов.(мы не должны публиковать дубликаты данных, если в процессе обработки произойдет какая-либо ошибка)
мы пытались понять, есть ли какой-либо способ, которым мы можем прочитать эти файлы как поток и вызвать REST API, не считывая все файлы в память одним выстрелом.
В настоящее время наша команда использует движок Spark Databricks в AWS для всех наших заданий. Было бы здорово, если бы у нас были какие-то решения по этому поводу. Если нет, мы готовы попробовать другой подход.
Комментарии:
1. Действительно не уверен, что для этого вам нужна искра. 1 миллион файлов-это не так уж и много. Вы можете написать простой скрипт, который повторяет объекты и отправляет их в api.