Есть ли какой-либо способ отправить файлы s3 json в REST API

#scala #apache-spark #amazon-s3 #parallel-processing #databricks

Вопрос:

У меня есть файл json объемом 1 ГБ(миллион записей)в папке s3. Я должен прочитать эти файлы и отправить в REST POST api.

мы используем платформу spark Scala для записи этих файлов в папку s3.

  1. мы должны сделать несколько вызовов REST, потому что api имеет ограничения по размеру полезной нагрузки
  2. мы также должны управлять смещением загруженных данных, чтобы избежать дублирования почтовых вызовов.(мы не должны публиковать дубликаты данных, если в процессе обработки произойдет какая-либо ошибка)

мы пытались понять, есть ли какой-либо способ, которым мы можем прочитать эти файлы как поток и вызвать REST API, не считывая все файлы в память одним выстрелом.

В настоящее время наша команда использует движок Spark Databricks в AWS для всех наших заданий. Было бы здорово, если бы у нас были какие-то решения по этому поводу. Если нет, мы готовы попробовать другой подход.

Комментарии:

1. Действительно не уверен, что для этого вам нужна искра. 1 миллион файлов-это не так уж и много. Вы можете написать простой скрипт, который повторяет объекты и отправляет их в api.