ошибка sparklyr spark_read_parquet из s3

#r #sparklyr

#r #sparklyr

Вопрос:

Когда я читаю файл parquet на s3 из контекста sparklyr, подобного этому:

 {spark_read_parquet(sc, name = "parquet_test", path = "s3a://<path-to-file>")} 
  

Это выдает мне ошибку, которая:

Вызвано: java.io.IOException: не удалось прочитать нижний колонтитул для файла: FileStatus{path=s3a: …..

Я смог прочитать файл parquet в сеансе SparkR с помощью функции read.parquet(). Таким образом, между SparkR и sparklyr должны быть некоторые различия с точки зрения конфигурации контекста spark.

Есть предложения по этой проблеме? Спасибо.

Ответ №1:

В yarn-client режиме используемая вами файловая схема s3 неверна. Вам нужно будет использовать s3://<path-to-file>