#r #sparklyr
#r #sparklyr
Вопрос:
Когда я читаю файл parquet на s3 из контекста sparklyr, подобного этому:
{spark_read_parquet(sc, name = "parquet_test", path = "s3a://<path-to-file>")}
Это выдает мне ошибку, которая:
Вызвано: java.io.IOException: не удалось прочитать нижний колонтитул для файла: FileStatus{path=s3a: …..
Я смог прочитать файл parquet в сеансе SparkR с помощью функции read.parquet(). Таким образом, между SparkR и sparklyr должны быть некоторые различия с точки зрения конфигурации контекста spark.
Есть предложения по этой проблеме? Спасибо.
Ответ №1:
В yarn-client
режиме используемая вами файловая схема s3
неверна. Вам нужно будет использовать s3://<path-to-file>