Сохранение фрейма данных Spark в файл csv как части

#apache-spark

#apache-spark

Вопрос:

Привет, у меня есть этот код, который сохраняет фрейм данных в cvs локально в системе, и я продолжаю получать имена каталогов myfile.csv/part-0000.gz , part-0001.gz …. мне просто нужен файл cvs. вот мой код

 String current = LocalDateTime.now().format(DateTimeFormatter.ISO_LOCAL_DATE_TIME);
groupedMessages.write()
  .format("com.databricks.spark.csv")
  .option("header", "true")
  .option("codec", "org.apache.hadoop.io.compress.GzipCodec")
  .save("/finance_reports/myfile.csv");
 

}

Комментарии:

1. если вам нужен один csv файл, а ваши данные не слишком велики, вы можете сохранить их на одном рабочем компьютере в виде одного файла с помощью: groupedMessages.coalesce(1).write.format("...")....

2. спасибо за ответ, который я все еще получаю part-0000.gz не CSV-файл