pyspark write.parquet() создает папку вместо файла parquet

#python #pyspark #parquet

#python #писпарк #паркет

Вопрос:

Я пытаюсь записать фрейм данных pyspark в паркет, подобный этому

 df.write.parquet("temp.parquet", mode="overwrite")
  

но это создает пустую папку с именем temp.parquet вместо файла parquet. Что может вызвать эту проблему?

Комментарии:

1. Это не проблема, которая предназначена.

2. Это ожидаемое поведение. файлы parquet будут записаны внутри вашей temp.parquet папки

3. @RahulRaut Я проверил, и папка пуста, как мне тогда найти файл parquet?

4. Просто для проверки, пытались ли вы визуализировать данные во фрейме данных с помощью .show() или collect() . Попробуйте использовать полный путь df.write.parquet(«/tmp/temp.parquet», mode=»перезаписать»)

5. кажется, ваш df пуст. пожалуйста, проверьте данные в df с помощью df.show()

Ответ №1:

Я скачал hadoop.dll из здесь и добавьте его в папку System32, и это решило проблему.