#python #pyspark #parquet
#python #писпарк #паркет
Вопрос:
Я пытаюсь записать фрейм данных pyspark в паркет, подобный этому
df.write.parquet("temp.parquet", mode="overwrite")
но это создает пустую папку с именем temp.parquet
вместо файла parquet. Что может вызвать эту проблему?
Комментарии:
1. Это не проблема, которая предназначена.
2. Это ожидаемое поведение. файлы parquet будут записаны внутри вашей
temp.parquet
папки3. @RahulRaut Я проверил, и папка пуста, как мне тогда найти файл parquet?
4. Просто для проверки, пытались ли вы визуализировать данные во фрейме данных с помощью .show() или collect() . Попробуйте использовать полный путь df.write.parquet(«/tmp/temp.parquet», mode=»перезаписать»)
5. кажется, ваш
df
пуст. пожалуйста, проверьте данные в df с помощьюdf.show()
Ответ №1:
Я скачал hadoop.dll из здесь и добавьте его в папку System32, и это решило проблему.