#pyspark #parquet
Вопрос:
Предположим, у меня есть фрейм данных, который я хотел бы записать как паркет разделов с использованием года.
Итак, теперь структура папок такова
/parquettable/year=2021/*.parquet
/parquettable/year=2020/*.parquet.......etc.
Могу я это сделать /parquettable/2021/*.parquet
?
Ответ №1:
Технически вы всегда можете переименовать папку после ее записи, поэтому ответ на ваш вопрос-да, вы можете это сделать /parquettable/2021/*.parquet
.
Но вы не должны этого делать, потому что шаблон year=2021
помогает Hive и Spark знать, с каким разделом ( year
) и с каким разделом ( 2021
) они имеют дело. Вы можете прочитать эту ссылку, чтобы узнать, как структурированы эти папки разделов.