Фрейм данных запись имени папки паркетного раздела

#pyspark #parquet

Вопрос:

Предположим, у меня есть фрейм данных, который я хотел бы записать как паркет разделов с использованием года.
Итак, теперь структура папок такова

 /parquettable/year=2021/*.parquet
/parquettable/year=2020/*.parquet.......etc.
 

Могу я это сделать /parquettable/2021/*.parquet ?

Ответ №1:

Технически вы всегда можете переименовать папку после ее записи, поэтому ответ на ваш вопрос-да, вы можете это сделать /parquettable/2021/*.parquet .

Но вы не должны этого делать, потому что шаблон year=2021 помогает Hive и Spark знать, с каким разделом ( year ) и с каким разделом ( 2021 ) они имеют дело. Вы можете прочитать эту ссылку, чтобы узнать, как структурированы эти папки разделов.