#python #pandas #parquet #pyarrow #fastparquet
Вопрос:
in chunks
Это, вероятно, самая трудная часть.
Мне нужно записать каждый небольшой фрагмент, затем загрузить его в S3 и зациклить.
Я не могу использовать AWS Wrangler, S3FS или Pyarrow 2.0.0 из-за ограничений кодовой базы (большинство моих экспериментов завершаются неудачей, так как в новой версии numpy есть проблемы с pyarrow 2.0.0, которыми я также ограничен).
Я могу использовать только fastparquet и панд.
Есть ли какой-либо способ написать паркет кусками в цикле for с помощью fastparquet?
Является ли это разумным вариантом?
n_chunks = 10 merged_dataframes = np.array_split(df, n_chunks)
Комментарии:
1. Должен ли это быть один файл? Если да, то что значит «по частям»? Означает ли это создание нескольких групп строк? Можете ли вы использовать pyarrow 1.0.0?
2. Нет не обязательно должен быть один файл, загрузка одного файла за раз да, из «фрагментации» фрейма данных, но это может быть несколько файлов.