#r #apache #package #partition
Вопрос:
Я пытаюсь написать фрейм данных с помощью R arrow::write_dataset()
, и я получаю следующую ошибку, указывающую, что мой фрейм данных будет разделен на слишком много разделов:
Error: Invalid: Fragment would be written into 3435 partitions. This exceeds the maximum of 1024
Есть ли способ увеличить максимальное количество разделов? По-видимому, это можно сделать на Python, так pyarrow.dataset.write_dataset()
как есть max_partitions
аргумент, но я не вижу ничего подобного для пакета R arrow.
Комментарии:
1. Одно из решений, которое я использовал , состоит в том, чтобы сначала разделить фрейм данных на основе фактора, например
df <- split(df, df$factor)
, а затем использоватьlapply()
для записи набора данных поверх каждого фрейма данных вdf
списке. Это не идеально, но это работает.