#c #parquet #apache-arrow
#c #паркет #apache-стрелка
Вопрос:
Я пытаюсь открыть разделенный на разделы parquet, который по сути представляет собой вложенный каталог с множеством маленьких фрагментов parquet на нижнем уровне. При работе с Python (с использованием pyarrow
) я могу просто использовать read_table
в верхнем каталоге, в конце имени которого есть .parquet , и все обрабатывается автоматически. Если я работаю только с одним файлом на C , я могу использовать std::shared_ptr<arrow::io::ReadableFile>
экземпляр для чтения из него, но, конечно, он не работает в каталоге.
В принципе, я хочу найти набор инструментов с начальной точкой, отмеченной как ? ниже:
Python:
открыть один файл -> pyarrow.parquet.read_table
открыть каталог (разделенный набор данных) -> pyarrow.parquet.ParquetDataset
C :
открыть один файл -> std::shared_ptr<arrow::io::ReadableFile>
открыть каталог (разделенный набор данных) -> ?