Открытие каталога parquet [arrowcpp]

#c #parquet #apache-arrow

#c #паркет #apache-стрелка

Вопрос:

Я пытаюсь открыть разделенный на разделы parquet, который по сути представляет собой вложенный каталог с множеством маленьких фрагментов parquet на нижнем уровне. При работе с Python (с использованием pyarrow ) я могу просто использовать read_table в верхнем каталоге, в конце имени которого есть .parquet , и все обрабатывается автоматически. Если я работаю только с одним файлом на C , я могу использовать std::shared_ptr<arrow::io::ReadableFile> экземпляр для чтения из него, но, конечно, он не работает в каталоге.

В принципе, я хочу найти набор инструментов с начальной точкой, отмеченной как ? ниже:

Python:

открыть один файл -> pyarrow.parquet.read_table

открыть каталог (разделенный набор данных) -> pyarrow.parquet.ParquetDataset

C :

открыть один файл -> std::shared_ptr<arrow::io::ReadableFile>

открыть каталог (разделенный набор данных) -> ?