Как я могу прочитать файл parquet, который использует кодировку DELTA_BYTE_ARRAY?

#parquet

#parquet

Вопрос:

Я пытаюсь прочитать файл parquet, который является довольно прогрессивным, он использует формат страницы v2 и кодирует свои столбцы с DELTA_BYTE_ARRAY кодировкой. Я пытался прочитать этот файл с помощью библиотеки arrow / parquet C , но я только что получил Parquet error: Not yet implemented: Unsupported encoding. Next, я попробовал pyarrow.parquet , и эта библиотека просто выдает OSError: Not yet implemented: Unsupported encoding.

Итак, какая библиотека с открытым исходным кодом может прочитать файл, который использует эту кодировку?

Комментарии:

1. Вы пытаетесь прочитать какой-либо файл отчета о затратах и использовании AWS? У меня аналогичная проблема как с pyarrow, так и с fastparquet (см. Проблему fastparquet # 493 ).

2. @JackoBongo: Нет, я просто хочу прочитать файлы parquet на C в целом. В итоге я сам написал целую библиотеку для чтения parquet: D. (Хотя, я не думаю, что это было бы хорошим ответом на мой вопрос …)