индекс сортировки dask после загрузки из фрейма данных с индексом, не отсортированным

#dask

Вопрос:

Я создал фрейм данных с несортированным индексом с пандами и сохранил его в parquet. Позже, если я загружусь с помощью dask, как мне выполнить сортировку индекса? Я должен сделать что-то вроде, pdf.reset_index().set_index(idx) ?

Ответ №1:

Насколько мне известно, ответ-да, ваш подход верен. Например, поиск "sort_index" проблем в Dask на самом деле не дает никаких соответствующих результатов.

Имейте в виду, что сортировка по ядру-довольно сложная операция. Возможно, вы сможете получить более стабильные результаты (или даже лучшую производительность) в Pandas, если ваш набор данных поместится в вашей памяти.