#dask
Вопрос:
Я создал фрейм данных с несортированным индексом с пандами и сохранил его в parquet. Позже, если я загружусь с помощью dask, как мне выполнить сортировку индекса? Я должен сделать что-то вроде, pdf.reset_index().set_index(idx)
?
Ответ №1:
Насколько мне известно, ответ-да, ваш подход верен. Например, поиск "sort_index"
проблем в Dask на самом деле не дает никаких соответствующих результатов.
Имейте в виду, что сортировка по ядру-довольно сложная операция. Возможно, вы сможете получить более стабильные результаты (или даже лучшую производительность) в Pandas, если ваш набор данных поместится в вашей памяти.