#python #pandas #numpy #databricks #pyarrow
#python #панды #numpy #databricks #pyarrow
Вопрос:
Проблема
Я пытаюсь сохранить фрейм данных в виде файла parquet в Databricks, получая ошибку ArrowTypeError.
Версия среды выполнения Databricks: 7.6 ML (включает Apache Spark 3.0.1, Scala 2.12)
Трассировка журнала
ArrowTypeError: ('Did not pass numpy.dtype object', 'Conversion failed for column inv_yr with type int32')
Комментарии:
1. В версиях DBR ML лучше использовать версии библиотек, которые там уже установлены
Ответ №1:
Проблема, с которой вы столкнулись, связана с тем фактом, что вы используете старое pyarrow
колесо с последней numpy
версией 1.20. Вы столкнулись с ошибкой «PyArray_DescrCheck больше не работает, если библиотека-потребитель была скомпилирована с более старой версией NumPy «. Либо обновите свою pyarrow
версию, либо понизьте ее до numpy<1.20
.