PyArrow> = 0.8.0 должен быть установлен; однако он не был найден

#apache-spark #pyspark #apache-spark-sql #anaconda #pyarrow

Вопрос:

Я на платформе Cloudera, я пытаюсь использовать pandas UDF в pyspark.Я получаю сообщение об ошибке ниже. PyArrow> = 0.8.0 должен быть установлен; однако он не был найден.

Установка pyarrow 0.8.0 на платформе потребует времени.

Есть ли какой-либо обходной путь для использования pandas udf без установки pyarrow? Я могу установить его в своей личной среде anaconda, можно ли экспортировать conda и использовать его в pyspark?

Ответ №1:

Я могу установить его в своей личной среде anaconda, можно ли экспортировать conda и использовать его в pyspark? Нет, вы не можете просто установить его на свой компьютер и использовать, поскольку pyspark распространяется.

Но вы можете упаковать свой venv и отправить своему pyspark worker без установки пользовательского пакета, такого как pyarrow, на каждую машину вашей платформы.
Чтобы использовать virtualenv, просто следуйте venv-pack инструкциям пакета. https://jcristharif.com/venv-pack/spark.html

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Laravel: исключение RuntimeException в compiled.php строка 7772: при выполнении угловых http-запросов

Как вызвать несколько виджетов в файлах dart в другом файле dart в flutter?

Primeflex 3 и angular 12 не могут визуализировать