PyArrow> = 0.8.0 должен быть установлен; однако он не был найден

#apache-spark #pyspark #apache-spark-sql #anaconda #pyarrow

#apache-spark #pyspark #apache-spark-sql #anaconda #pyarrow

Вопрос:

Я на платформе Cloudera, я пытаюсь использовать pandas UDF в pyspark.Я получаю сообщение об ошибке ниже. PyArrow> = 0.8.0 должен быть установлен; однако он не был найден.

Установка pyarrow 0.8.0 на платформе потребует времени.

Есть ли какой-либо обходной путь для использования pandas udf без установки pyarrow? Я могу установить его в своей личной среде anaconda, можно ли экспортировать conda и использовать его в pyspark?

Ответ №1:

  • Я могу установить его в своей личной среде anaconda, можно ли экспортировать conda и использовать его в pyspark? Нет, вы не можете просто установить его на свой компьютер и использовать, поскольку pyspark распространяется.

Но вы можете упаковать свой venv и отправить своему pyspark worker без установки пользовательского пакета, такого как pyarrow, на каждую машину вашей платформы.
Чтобы использовать virtualenv, просто следуйте venv-pack инструкциям пакета. https://jcristharif.com/venv-pack/spark.html

Комментарии:

1. spark.conf.set(«spark.sql.execution.arrow.pyspark.enabled», «false») не работает

2. извините за вводящий в заблуждение, возможно, попробуйте отправить venv на рабочий узел