#apache-spark #pyspark #apache-spark-sql #anaconda #pyarrow
#apache-spark #pyspark #apache-spark-sql #anaconda #pyarrow
Вопрос:
Я на платформе Cloudera, я пытаюсь использовать pandas UDF в pyspark.Я получаю сообщение об ошибке ниже. PyArrow> = 0.8.0 должен быть установлен; однако он не был найден.
Установка pyarrow 0.8.0 на платформе потребует времени.
Есть ли какой-либо обходной путь для использования pandas udf без установки pyarrow? Я могу установить его в своей личной среде anaconda, можно ли экспортировать conda и использовать его в pyspark?
Ответ №1:
- Я могу установить его в своей личной среде anaconda, можно ли экспортировать conda и использовать его в pyspark? Нет, вы не можете просто установить его на свой компьютер и использовать, поскольку pyspark распространяется.
Но вы можете упаковать свой venv и отправить своему pyspark worker без установки пользовательского пакета, такого как pyarrow, на каждую машину вашей платформы.
Чтобы использовать virtualenv, просто следуйте venv-pack
инструкциям пакета. https://jcristharif.com/venv-pack/spark.html
Комментарии:
1. spark.conf.set(«spark.sql.execution.arrow.pyspark.enabled», «false») не работает
2. извините за вводящий в заблуждение, возможно, попробуйте отправить venv на рабочий узел