#python #pyspark #pycharm #spark-submit
#python #pyspark #pycharm #spark-отправить
Вопрос:
Я должен поддерживать oll-код, работающий с pyspark. Он использует метод, который я никогда не видел. У меня есть некоторый повторно используемый код, заархивированный в файл ingestion.zip . Затем этот файл вызывается с использованием файла pipeline.cfg, подобного этому:
[spark]
master=spark://master
py-files=${HOME}/lib/ingestion.zip
spark-submit=${SPARK_HOME}/bin/spark-submit
Когда я пытаюсь импортировать библиотеку, как показано ниже, я не могу заставить Pycharm понять, что библиотека должна указывать на zip-файл.
from ingestion.data import csv, storage
Я видел, что zip — это решение, предложенное spark-submit с использованием py-files, но как я могу заставить его работать в моей IDE?
Ответ №1:
Я не использовал приведенный ниже метод с pycharm, но у нас он сработал с spark-submit, и мы могли импортировать эти модули, используя обычные инструкции import. На самом деле, у нас было очень мало файлов для импорта, и нам нужно было что-то быстрое. Итак, если у вас также есть такой же вариант использования, и если pycharm позволяет, то, возможно, вы можете попробовать.
--py-files s3://bucket-name/module1.py,s3://bucket-name/module2.py,s3://bucket-name/module3.py,s3://bucket-name/module4.py"
(Примечание — не должно быть никаких пробелов.)
(Примечание — это предложение является лишь промежуточным решением, пока кто-нибудь не ответит лучшим ответом.)