pyspark — spark-отправить с внутренними и общедоступными библиотеками

#python #apache-spark #pyspark #apache-spark-sql #amazon-emr

#python #apache-spark #pyspark #apache-spark-sql #amazon-emr

Вопрос:

Я пытаюсь выполнить следующую команду, чтобы отправить задание pyspark на EMR с моими собственными библиотеками и общедоступными библиотеками (такими как pandas и numpy):

 spark-submit --deploy-mode client --py-files dependencies.zip main.py
  

The dependencies.zip имеет библиотеку pandas и ее зависимости, а также мою внутреннюю библиотеку (xpto library).:

 - dependencies:
  - pandas
  - numpy
  - ...
  - xpto
     - __init__.py
     - xpto.py
  

Когда я запускаю задание, я получаю сообщение об ошибке: no module named 'pandas' .

Итак, как я могу передать свои собственные библиотеки и общедоступные библиотеки в a .zip для выполнения задания?