#python #apache-spark #pyspark #apache-spark-sql #amazon-emr
#python #apache-spark #pyspark #apache-spark-sql #amazon-emr
Вопрос:
Я пытаюсь выполнить следующую команду, чтобы отправить задание pyspark на EMR с моими собственными библиотеками и общедоступными библиотеками (такими как pandas и numpy):
spark-submit --deploy-mode client --py-files dependencies.zip main.py
The dependencies.zip имеет библиотеку pandas и ее зависимости, а также мою внутреннюю библиотеку (xpto library).:
- dependencies:
- pandas
- numpy
- ...
- xpto
- __init__.py
- xpto.py
Когда я запускаю задание, я получаю сообщение об ошибке: no module named 'pandas'
.
Итак, как я могу передать свои собственные библиотеки и общедоступные библиотеки в a .zip
для выполнения задания?