#google-cloud-platform #google-cloud-dataflow #apache-beam #python-3.8
#google-облачная платформа #google-cloud-поток данных #apache-beam #python-3.8
Вопрос:
Я пытаюсь использовать библиотеку PGPy в пользовательском конвейере потока данных GCP, реализованном с помощью Apache Beam. Я получаю, что все работает с DirectRunner, но когда я развертываю задание и выполняю его в DataflowRunner, я получаю сообщение об ошибке при использовании PGPy:
ModuleNotFoundError: Нет модуля с именем ‘pgpy’
Я думаю, что я чего-то не понимаю в DataflowRunner.
Спасибо
Комментарии:
1. Мне нужно зашифровать с помощью PGP файл, созданный во время выполнения задания потока данных
2. был ли ответ полезным?
Ответ №1:
Чтобы управлять зависимостями конвейера, пожалуйста, обратитесь к :
https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/
Мое личное предпочтение состоит в том, чтобы сразу перейти к использованию setup.py поскольку это позволяет вам иметь дело с несколькими файловыми зависимостями, которые, как правило, используются, как только конвейер становится более сложным.