PGPy не будет использоваться в конвейере потока данных GCP

#google-cloud-platform #google-cloud-dataflow #apache-beam #python-3.8

#google-облачная платформа #google-cloud-поток данных #apache-beam #python-3.8

Вопрос:

Я пытаюсь использовать библиотеку PGPy в пользовательском конвейере потока данных GCP, реализованном с помощью Apache Beam. Я получаю, что все работает с DirectRunner, но когда я развертываю задание и выполняю его в DataflowRunner, я получаю сообщение об ошибке при использовании PGPy:

ModuleNotFoundError: Нет модуля с именем ‘pgpy’

Я думаю, что я чего-то не понимаю в DataflowRunner.

Спасибо

Комментарии:

1. Мне нужно зашифровать с помощью PGP файл, созданный во время выполнения задания потока данных

2. был ли ответ полезным?

Ответ №1:

Чтобы управлять зависимостями конвейера, пожалуйста, обратитесь к :

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

Мое личное предпочтение состоит в том, чтобы сразу перейти к использованию setup.py поскольку это позволяет вам иметь дело с несколькими файловыми зависимостями, которые, как правило, используются, как только конвейер становится более сложным.