Какой сервис лучше всего использовать для конвейеров данных на GCP

#google-app-engine #google-cloud-platform #devops #google-kubernetes-engine

#google-движок приложений #google-облачная платформа #devops ( разработка ) #google-kubernetes-engine

Вопрос:

Я хочу развернуть сервис (скрипт python, который использует Apache Beam) в моем проекте на GCP со временем выполнения иногда до 24 часов. Мне нужно, чтобы эта служба с конвейером передачи данных всегда работала. Кроме того, у меня есть веб-приложение, которое будет использовать результаты из конвейера данных. Мое решение для этого заключалось в том, что я развертываю веб-приложение на движке приложений GCP и скрипт python на кластере K8s, потому что задание может длиться до 24 часов, а движок приложений бессерверный, поэтому все в бессерверном режиме должно занимать короткое время, примерно до 15 минут. Правильно ли я мыслю, или у вас есть какое-то другое лучшее решение для служб GCP, которое вы могли бы предложить.

Ответ №1:

Если вы используете Apache Beam, я советую развернуть конвейер в потоке данных. Служба полностью управляется GCP, и фактически этот продукт был единственным открытым исходным кодом в проекте Apache Beam, поэтому использование продукта должно быть простым.

После обработки данных с помощью Dataflow вы можете записать свои результаты в несколько возможных назначений, таких как BigQuery, GCS, Pub / Sub, хранилище данных, и использовать эти результаты из своего веб-приложения. Пожалуйста, ознакомьтесь с соответствующей документацией.

Пожалуйста, обратите внимание только на требуемое время обработки: поток данных будет масштабироваться по мере необходимости, но даже в этом случае, если выполнение ваших заданий занимает 24 часа, это, безусловно, то, что вы должны тщательно протестировать и изучить, а также рассмотреть возможные связанные с этим затраты.