Как запланировать задания Spark в Google Dataproc?

#google-cloud-platform #google-cloud-dataproc

#google-облачная платформа #google-cloud-dataproc

Вопрос:

Я хочу создать поток приема / агрегации в Google Cloud, используя Dataproc, где раз в день / час я хочу, чтобы задание Spark выполнялось на собранных до этого данных.

Есть ли какой-либо способ запланировать задания Spark? Или сделать этот триггер основанным, например, на любом новом событии данных, поступающем в поток?

Комментарии:

1. Вы нашли способ, который вам нужен

2. Ответ @HashanMalawana Генри хорош для планирования, а для запуска мы можем использовать облачные функции.

3. Спасибо, я посмотрю.

Ответ №1:

Рабочий процесс Dataproc облачный планировщик может быть решением для вас. Он поддерживает именно то, что вы описали, например, запуск потока заданий в ежедневной базе.