PySpark — Могут ли операции агрегирования быть частью конвейера?

#apache-spark #pyspark #pipeline

#apache-spark #pyspark #конвейер

Вопрос:

Могут ли операции агрегирования быть частью конвейера (Spark / PySpark)? Примером операций агрегирования является агрегирование фрейма данных до уровня идентификатора пользователя и вычисление различных статистических данных для каждого столбца, таких как min, max, mean и т.д.

Комментарии:

1. вы имеете в виду конвейер spark ML?

2. Конечно, есть даже SQL transformer — или вы можете создать свой собственный.