#apache-spark #pyspark #pipeline
#apache-spark #pyspark #конвейер
Вопрос:
Могут ли операции агрегирования быть частью конвейера (Spark / PySpark)? Примером операций агрегирования является агрегирование фрейма данных до уровня идентификатора пользователя и вычисление различных статистических данных для каждого столбца, таких как min, max, mean и т.д.
Комментарии:
1. вы имеете в виду конвейер spark ML?
2. Конечно, есть даже SQL transformer — или вы можете создать свой собственный.