Настройка пользовательских параметров для конвейера Spark MLlib

#apache-spark #metadata #pipeline #apache-spark-mllib

Вопрос:

По умолчанию конвейер Spark MLlib имеет один параметр: stages . Механизм параметров вводится в Pipeline класс из Params признака (через абстракцию PipelineStage ). Теоретически, должна быть возможность задавать дополнительные параметры с помощью Pipeline.set(String name, String value) , но это работает только для параметров, которые уже известны объекту конвейера. В противном случае возникает исключение, например, для

pipeline.set("Hello", "World!")

вы бы получили

java.util.NoSuchElementException: Param Hello does not exist.

Есть ли другой способ задать пользовательские параметры в конвейере Spark, которые также экспортируются при сохранении обученного конвейера? Я хотел бы использовать это для управления версиями обученных моделей ML и хранения других метаданных, предпочтительно без необходимости создавать дополнительную оболочку вокруг объекта Spark pipeline.