#apache-spark #metadata #pipeline #apache-spark-mllib
Вопрос:
По умолчанию конвейер Spark MLlib имеет один параметр: stages
. Механизм параметров вводится в Pipeline
класс из Params
признака (через абстракцию PipelineStage
). Теоретически, должна быть возможность задавать дополнительные параметры с помощью Pipeline.set(String name, String value)
, но это работает только для параметров, которые уже известны объекту конвейера. В противном случае возникает исключение, например, для
pipeline.set("Hello", "World!")
вы бы получили
java.util.NoSuchElementException: Param Hello does not exist.
Есть ли другой способ задать пользовательские параметры в конвейере Spark, которые также экспортируются при сохранении обученного конвейера? Я хотел бы использовать это для управления версиями обученных моделей ML и хранения других метаданных, предпочтительно без необходимости создавать дополнительную оболочку вокруг объекта Spark pipeline.