#python #jupyter #mlflow
Вопрос:
Я очень новичок в использовании mlflow, и в настоящее время у меня возникли некоторые проблемы с его тестированием. Я выполняю следующий код в своем блокноте Jupyter, используя Anaconda:
import mlflow
from hyperopt import hp, fmin, tpe, rand, SparkTrials, STATUS_OK, STATUS_FAIL, space_eval
# replicate input_pd dataframe to workers in Spark cluster
inputs = sc.broadcast(input_pd)
# configure hyperopt settings to distribute to all executors on workers
spark_trials = SparkTrials()
# select optimization algorithm
algo = tpe.suggest
# perform hyperparameter tuning (logging iterations to mlflow)
argmin = fmin(
fn=evaluate_model,
space=search_space,
algo=algo,
max_evals=100,
trials=spark_trials
)
# release the broadcast dataset
inputs.unpersist()
Но я получаю следующую ошибку:
Py4JError: An error occurred while calling o233.maxNumConcurrentTasks. Trace:
py4j.Py4JException: Method maxNumConcurrentTasks([]) does not exist
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:318)
at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:326)
at py4j.Gateway.invoke(Gateway.java:274)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:238)
at java.lang.Thread.run(Unknown Source)
Комментарии:
1. вы используете spark в распределенной установке или на одной машине?
2. Я запускаю его на одной машине.