Искра 3.2.0 Применение модели

#pandas #apache-spark #pyspark #mlflow

#панды #apache-искра #пыспарк #mlflow

Вопрос:

Я использую spark 3.2 для загрузки модели для прогнозирования вероятности, и, похоже, она работает неправильно, не могу понять, почему.

 # Load data in spark psdf = df.to_pandas_on_spark() model = mlflow.sklearn.load_model('s3://bucket/r1_mlflow/') res = model.predict_proba(psdf)  ValueError: Expected 2D array, got 1D array instead: array=['col1' 'col2' 'col3' 'col4' 'col5'] Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.  

Связано ли это с тем , что psdf является a pyspark.pandas.frame.DataFrame вместо a pandas.core.frame.DataFrame , или я делаю здесь что-то еще не так?

Комментарии:

1. можете ли вы показать нам, как psdf это выглядит?

Ответ №1:

склирн не понимает фреймов данных Spark. Почему бы просто не отправить ему фрейм данных Pandas, который он понимает?