#pandas #apache-spark #pyspark #mlflow
#панды #apache-искра #пыспарк #mlflow
Вопрос:
Я использую spark 3.2 для загрузки модели для прогнозирования вероятности, и, похоже, она работает неправильно, не могу понять, почему.
# Load data in spark psdf = df.to_pandas_on_spark() model = mlflow.sklearn.load_model('s3://bucket/r1_mlflow/') res = model.predict_proba(psdf) ValueError: Expected 2D array, got 1D array instead: array=['col1' 'col2' 'col3' 'col4' 'col5'] Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
Связано ли это с тем , что psdf является a pyspark.pandas.frame.DataFrame
вместо a pandas.core.frame.DataFrame
, или я делаю здесь что-то еще не так?
Комментарии:
1. можете ли вы показать нам, как
psdf
это выглядит?
Ответ №1:
склирн не понимает фреймов данных Spark. Почему бы просто не отправить ему фрейм данных Pandas, который он понимает?