Как преобразовать фрейм данных в набор данных great_expectations?

#python #pandas #pyspark #great-expectations

#python #панды #pyspark #большие ожидания

Вопрос:

У меня есть фрейм данных pandas или pyspark df , в котором я хочу выполнить ожидание. У меня уже есть мой фрейм данных в памяти. Как я могу преобразовать свой фрейм данных в набор данных great_expectations?

так что я могу сделать, например:

 df.expect_column_to_exist("my_column")
  

Комментарии:

1. Я не уверен, что понимаю, в чем ваша проблема и как вы ее решили…

Ответ №1:

 import great_expectations as ge
  

для pandas:

 df_ge = ge.from_pandas(df)
  

или

 df_ge = ge.dataset.PandasDataset(df)
  

для pyspark:

 df_ge = ge.dataset.SparkDFDataset(df)
  

теперь вы можете выполнить свои ожидания

 df_ge.expect_column_to_exist("my_column")
  

Обратите внимание, что набор SparkDFDataset great_expectations не наследует функции от фрейма данных pyspark. Вы можете получить доступ к исходному фрейму данных pyspark с помощью df_ge.spark_df

Ответ №2:

Смотрите также Документацию / учебное пособие по Большим ожиданиям для альтернативной версии преобразования Pandas DF с использованием ge.from_pandas : https://docs.greatexpectations.io/en/latest/guides/tutorials/explore_expectations_in_a_notebook.html