#python #pandas #pyspark #great-expectations
#python #панды #pyspark #большие ожидания
Вопрос:
У меня есть фрейм данных pandas или pyspark df
, в котором я хочу выполнить ожидание. У меня уже есть мой фрейм данных в памяти. Как я могу преобразовать свой фрейм данных в набор данных great_expectations?
так что я могу сделать, например:
df.expect_column_to_exist("my_column")
Комментарии:
1. Я не уверен, что понимаю, в чем ваша проблема и как вы ее решили…
Ответ №1:
import great_expectations as ge
для pandas:
df_ge = ge.from_pandas(df)
или
df_ge = ge.dataset.PandasDataset(df)
для pyspark:
df_ge = ge.dataset.SparkDFDataset(df)
теперь вы можете выполнить свои ожидания
df_ge.expect_column_to_exist("my_column")
Обратите внимание, что набор SparkDFDataset great_expectations не наследует функции от фрейма данных pyspark. Вы можете получить доступ к исходному фрейму данных pyspark с помощью
df_ge.spark_df
Ответ №2:
Смотрите также Документацию / учебное пособие по Большим ожиданиям для альтернативной версии преобразования Pandas DF с использованием ge.from_pandas
: https://docs.greatexpectations.io/en/latest/guides/tutorials/explore_expectations_in_a_notebook.html