В Kedro, как получить промежуточный набор данных в конвейере?

#kedro

#kedro

Вопрос:

Я работаю над своим конвейером и тестирую его вручную на jupyter notebook.

Вот моя ситуация.

Я хотел получить из него example_train и example_valid , поэтому я написал вот так.

context.pipeline.to_outputs("example_train", "example_valid")

и передал этот другой конвейер в SequencialRunner, и я получил их.

пример конвейера

И я также хотел total_steps , поэтому я изменил строку следующим образом.

context.pipeline.to_outputs("example_train", "example_valid", "total_steps")

но результат не содержал exampe_train . Да, я понял, example_train это не был результат этого модифицированного конвейера, поэтому он не содержал.

введите описание изображения здесь

Есть ли способ получить промежуточный набор данных, подобный этой ситуации?

Ответ №1:

Вы можете определить каждый из этих наборов данных в каталоге данных в catalog.yml и определить, где они должны храниться.

Так, например:

 example_train:
  type: pandas.CSVDataSet
  filepath: data/02_intermediate/example_train.csv
  

Для получения дополнительной информации о том, как использовать каталог данных, смотрите: https://kedro.readthedocs.io/en/stable/05_data/01_data_catalog.html#using-the-data-catalog-within-kedro-configuration

Комментарии:

1. спасибо за ваш ответ, но это не стоит для отладки. моя цель — не сохранить промежуточный набор данных, а получить доступ к этим промежуточным объектам через jupyter notebook.