#python #jupyter-notebook #data-pipeline #kedro
#python #jupyter-записная книжка #конвейер данных #kedro
Вопрос:
Как я могу использовать записную книжку Jupyter в качестве узла в конвейере Kedro? Это отличается от преобразования функций из записных книжек Jupyter в узлы Kedro. Что я хочу сделать, так это использовать полную записную книжку в качестве узла.
Ответ №1:
Хотя это технически возможно (например, с помощью nbconvert), это настоятельно не рекомендуется по нескольким причинам, включая отсутствие возможности тестирования и воспроизводимости ноутбуков среди прочего.
Обычно рекомендуется сохранять функции вашего конвейерного узла чистыми (где это применимо), что означает, что они не вызывают никаких побочных эффектов. Способ работы ноутбуков обычно противоречит этому принципу.
Ответ №2:
AFAIK Kedro не поддерживает это, но Ploomber поддерживает (отказ от ответственности: Я автор). Задачами могут быть записные книжки, скрипты, функции или любая их комбинация. Вы можете запускать локально, Airflow или Kubernetes (используя рабочие процессы Argo).
При использовании записной книжки или скрипта в качестве задачи конвейера Ploomber создает копию при каждом запуске конвейера. Например, вы можете создавать функции для предварительной обработки ваших данных и добавлять конечную задачу, которая обучает модель в записной книжке, таким образом, вы можете использовать формат ipynb для создания отчетов для вашей процедуры обучения модели.
Вот как выглядит объявление конвейера:
tasks:
- source: notebook.ipynb
product:
nb: output.html
data: output.csv
- source: another.ipynb
product:
nb: another.html
data: another.csv
Ресурсы: