#kubeflow-pipelines
Вопрос:
В Kubeflow — Когда размер входного файла действительно большой (60 ГБ), я получаю «Узлу не хватало ресурсов: эфемерное хранилище». Похоже, что kubeflow использует папку /tmp для хранения файлов. У меня возникли следующие вопросы:
- Каков наилучший способ обмена действительно большими файлами? Как избежать проблемы с эфемерным хранением?
- Будут ли все файлы InputPath и OutputPath храниться в экземпляре MinIO Kubeflow? Если да, то как мы можем удалить данные из MinIO?
- Когда данные передаются от одного этапа рабочего процесса к следующему, загружает ли Kubeflow файл из MinIO, копирует его в папку /tmp и передает путь ввода функции?
- Есть ли лучший способ передать фрейм данных pandas между различными этапами рабочего процесса? В настоящее время я экспортирую фрейм данных pandas в формате CSV в путь вывода операции и перезагружаю фрейм данных pandas из пути ввода на следующем этапе.
- Есть ли способ использовать другой том для обмена файлами, чем использование эфемерного хранилища? Если да, то как я могу его настроить?
import pandas as pd
print("text_path:", text_path)
pd_df = pd.read_csv(text_path)
print(pd_df)
with open(text_path, 'r') as reader:
for line in reader:
print(line, end = '')