Ошибка Kubeflow при обработке большого входного файла: Узлу не хватало ресурсов: эфемерное хранилище

#kubeflow-pipelines

Вопрос:

В Kubeflow — Когда размер входного файла действительно большой (60 ГБ), я получаю «Узлу не хватало ресурсов: эфемерное хранилище». Похоже, что kubeflow использует папку /tmp для хранения файлов. У меня возникли следующие вопросы:

  • Каков наилучший способ обмена действительно большими файлами? Как избежать проблемы с эфемерным хранением?
  • Будут ли все файлы InputPath и OutputPath храниться в экземпляре MinIO Kubeflow? Если да, то как мы можем удалить данные из MinIO?
  • Когда данные передаются от одного этапа рабочего процесса к следующему, загружает ли Kubeflow файл из MinIO, копирует его в папку /tmp и передает путь ввода функции?
  • Есть ли лучший способ передать фрейм данных pandas между различными этапами рабочего процесса? В настоящее время я экспортирую фрейм данных pandas в формате CSV в путь вывода операции и перезагружаю фрейм данных pandas из пути ввода на следующем этапе.
  • Есть ли способ использовать другой том для обмена файлами, чем использование эфемерного хранилища? Если да, то как я могу его настроить?
    import pandas as pd 
   print("text_path:", text_path)
   pd_df = pd.read_csv(text_path)
   print(pd_df)
   with open(text_path, 'r') as reader:
       for line in reader:
           print(line, end = '')