Как можно увеличить максимальное время выполнения в Colab?

#google-colaboratory

#google-совместная лаборатория

Вопрос:

Я использую ColabPro для своей работы по глубокому обучению. В настоящее время ETA для каждой эпохи составляет ~ 26 часов. Я использую следующий код, чтобы избежать отключения в консоли:

 function ClickConnect(){
    console.log("Clicked on connect button"); 
    document.querySelector("colab-connect-button").click()
}setInterval(ClickConnect,60000)  

Этот код поддерживает взаимодействие с окном Colab.
Тем не менее, я хотел бы знать, поможет ли это автоматически переподключиться и запустить код, превышающий 24 часа, т.Е. Максимальное время выполнения ColabPro?

Комментарии:

1. Colab не хочет, чтобы вы работали более 24 часов. Я бы больше беспокоился о вашей модели, 26 часов для эпохи — это серьезно большая модель и набор данных. Если вы действительно не знаете, что делаете, это звучит как проблема. Если вы создаете такие сложные модели, вам следует использовать профессиональную платформу, такую как AWS Sagemaker, и внедрять распределенное обучение на нескольких устройствах. Если вы должны использовать colab, попробуйте распределенное обучение TPU, чтобы сократить время выполнения. tensorflow.org/guide/tpu

2. Итак, вы имеете в виду, что javscript не будет работать, когда время выполнения превысит 24 часа для поддержания потока, и все параметры будут сброшены? Большое спасибо. Я попробую распределенное обучение TPU. Я предполагаю, что другим вариантом может быть сохранение модели каждые n пакетов в течение эпохи? Кроме того, причиной высокого ETA в моем случае является генератор данных, поскольку модель достаточно проста.

3. Это может сработать, я просто думаю, что полагаться на процесс, который подрывает цели Google с помощью Colab, — хороший способ получить ошибки или быть забаненным. Вы должны часто сохранять свою модель, но я бы сохранил ее на вашем Google диске, а не на локальном экземпляре, на случай, если что-то пойдет не так. Вы вообще тестировали эту модель? Это готовая модель? Обучение чему-то большому и непроверенному, чего не делали профессионалы, — это рецепт для потерянного времени обучения.

4. Да, я имел в виду сохранение модели каждые n пакетов на Google Диске. Архитектура модели уже существует.

5. Ваши данные находятся в облаке? Если вы загружаете данные из облака в Colab, это может объяснить, почему это занимает так много времени.