#google-colaboratory
#google-совместная лаборатория
Вопрос:
Я использую ColabPro для своей работы по глубокому обучению. В настоящее время ETA для каждой эпохи составляет ~ 26 часов. Я использую следующий код, чтобы избежать отключения в консоли:
function ClickConnect(){
console.log("Clicked on connect button");
document.querySelector("colab-connect-button").click()
}setInterval(ClickConnect,60000)
Этот код поддерживает взаимодействие с окном Colab.
Тем не менее, я хотел бы знать, поможет ли это автоматически переподключиться и запустить код, превышающий 24 часа, т.Е. Максимальное время выполнения ColabPro?
Комментарии:
1. Colab не хочет, чтобы вы работали более 24 часов. Я бы больше беспокоился о вашей модели, 26 часов для эпохи — это серьезно большая модель и набор данных. Если вы действительно не знаете, что делаете, это звучит как проблема. Если вы создаете такие сложные модели, вам следует использовать профессиональную платформу, такую как AWS Sagemaker, и внедрять распределенное обучение на нескольких устройствах. Если вы должны использовать colab, попробуйте распределенное обучение TPU, чтобы сократить время выполнения. tensorflow.org/guide/tpu
2. Итак, вы имеете в виду, что javscript не будет работать, когда время выполнения превысит 24 часа для поддержания потока, и все параметры будут сброшены? Большое спасибо. Я попробую распределенное обучение TPU. Я предполагаю, что другим вариантом может быть сохранение модели каждые n пакетов в течение эпохи? Кроме того, причиной высокого ETA в моем случае является генератор данных, поскольку модель достаточно проста.
3. Это может сработать, я просто думаю, что полагаться на процесс, который подрывает цели Google с помощью Colab, — хороший способ получить ошибки или быть забаненным. Вы должны часто сохранять свою модель, но я бы сохранил ее на вашем Google диске, а не на локальном экземпляре, на случай, если что-то пойдет не так. Вы вообще тестировали эту модель? Это готовая модель? Обучение чему-то большому и непроверенному, чего не делали профессионалы, — это рецепт для потерянного времени обучения.
4. Да, я имел в виду сохранение модели каждые n пакетов на Google Диске. Архитектура модели уже существует.
5. Ваши данные находятся в облаке? Если вы загружаете данные из облака в Colab, это может объяснить, почему это занимает так много времени.