#google-cloud-ml
#google-cloud-ml
Вопрос:
При обучении моей модели для данных объемом более 20 ГБ на базовом уровне в Cloud ML мои задания терпят неудачу, потому что на компьютерах Cloudml нет свободного места, и я не могу найти какие-либо подробности в документации gcloud ml [https://cloud.google.com/ml-engine/docs/tensorflow/machine-types ].
Нужна помощь в выборе уровня для моих учебных заданий, также использование очень мало в графиках сведений о работе.
Expand all | Collapse all {
insertId: "1klpt2"
jsonPayload: {
created: 1554434546.3576794
levelname: "ERROR"
lineno: 51
message: "Failed to train : [Errno 28] No space left on device"
pathname: "/root/.local/lib/python3.5/site-
packages/loggerwrapper.py"
}
labels: {
compute.googleapis.com/resource_id: ""
compute.googleapis.com/resource_name: "cmle-training-
10361805218452604847"
compute.googleapis.com/zone: ""
ml.googleapis.com/job_id/log_area: "root"
ml.googleapis.com/trial_id: ""
}
logName: "projects/backend/logs/master-replica-0"
receiveTimestamp: "2019-03-31T12:32:30.07683Z"
resource: {
labels: {
job_id: ""
project_id: "backend"
task_name: "master-replica-0"
}
type: "ml_job"
}
severity: "ERROR"
timestamp: "2019-03-31T12:32:26.357679367Z"
}
Комментарии:
1. Все машины поставляются с диском ~ 100 ГБ. Не могли бы вы попробовать удалить кэш или старые файлы, пожалуйста?
Ответ №1:
Решено: эта ошибка возникла не из-за места на диске, а из-за TMFS с общей памятью. Sklearn fit потреблял всю общую память во время обучения. Решение: установка переменной среды JOBLIB_TEMP_FOLDER в /tmp решила проблему.