Решено: на устройстве БАЗОВОГО УРОВНЯ Google Cloudml не осталось места. Каков размер диска каждого уровня в cloudml?

#google-cloud-ml

#google-cloud-ml

Вопрос:

При обучении моей модели для данных объемом более 20 ГБ на базовом уровне в Cloud ML мои задания терпят неудачу, потому что на компьютерах Cloudml нет свободного места, и я не могу найти какие-либо подробности в документации gcloud ml [https://cloud.google.com/ml-engine/docs/tensorflow/machine-types ].

Нужна помощь в выборе уровня для моих учебных заданий, также использование очень мало в графиках сведений о работе.

 Expand all | Collapse all {
insertId:  "1klpt2"  
jsonPayload: {
created:  1554434546.3576794   
levelname:  "ERROR"   
lineno:  51   
message:  "Failed to train : [Errno 28] No space left on device"   
pathname:  "/root/.local/lib/python3.5/site- 
packages/loggerwrapper.py"   
}
labels: {
compute.googleapis.com/resource_id:  ""   
compute.googleapis.com/resource_name:  "cmle-training- 
10361805218452604847"   
compute.googleapis.com/zone:  ""   
ml.googleapis.com/job_id/log_area:  "root"   
ml.googleapis.com/trial_id:  ""   
}
logName:  "projects/backend/logs/master-replica-0"  
receiveTimestamp:  "2019-03-31T12:32:30.07683Z"  
resource: {
labels: {
job_id:  ""    
project_id:  "backend"    
task_name:  "master-replica-0"    
}
type:  "ml_job"   
}
severity:  "ERROR"  
timestamp:  "2019-03-31T12:32:26.357679367Z"   
}
  

Комментарии:

1. Все машины поставляются с диском ~ 100 ГБ. Не могли бы вы попробовать удалить кэш или старые файлы, пожалуйста?

Ответ №1:

Решено: эта ошибка возникла не из-за места на диске, а из-за TMFS с общей памятью. Sklearn fit потреблял всю общую память во время обучения. Решение: установка переменной среды JOBLIB_TEMP_FOLDER в /tmp решила проблему.