Недостаточно ресурсов кластера для запуска пробной версии — имеет только 0 графических процессоров

#python #pytorch #ray #ray-tune

#python #pytorch #ray #настройка луча

Вопрос:

Я следую этому руководству (которое в основном таково), чтобы использовать ray tune для оптимизации гиперпареметра. Моя модель отлично обучается на графическом процессоре без оптимизации, но теперь я хочу оптимизировать.

Я применил учебное пособие к своему коду, но когда я пытаюсь запустить это:

 result = tune.run(
    train,
    resources_per_trial={"gpu": 1},
    config=config,
    num_samples=10,
    scheduler=scheduler,
    progress_reporter=reporter,
    checkpoint_at_end=False,
)
 

Я застрял с:

TuneError: недостаточно ресурсов кластера для запуска пробной версии: для пробной версии запрошено 1 процессор, 1 графический процессор, но в кластере всего 6 процессоров, 0 графических процессоров, куча 12,74 гигабайт, объекты 4,39 гигабайт (узел 1.0: XXX).

Но опять же, когда я смотрю на панель управления ray:

ray dashboard

в списке явно указаны оба графических процессора.

Почему ray tune не видит мои графические процессоры? Как мне заставить это работать?

Технические характеристики:

 GPU 0: TITAN Xp
GPU 1: GeForce GTX 1080 Ti
CUDA 10.1
Python 3.7
PyTorch 1.7
Debian 9.12
ray tune 1.0.1.post1
 

// редактировать:

 ray.init(num_gpus=1)
ray.get_gpu_ids()
 

[]

Комментарии:

1. Попробуйте запустить ray на терминале с ray start --head помощью, а затем в вашем скрипте python используйте ray.init(address='auto')