#pytorch #gpu #nvidia #huggingface-transformers #tesla
#pytorch #графический процессор #nvidia #huggingface-трансформеры #тесла
Вопрос:
Я попытался загрузить модель distilbert в pytorch на 3 разных графических процессорах (GeForce GTX 1080 ti, tesla k80, tesla v100). Согласно профилировщику pytorch cuda, потребление памяти одинаково во всех этих графических процессорах (534 МБ). Но «nvidia-smi» показывает разное потребление памяти для каждого из них (GTX 1080 ti — 1181 МБ, tesla k80 — 898 МБ, tesla v100- 1714 МБ).
Я выбрал v100, надеясь разместить больше процессов из-за дополнительной памяти. Из-за этого я не могу разместить больше процессов в v100 по сравнению с k80.
Версии: Python 3.6.11, transformers == 2.3.0, torch == 1.6.0
Любая помощь будет оценена.
Ниже приведены данные о потреблении памяти графическими процессорами.
—————-GTX 1080ti———————
2020-10-19 02:11:04,147 - CE - INFO - torch.cuda.max_memory_allocated() : 514.33154296875
2020-10-19 02:11:04,147 - CE - INFO - torch.cuda.memory_allocated() : 514.33154296875
2020-10-19 02:11:04,147 - CE - INFO - torch.cuda.memory_reserved() : 534.0
2020-10-19 02:11:04,148 - CE - INFO - torch.cuda.max_memory_reserved() : 534.0
Вывод «nvidia-smi» :
2020-10-19 02:11:04,221 - CE - INFO - | ID | Name | Serial | UUID || GPU temp. | GPU util. | Memory util. || Memory total | Memory used | Memory free || Display mode | Display active |
2020-10-19 02:11:04,222 - CE - INFO - | 0 | GeForce GTX 1080 Ti | [Not Supported] | GPU-58d5d4d3-07a1-81b4-ba67-8d6b46e342fb || 50C | 15% | 11% || 11178MB | 1181MB | 9997MB || Disabled | Disabled |
—————-Tesla k80———————
2020-10-19 12:15:37,030 - CE - INFO - torch.cuda.max_memory_allocated() : 514.33154296875
2020-10-19 12:15:37,031 - CE - INFO - torch.cuda.memory_allocated() : 514.33154296875
2020-10-19 12:15:37,031 - CE - INFO - torch.cuda.memory_reserved() : 534.0
2020-10-19 12:15:37,031 - CE - INFO - torch.cuda.max_memory_reserved() : 534.0
Вывод «nvidia-smi» :
2020-10-19 12:15:37,081 - CE - INFO - | ID | Name | Serial | UUID || GPU temp. | GPU util. | Memory util. || Memory total | Memory used | Memory free || Display mode | Display active |
2020-10-19 12:15:37,081 - CE - INFO - | 0 | Tesla K80 | 0324516191902 | GPU-1e7baee8-174b-2178-7115-cf4a063a8923 || 50C | 3% | 8% || 11441MB | 898MB | 10543MB || Disabled | Disabled |
—————-Tesla v100———————
2020-10-20 08:18:42,952 - CE - INFO - torch.cuda.max_memory_allocated() : 514.33154296875
2020-10-20 08:18:42,952 - CE - INFO - torch.cuda.memory_allocated() : 514.33154296875
2020-10-20 08:18:42,953 - CE - INFO - torch.cuda.memory_reserved() : 534.0
2020-10-20 08:18:42,953 - CE - INFO - torch.cuda.max_memory_reserved() : 534.0
Вывод «nvidia-smi» :
2020-10-20 08:18:43,020 - CE - INFO - | ID | Name | Serial | UUID || GPU temp. | GPU util. | Memory util. || Memory total | Memory used | Memory free || Display mode | Display active |
2020-10-20 08:18:43,020 - CE - INFO - | 0 | Tesla V100-SXM2-16GB | 0323617004258 | GPU-849088a3-508a-1737-7611-75a087f18085 || 29C | 0% | 11% || 16160MB | 1714MB | 14446MB || Enabled | Disabled |