#python #tensorflow #pipeline
#python #tensorflow #конвейер
Вопрос:
Предположим, что CNN ResNet50 для ImageNet в распределенном обучении с несколькими узлами и предположим, что каждая эпоха должна повторять каждую обучающую выборку по узлам посредством параллелизма данных.
- всегда ли гарантируется «повторять каждый образец один и только один раз»? или речь идет о возможности
- если это гарантировано, требует ли TF какого-либо координатора, например, node0, для координации между всеми узлами перед каждой мини-партией? например, образцы разделов, например, node0 для загрузки sample1-10K; node2 для загрузки sample10K-20K?
- Если да, означает ли это, что для данного узла он всегда загружает одни и те же (или фиксированные) наборы данных / файлы в эпоху 0 … N? хотя фактический порядок выборки на шаге может быть изменен.