Подготовка и загрузка данных в распределенном обучении Tensorflow

#python #tensorflow #pipeline

#python #tensorflow #конвейер

Вопрос:

Предположим, что CNN ResNet50 для ImageNet в распределенном обучении с несколькими узлами и предположим, что каждая эпоха должна повторять каждую обучающую выборку по узлам посредством параллелизма данных.

  1. всегда ли гарантируется «повторять каждый образец один и только один раз»? или речь идет о возможности
  2. если это гарантировано, требует ли TF какого-либо координатора, например, node0, для координации между всеми узлами перед каждой мини-партией? например, образцы разделов, например, node0 для загрузки sample1-10K; node2 для загрузки sample10K-20K?
  3. Если да, означает ли это, что для данного узла он всегда загружает одни и те же (или фиксированные) наборы данных / файлы в эпоху 0 … N? хотя фактический порядок выборки на шаге может быть изменен.