что-то не так в пользовательском классе набора данных pytorch для файлов .h5

#python #pytorch #h5py #dataloader

#python #pytorch #h5py #загрузчик данных

Вопрос:

 class HDF5Dataset(torch.utils.data.Dataset):

    def __setup_files(self):
        files = glob.glob(os.path.join(self.dir_path,'**/*.h5'))
        return files

    def __init__(self, dir_path, IMG_SIZE):
        self.dir_path = dir_path
        self.IMG_SIZE = IMG_SIZE
        self.files = self.__setup_files()
        self.length = len(self.files)
        self.transform = transforms.Compose([
        transforms.Resize((IMG_SIZE, IMG_SIZE)),
        transforms.RandomHorizontalFlip(p=0.5),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
    ])

    def __getitem__(self, idx):
        record = self.files[idx]
        h5 = h5py.File(record , 'r')
        image = h5['data'].value
        label = h5['label'].value
        h5.close()
        image = np.asarray(image)
        image = Image.fromarray(image.astype('uint8'), 'RGB')

        return self.transform(image), label

    def __len__(self):
        return self.length
  

это мой пользовательский класс набора данных, и я пытаюсь рекурсивно загрузить все файлы h5 в каталог.

Я думаю, что что-то не так в def getitem, но я не уверен, что именно.

когда я пытаюсь загрузить с помощью этого

 dataloaders['train'] = torch.utils.data.DataLoader(datasets['train'],
                                              batch_size=batch_size, shuffle=True, pin_memory=True, 
                                              num_workers=12)
  

и этот код,

 inputs, classes = next(iter(dataloaders['train']))
  

выдает ошибку типа:

 TypeError: Caught TypeError in DataLoader worker process 0.
Original Traceback (most recent call last):
  File "/usr/local/lib/python3.5/dist-packages/torch/utils/data/_utils/worker.py", line 178, in _worker_loop
    data = fetcher.fetch(index)
  File "/usr/local/lib/python3.5/dist-packages/torch/utils/data/_utils/fetch.py", line 47, in fetch
    return self.collate_fn(data)
  File "/usr/local/lib/python3.5/dist-packages/torch/utils/data/_utils/collate.py", line 79, in default_collate
    return [default_collate(samples) for samples in transposed]
  File "/usr/local/lib/python3.5/dist-packages/torch/utils/data/_utils/collate.py", line 79, in <listcomp>
    return [default_collate(samples) for samples in transposed]
  File "/usr/local/lib/python3.5/dist-packages/torch/utils/data/_utils/collate.py", line 62, in default_collate
    raise TypeError(default_collate_err_msg_format.format(elem.dtype))
TypeError: default_collate: batch must contain tensors, numpy arrays, numbers, dicts or lists; found object
  

Я хотел бы точно знать, как создать пользовательский набор данных для файлов h5 в pytorch и как их загрузить.

Спасибо!