загрузка мультимодальных данных с помощью pytorch

#pytorch

#pytorch

Вопрос:

Я пытаюсь загрузить мультимодальные данные (например, текст и изображение) в pytorch для классификации изображений. Я не знаю, как загружать их одновременно, как в следующем коде.

  def __init__(self, img_path, txt_path, transform=None, loader=default_loader):

def __len__(self):
    return len(self.img_name)

def __getitem__(self, item):
  

Кто-нибудь может мне помочь?

Ответ №1:

В __getitem__ вы можете использовать словарь или кортеж для представления одной выборки ваших данных. Позже, во время обучения, когда вы создадите средство загрузки данных с использованием dataset, pytorch автоматически создаст пакеты диктонаров или кортежей.

Если вы хотите создавать образцы гораздо более необычным способом, проверьте collate_fn в pytorch.

Ответ №2:

Метод getitem(self, item) поможет вам сделать это.

Например:

 def __getitem__(self, item):  # item can be thought as an index
    
    text = textList[item]  # textList would be a list containing the text you want to input into the model for element 'item'
    img = imgList[item]  # imgList would be a list containing the images you want to input into the model for element 'item'
   
    input = [text, img]  
    y = labels[item]  # labels would be a list containing the label for the input of the text and img. This is your target.
    
    return input, y
  

Комментарии:

1. Спасибо за ваш ответ. Я попробую это.