Импорт наборов данных COCO в Google colaboratory

#python #computer-vision #google-colaboratory #semantic-segmentation

#python #компьютерное зрение #google-совместная лаборатория #семантическая сегментация

Вопрос:

Набор данных COCO очень большой, чтобы я мог загрузить его в Google colab. Есть ли какой-либо способ напрямую загрузить набор данных в Google colab?

Комментарии:

1. Привет и добро пожаловать в SO, можете ли вы предоставить более подробную информацию, например, что такое «очень большой» и другие шаги для воспроизведения вашей проблемы. Также может помочь скриншот с более подробной информацией о том, что вы видите

2. Это около 20 ГБ, включая наборы данных train, test и validation. Я хочу напрямую импортировать набор данных из cocodasets.org в мой блокнот Google colab.

Ответ №1:

Вы можете загрузить его напрямую с помощью wget

 !wget http://images.cocodataset.org/zips/train2017.zip
  

Кроме того, вы должны использовать экземпляр GPU, который предоставляет больше места на 350 ГБ.

Комментарии:

1. Мне интересно, почему Google не предлагает эти наборы данных прямо в colab. Они тратят впустую много ресурсов, поскольку этот набор данных, вероятно, загружается в colab несколько тысяч раз в день.

2. @subjord api Google keras имеет предварительно обученную модель, по которой они не беспокоятся

Ответ №2:

Еще одним подходом может быть загрузка только файла аннотаций в Google Colab. Нет необходимости загружать набор данных изображений. Мы будем использовать PyCoco API. Далее, при подготовке изображения вместо доступа к файлу изображения с диска / локальной папки вы можете прочитать файл изображения с URL!

 # The normal method. Read from folder / Drive
I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))

# Instead, use this! Url to load image
I = io.imread(img['coco_url'])
  

Этот метод сэкономит вам много места, времени загрузки и усилий. Однако для извлечения изображений во время обучения вам потребуется рабочее подключение к Интернету (которое, конечно, у вас есть, поскольку вы используете colab).

Если вы заинтересованы в работе с набором данных COCO, вы можете взглянуть на мой пост на medium.

Ответ №3:

Вы можете загрузить его на Google диск, а затем подключить диск к Colab.

 from google.colab import drive
drive.mount('/content/drive')
  

затем вы можете перейти на компакт-диск к папке, содержащей набор данных, например.

 import os
os.chdir("drive/My Drive/cocodataset")
  

введите описание изображения здесь

Комментарии:

1. сколько места занимает coco? должна ли на drive быть платная подписка?

Ответ №4:

Для дальнейшего использования лучше использовать drive. Также разархивируйте zip-файл с помощью colab ( !unzip ), потому что использование zip extractor на диске занимает больше времени. Я пробовал: D

Ответ №5:

В наши дни самый простой способ загрузить COCO — это использовать инструмент Python, fiftyone . Это позволяет вам загружать, визуализировать и оценивать набор данных, а также любое подмножество, которое вас интересует.

Он также работает непосредственно в Colab, так что вы можете выполнять весь свой рабочий процесс там.

 import fiftyone as fo
import fiftyone.zoo as foz

#
# Only the required images will be downloaded (if necessary).
# By default, only detections are loaded
#

dataset = foz.load_zoo_dataset(
    "coco-2017",
    splits=["validation","train"],
    classes=["person", "car"],
    # max_samples=50,
)

# Visualize the dataset in the FiftyOne App
session = fo.launch_app(dataset)
  

введите описание изображения здесь