#python #computer-vision #google-colaboratory #semantic-segmentation
#python #компьютерное зрение #google-совместная лаборатория #семантическая сегментация
Вопрос:
Набор данных COCO очень большой, чтобы я мог загрузить его в Google colab. Есть ли какой-либо способ напрямую загрузить набор данных в Google colab?
Комментарии:
1. Привет и добро пожаловать в SO, можете ли вы предоставить более подробную информацию, например, что такое «очень большой» и другие шаги для воспроизведения вашей проблемы. Также может помочь скриншот с более подробной информацией о том, что вы видите
2. Это около 20 ГБ, включая наборы данных train, test и validation. Я хочу напрямую импортировать набор данных из cocodasets.org в мой блокнот Google colab.
Ответ №1:
Вы можете загрузить его напрямую с помощью wget
!wget http://images.cocodataset.org/zips/train2017.zip
Кроме того, вы должны использовать экземпляр GPU, который предоставляет больше места на 350 ГБ.
Комментарии:
1. Мне интересно, почему Google не предлагает эти наборы данных прямо в colab. Они тратят впустую много ресурсов, поскольку этот набор данных, вероятно, загружается в colab несколько тысяч раз в день.
2. @subjord api Google keras имеет предварительно обученную модель, по которой они не беспокоятся
Ответ №2:
Еще одним подходом может быть загрузка только файла аннотаций в Google Colab. Нет необходимости загружать набор данных изображений. Мы будем использовать PyCoco API. Далее, при подготовке изображения вместо доступа к файлу изображения с диска / локальной папки вы можете прочитать файл изображения с URL!
# The normal method. Read from folder / Drive
I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))
# Instead, use this! Url to load image
I = io.imread(img['coco_url'])
Этот метод сэкономит вам много места, времени загрузки и усилий. Однако для извлечения изображений во время обучения вам потребуется рабочее подключение к Интернету (которое, конечно, у вас есть, поскольку вы используете colab).
Если вы заинтересованы в работе с набором данных COCO, вы можете взглянуть на мой пост на medium.
Ответ №3:
Вы можете загрузить его на Google диск, а затем подключить диск к Colab.
from google.colab import drive
drive.mount('/content/drive')
затем вы можете перейти на компакт-диск к папке, содержащей набор данных, например.
import os
os.chdir("drive/My Drive/cocodataset")
Комментарии:
1. сколько места занимает coco? должна ли на drive быть платная подписка?
Ответ №4:
Для дальнейшего использования лучше использовать drive. Также разархивируйте zip-файл с помощью colab ( !unzip ), потому что использование zip extractor на диске занимает больше времени. Я пробовал: D
Ответ №5:
В наши дни самый простой способ загрузить COCO — это использовать инструмент Python, fiftyone
. Это позволяет вам загружать, визуализировать и оценивать набор данных, а также любое подмножество, которое вас интересует.
Он также работает непосредственно в Colab, так что вы можете выполнять весь свой рабочий процесс там.
import fiftyone as fo
import fiftyone.zoo as foz
#
# Only the required images will be downloaded (if necessary).
# By default, only detections are loaded
#
dataset = foz.load_zoo_dataset(
"coco-2017",
splits=["validation","train"],
classes=["person", "car"],
# max_samples=50,
)
# Visualize the dataset in the FiftyOne App
session = fo.launch_app(dataset)