Наборы данных Tensorflow для перевода — как использовать загрузку из руководства WMT14?

#python #tensorflow #translation #tensorflow-datasets

Вопрос:

Я следую руководству здесь: https://www.tensorflow.org/datasets/catalog/wmt14_translate , но я сталкиваюсь с проблемами при попытке загрузить набор данных, в основном загрузка занимает целую вечность. Что касается «загрузки вручную», упомянутой в руководстве по TF, означает ли это, что я должен вручную загрузить ее по ссылкам и поместить их в свою локальную папку tensorflow_datasets? Основываясь на выводе кода, похоже, что он все равно пытается загрузить данные.

Мой код:

 import tensorflow as tf

datasets, metadata = tfds.load('wmt14_translate/de-en', with_info=True,
                               as_supervised=True)
print(metadata)
train_examples, val_examples, test_examples = datasets['train'], datasets['validation'], datasets['test']
 

Ответ №1:

Да, загрузка занимает очень много времени, так как даже набор данных огромен(около 1,5 Гб). И нет, вам не нужно загружать данные вручную, просто подождите, пока код не запустится, и все готово.

P.S. В моем случае мне пришлось запустить

набор данных = tfds.load(«wmt14_translate/de-en», разделение=»тест»,shuffle_files=True)

снова ячейка, чтобы получить все примеры в dataset (2-й прогон не занимает много времени), иначе после первого прогона я получал только одну пару параллельных предложений, идк, почему.