Как создать правильные текстовые файлы для tensorflow?

#python #tensorflow #text-processing

Вопрос:

Tensorflow не может найти текстовые файлы, созданные из фрейма данных. Приведенный ниже код выдает мне ошибку:

 ---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-8-d5b632e1e805> in <module>
      2 seed = 123
      3 
----> 4 train_ds = tf.keras.preprocessing.text_dataset_from_directory(directory='data_tf/train', batch_size=batch_size, validation_split=0.2,subset='training', seed=seed,label_mode='binary',labels=[0,1])
      5 
      6 val_ds = tf.keras.preprocessing.text_dataset_from_directory(directory='data_tf/train', batch_size=batch_size, validation_split=0.2,subset='validation', seed=seed,labels=[0,1],label_mode='binary')

~/my_repo//venv/lib64/python3.7/site-packages/tensorflow/python/keras/preprocessing/text_dataset.py in text_dataset_from_directory(directory, labels, label_mode, class_names, batch_size, max_length, shuffle, seed, validation_split, subset, follow_links)
    155       file_paths, labels, validation_split, subset)
    156   if not file_paths:
--> 157     raise ValueError('No text files found.')
    158 
    159   dataset = paths_and_labels_to_dataset(

ValueError: No text files found.
 

но также отображает это перед сбоем Found 2 files belonging to 2 classes. Using 2 files for training.

 train_ds = tf.keras.preprocessing.text_dataset_from_directory(directory='data_tf/train', batch_size=batch_size, validation_split=0.2,subset='training', seed=seed,label_mode='binary',labels=[0,1])`
 

Структура папок правильная и выглядит следующим образом:
data_tf > поезд >> 0 >>> neg.txt / data_tf >>>> поезд >>>>> 1 >>>>>> pos.txt

Я создал текстовые файлы с помощью to_csv() функции : pos_df.to_csv(r'data_tf/train/1/pos.txt', header=None, index=None, sep=' ', mode='a') .

Должен ли я создавать текстовые файлы другим методом, чтобы они были приняты tensorflow? Спасибо.

Комментарии:

1. всегда помещайте полное сообщение об ошибке (начинающееся со слова «Обратная связь») в вопрос (не комментарий) в виде текста (не скриншот, не ссылка на внешний портал). Есть и другая полезная информация.

Ответ №1:

Вам нужно минимум два текстовых файла в каждом каталоге, иначе это не сработает.

введите описание изображения здесь