Как разделить текстовые данные для обучения LSTM

#python #tensorflow #keras #lstm

#python #тензорный поток #keras #lstm

Вопрос:

Я использую Colab Pro TPU, который предлагает до 35 ГБ памяти. Мой набор данных содержит 650 000 последовательностей. Я пытаюсь использовать двунаправленный LSTM для прогнозирования следующего слова.

Когда я пытаюсь сгенерировать вектор binary_class с помощью to_categorical(), он выходит из строя из-за ограничений памяти. Я взял первые 200 тыс. последовательностей, обучил модель, точность почти останавливается на отметке 65%. Прежде чем настраивать гиперпараметры, я хотел передать весь набор данных и обучить модель. Возможно ли разделить набор данных, сгенерировать последовательности, объединить их для обучения?

Ценю любые предложения.

Спасибо.

Комментарии:

1. Используете ли вы TimeDistributed слой где-нибудь?

2. 650 000 предложений, вероятно, должны занимать 100-200 МБ, что ничего не значит. Вы уверены, что это причина сбоя? Сначала я бы попытался уменьшить размер пакета

3. Я попробую размер пакета, но это сбой перед обучением. Его сбой в to_categorical(sequence_arr,vocab_size) .. vocab_size ~ 10k

4. @SusmitAgarwal, нет.какой-нибудь пример?