Как сгенерировать "векторы" во входном слое для классификации текста?

#vector #keras #lstm

#вектор #keras #lstm

Вопрос:

Я думал об использовании Keras для реализации задачи классификации документов, но ввод уровня LSTM сбивает меня с толку.

Я знаю, что мне нужно сгенерировать векторы для обучения, у меня есть корпус и один документ на строку в этом корпусе, если я хочу передать корпус в слой LSTM, нужно ли мне сначала сгенерировать векторы документов из корпуса для обучения? Или вместо использования векторов на уровне слов или векторов на уровне символов?

1. Пожалуйста, будьте немного конкретнее. Можете ли вы показать нам, как выглядят ваши данные? Что вы хотите смоделировать? Этот вопрос немного расплывчатый.

2. @nemo, мои данные выглядят так: название литературы, аннотация литературы. Моя цель — подготовить заголовок и соответствующий реферат вместе. Я думал использовать сиамскую сеть для обучения.

Ответ №1:

В задаче классификации документов, если вы используете LSTM, выходные данные обычно представляют собой векторы на уровне слов, которые могут быть либо предварительно обучены, либо инициализированы случайным образом. Вы можете комбинировать векторы уровня слов с векторами уровня символов, например https://arxiv.org/abs/1606.03475

1. Спасибо, Франк, но я немного смущен выводом, почему это будут векторы на уровне слов? Эти векторы означают вероятность «класса»? Или просто сгенерировать векторы слов?