Могу ли я добавить слой метаданных в модель классификации текста?

#python #deep-learning #nlp #text-classification #bert-language-model

#python #глубокое обучение #nlp #текст-классификация #bert-language-model

Вопрос:

Я пытаюсь создать многоклассовый классификатор для определения тем сообщений в Facebook от группы членов парламента.

Я использую SimpleTransformers для создания модели классификации на основе XML-RoBERTa. Есть ли какой-либо способ добавить слой встраивания с метаданными для улучшения классификатора? (Например, добавление политической партии в каждое сообщение Facebook вместе с самим текстом.)

Ответ №1:

Если у вас много обучающих данных, я бы предложил добавить метаданные во входную строку (возможно, разделенную [SEP] как другое предложение) и просто обучить классификацию. Модель, безусловно, достаточно сильна, чтобы узнать, как метаданные взаимодействуют с входным предложением, учитывая, что у вас достаточно обучающих примеров (я предполагаю, что десятков тысяч может быть достаточно).

Если у вас недостаточно данных, я бы предложил запустить XLM-RoBERTa только для получения объектов, независимого встраивания ваших метаданных, объединения объектов и классификации с использованием многослойного персептрона. Вероятно, это невыполнимые простые преобразователи, но это должно быть довольно легко с помощью трансформаторов Huggingface, если вы пишете код классификации непосредственно в PyTorch.