#python #deep-learning #nlp #text-classification #bert-language-model
#python #глубокое обучение #nlp #текст-классификация #bert-language-model
Вопрос:
Я пытаюсь создать многоклассовый классификатор для определения тем сообщений в Facebook от группы членов парламента.
Я использую SimpleTransformers для создания модели классификации на основе XML-RoBERTa. Есть ли какой-либо способ добавить слой встраивания с метаданными для улучшения классификатора? (Например, добавление политической партии в каждое сообщение Facebook вместе с самим текстом.)
Ответ №1:
Если у вас много обучающих данных, я бы предложил добавить метаданные во входную строку (возможно, разделенную [SEP]
как другое предложение) и просто обучить классификацию. Модель, безусловно, достаточно сильна, чтобы узнать, как метаданные взаимодействуют с входным предложением, учитывая, что у вас достаточно обучающих примеров (я предполагаю, что десятков тысяч может быть достаточно).
Если у вас недостаточно данных, я бы предложил запустить XLM-RoBERTa только для получения объектов, независимого встраивания ваших метаданных, объединения объектов и классификации с использованием многослойного персептрона. Вероятно, это невыполнимые простые преобразователи, но это должно быть довольно легко с помощью трансформаторов Huggingface, если вы пишете код классификации непосредственно в PyTorch.