Как использовать универсальный кодировщик предложений для определения сходства классов?

#python #nlp #similarity #multiclass-classification #sentence-similarity

Вопрос:

Я хотел бы создать измерение сходства на уровне класса для набора данных AG-NEWS (ссылка на набор данных). Поскольку этот набор данных имеет четыре класса: Мир (0), Спорт (1), Бизнес (2), Наука/техника (3), я хотел бы получить матрицу 4×4 с показателями сходства между классами в этом наборе данных.

Я видел много примеров реализации универсального кодировщика предложений на уровне предложений, как в этом: базовый пример. Однако я не смог найти ни одного примера проблемы, которую я хотел бы решить. Может ли кто-нибудь помочь с этим?

Комментарии:

1. Я рекомендую использовать Doc2Vec методы для решения проблемы!

2. @meti Привет, спасибо. Почему Doc2Vec был бы лучшим решением, чем ИСПОЛЬЗОВАНИЕ?

3. Использование предложений в качестве единицы встраивания создает новые проблемы в вашем рабочем процессе. На мой взгляд, есть небольшой шанс, что вы сможете объединить вложения предложений оптимальным способом для векторизации всего документа. Но архитектуры doc2vec обучаются этому, используя сотни нейронов.