#python #nlp #similarity #multiclass-classification #sentence-similarity
Вопрос:
Я хотел бы создать измерение сходства на уровне класса для набора данных AG-NEWS (ссылка на набор данных). Поскольку этот набор данных имеет четыре класса: Мир (0), Спорт (1), Бизнес (2), Наука/техника (3), я хотел бы получить матрицу 4×4 с показателями сходства между классами в этом наборе данных.
Я видел много примеров реализации универсального кодировщика предложений на уровне предложений, как в этом: базовый пример. Однако я не смог найти ни одного примера проблемы, которую я хотел бы решить. Может ли кто-нибудь помочь с этим?
Комментарии:
1. Я рекомендую использовать
Doc2Vec
методы для решения проблемы!2. @meti Привет, спасибо. Почему Doc2Vec был бы лучшим решением, чем ИСПОЛЬЗОВАНИЕ?
3. Использование предложений в качестве единицы встраивания создает новые проблемы в вашем рабочем процессе. На мой взгляд, есть небольшой шанс, что вы сможете объединить вложения предложений оптимальным способом для векторизации всего документа. Но архитектуры doc2vec обучаются этому, используя сотни нейронов.