#machine-learning #deep-learning #nlp #classification #word-embedding
#машинное обучение #глубокое обучение #nlp #классификация #встраивание слова
Вопрос:
Я использую нейронную сеть для классификации элементов на основе выходных векторов встраивания из сети. Расстояние L2 между векторами встраивания используется для вычисления, к какому классу принадлежит элемент. Мой набор данных предоставил мне множество векторов встраивания для каждого класса, порядка 10 000 векторов встраивания для каждого класса, и всего у меня есть 10 классов. Большинство из этих векторов встраивания «перекрываются» в многомерном пространстве и являются избыточными. Какие алгоритмы я могу использовать, чтобы сократить количество встраиваемых векторов таким образом, чтобы я мог получить минимальный жизнеспособный набор векторов, который полностью описывает каждый класс?
Например, 5 векторов встраивания класса может быть достаточно для описания класса, как я могу выбрать 5 наиболее оптимальных и описательных векторов и сократить оставшиеся 9995 (которые в основном перекрываются друг с другом и, следовательно, являются избыточными)?