Можно ли обрабатывать массив векторов слов, если использовать несбалансированные методы обработки данных?

#python #arrays #word2vec #text-classification #imbalanced-data

Вопрос:

У меня есть несбалансированный набор данных классификации текста, и я использовал векторы слов (word2vec) для встраивания текста. Итак, результатом вектора слов является массив. Следующее условие: у меня есть переменная X для массива векторов слов и переменная Y для класса/цели векторов слов. Если я использую технику для обработки несбалансированного набора данных классификации, можно ли также обрабатывать массив векторов слов? Или добавленные данные / удаленные данные с несбалансированной техникой обработки данных создают неправильный массив? Потому что метод обработки несбалансированного набора данных просто добавляет/удаляет данные на основе метки/цели массива word vector.

Я пробовал, и эти проблемы не приводят к каким-либо ошибкам, но моя точность моделей не может показать лучшую из них. Я не знаю, имеет это отношение или нет.

Может ли кто-нибудь помочь мне в объяснении?

1. Пожалуйста, задавайте непрограммные вопросы, подобные этому, на datascience.stackexchange.com . В общем случае не рекомендуется применять какие-либо методы пересчета с текстовыми данными, вероятно, вам следует сохранить исходные пропорции данных.

2. Спасибо вам за вашу помощь @Erwan

3. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.

Вопрос:

Комментарии:

Вам также может понравиться

Синтаксический анализ — получение идентификатора объекта со значением

Фильтровать XML-файл с помощью Javascript

d3.js Распределение пузырьков в соответствии с размерами контейнера