#python #arrays #word2vec #text-classification #imbalanced-data
Вопрос:
У меня есть несбалансированный набор данных классификации текста, и я использовал векторы слов (word2vec) для встраивания текста. Итак, результатом вектора слов является массив. Следующее условие: у меня есть переменная X для массива векторов слов и переменная Y для класса/цели векторов слов. Если я использую технику для обработки несбалансированного набора данных классификации, можно ли также обрабатывать массив векторов слов? Или добавленные данные / удаленные данные с несбалансированной техникой обработки данных создают неправильный массив? Потому что метод обработки несбалансированного набора данных просто добавляет/удаляет данные на основе метки/цели массива word vector.
Я пробовал, и эти проблемы не приводят к каким-либо ошибкам, но моя точность моделей не может показать лучшую из них. Я не знаю, имеет это отношение или нет.
Может ли кто-нибудь помочь мне в объяснении?
Комментарии:
1. Пожалуйста, задавайте непрограммные вопросы, подобные этому, на datascience.stackexchange.com . В общем случае не рекомендуется применять какие-либо методы пересчета с текстовыми данными, вероятно, вам следует сохранить исходные пропорции данных.
2. Спасибо вам за вашу помощь @Erwan
3. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.