#python #pandas #classification
#python #pandas #классификация
Вопрос:
Я хочу классифицировать тексты как их авторов для задачи идентификации автора …
функциями могут быть:
длина текста автора
или лексические особенности текста автора… есть ли кто-нибудь, кто может помочь в том, какие функции могут помочь улучшить результаты классификации? образец фрейма данных, который я собрал, выглядит следующим образом…
длина текста составляет 4 предложения, и у меня как минимум 18 авторов, о классификации, эта задача — моя диссертация, и я не могу «просто» применить классификацию к тексту, цель состоит в том, чтобы применить классификацию к функциям, которые извлекаются из текста… Я хочу знать, какие функции могут помочь мне повысить точность классификации…(с использованием обоих подходов mo или нейронных сетей
Ответ №1:
Какой длины ваши тексты? Вы можете попробовать получить tf-idfs для каждого документа, а затем выполнить поиск knn по вашему набору данных. Более сложный способ — придать вашим текстам нейронную сеть, а затем выполнить knn, используя эти векторы. Если ваш набор данных достаточно большой, авторов не так много, и для каждого автора есть несколько текстов, вы можете попробовать настроить нейронную сеть для классификации ваших текстов. Но я бы выбрал knn поверх функций нейронной сети.
Комментарии:
1. длина текста составляет 4 предложения, и у меня как минимум 18 авторов, о классификации, эта задача — моя диссертация, и я не могу «просто» применить классификацию к тексту, цель состоит в том, чтобы применить классификацию к функциям, которые извлекаются из текста… Я хочу знать, какие функции могут помочь мне повысить точность классификации… (как с помощью mo, так и с помощью нейронных сетей …)
2. Я бы выбрал извлечение функций с помощью transformer. Вы можете взглянуть на библиотеку hugging face transformers, которая позволяет вам кодировать текст в фиксированный вектор 🙂