какие функции полезно извлекать из текста для вычисления идентификации автора

#python #pandas #classification

#python #pandas #классификация

Вопрос:

Я хочу классифицировать тексты как их авторов для задачи идентификации автора …
функциями могут быть:
длина текста автора
или лексические особенности текста автора… есть ли кто-нибудь, кто может помочь в том, какие функции могут помочь улучшить результаты классификации? образец фрейма данных, который я собрал, выглядит следующим образом…
введите описание изображения здесь

длина текста составляет 4 предложения, и у меня как минимум 18 авторов, о классификации, эта задача — моя диссертация, и я не могу «просто» применить классификацию к тексту, цель состоит в том, чтобы применить классификацию к функциям, которые извлекаются из текста… Я хочу знать, какие функции могут помочь мне повысить точность классификации…(с использованием обоих подходов mo или нейронных сетей

Ответ №1:

Какой длины ваши тексты? Вы можете попробовать получить tf-idfs для каждого документа, а затем выполнить поиск knn по вашему набору данных. Более сложный способ — придать вашим текстам нейронную сеть, а затем выполнить knn, используя эти векторы. Если ваш набор данных достаточно большой, авторов не так много, и для каждого автора есть несколько текстов, вы можете попробовать настроить нейронную сеть для классификации ваших текстов. Но я бы выбрал knn поверх функций нейронной сети.

Комментарии:

1. длина текста составляет 4 предложения, и у меня как минимум 18 авторов, о классификации, эта задача — моя диссертация, и я не могу «просто» применить классификацию к тексту, цель состоит в том, чтобы применить классификацию к функциям, которые извлекаются из текста… Я хочу знать, какие функции могут помочь мне повысить точность классификации… (как с помощью mo, так и с помощью нейронных сетей …)

2. Я бы выбрал извлечение функций с помощью transformer. Вы можете взглянуть на библиотеку hugging face transformers, которая позволяет вам кодировать текст в фиксированный вектор 🙂