Классификация текстов без машинного обучения, глубокое обучение

#python #nlp #text-classification

Вопрос:

Я хочу создать текстовый классификатор. Но без использования какого-либо найденного алгоритма классификации.Может быть, я буду использовать данные Twitter для классификации. Поэтому я должен как-то классифицировать без набора обучающих данных. На данный момент я подумываю об использовании частот слов для классификации.Я не могу найти ни одного проекта, который соответствовал бы моим мыслям. Мне нужен любой проект или статья, можете ли вы мне помочь

Комментарии:

1. Я думаю, что в вашей цели есть некоторая путаница: во-первых, использование частот слов для классификации довольно распространено, но это не связано с алгоритмом классификации, речь идет об особенностях. во-вторых, если вы планируете создать классификатор, если вы еще не изобрели новый метод классификации, вам нужно использовать известный алгоритм классификации… в противном случае вы просто не занимаетесь классификацией. Чтобы внести ясность, я бы посоветовал вам более точно подумать о том, что вы хотите сделать, потому что в настоящее время ваш план слишком расплывчат.

Ответ №1:

Ух ты! Во-первых, это сложная задача, и, учитывая, насколько хорошо обычно работает машинное обучение, для подобных задач я настоятельно призываю вас попытаться найти обучающие данные для вашего классификатора и использовать машинное обучение (я нахожу Textblob отличной и простой в использовании библиотекой для классификации текста).

Чтобы ответить на ваш вопрос более прямо, вам действительно нужно мыслить абстрактно, поскольку это множество потенциальных вещей, которые вы можете попробовать, которые дают надежные результаты. Хотя Word2Vec работает с помощью машинного обучения, в нем есть много интересных и полезных концепций. Смотрите страницу Википедии здесь для получения более подробной информации. Например, вы можете взглянуть на «вложения слов». Кроме того, могут быть полезны такие понятия, как косинусное сходство.

Счастливого кодирования!