Получить категорию для текстов

#php #comparison #similarity

#php #сравнение #сходство

Вопрос:

Я хочу выбрать категорию текста (статьи) (например, спорт, экономика), строку, и я хочу знать, как лучше поступить с функцией similar_text() или как-то иначе. Мне нужно сравнить тексты. Одна статья — это описание, которое должно быть присвоено категориям. Второй текст на самом деле представляет собой текст со всеми ключевыми словами, которые описывают категорию. Сравнение двух текстов с учетом процента сходства. Текст, который имеет наибольшее сходство с конкретной категорией, на самом деле и является этой категорией. Должен ли я сделать это криптографически similar_text() или как-то иначе?

Комментарии:

1. пример кода? на самом деле понятия не имею, о чем вы спрашиваете.

2. пример. Мне нужно написать алгоритм для автоматического получения категории для некоторого текста. пример. это текст о спорте. Мне нужно получить процент сходства. Я сравниваю этот текст о спорте с другими текстами. Другие тексты — это ключевое слово, описывающее эту категорию. Когда я сравниваю категорию all text с моим текстом о спорте, где я получаю наибольший процент сходства, это категория для моего текста о спорте, а текст sport получит категорию sport.

3. Как это сделать — могу ли я сделать это с помощью similar_text() или нет.

4. примером могут служить новости Google … google автоматически получает категорию для текста (atricle-news)

Ответ №1:

Я бы использовал байесовский классификатор для определения степени сходства.