Elasticsearch. Удалить стоп-слова из запроса — хорошая или плохая идея?

#elasticsearch

#elasticsearch

Вопрос:

Мы удаляем стоп-слова при индексации, но обнаруживаем, что «x и y» возвращают разные результаты для «x y».

Итак, удаление стоп-слов из терминов запроса — хорошая или плохая идея? Когда мы попытались, мы обнаружили, что » x» было уменьшено до «x» анализатором «stop»…следовательно, заставляет меня думать, что мы на неверном пути.

Комментарии:

1. У вас была возможность взглянуть на мой ответ, было бы здорово, если бы вы могли прокомментировать 🙂

2. Посмотрел, но пока мы оставили как есть. Если наши клиенты жалуются, возможно, придется вернуться. Большое спасибо.

Ответ №1:

Есть статья, которую вы должны прочитать: https://www.elastic.co/blog/stop-stopping-stop-words-a-look-at-common-terms-query

Это действительно зависит от того, что представляет собой ваш домен и какие запросы вы будете выполнять.

Я больше не удаляю стоп-слова, потому что они содержат много семантического значения, и их удаление может привести к нежелательным результатам. Вместо этого лучше составить собственный список стоп-слов, применимых к вашему домену.

Ответ №2:

Я согласен с @Evaldas, это полностью зависит от вашего домена и варианта использования, но если у вас нет полной ясности в этом вопросе, я бы посоветовал не удалять их, пожалуйста, обратитесь к этому удивительному блогу magneto о различных аспектах стоп-слов, таких как производительность, плюсы и минусы стоп-слови т. д