Необходимо ли выполнять удаление стоп-слов, обобщение / лемматизацию для классификации текста при использовании Spacy, Берт?

#nlp #spacy #text-classification #bert-language-model

#nlp #spacy #классификация текста #берт-языковая модель

Вопрос:

Необходимо ли удаление стоп-слов, стемминг и лемматизация для классификации текста при использовании Spacy, Bert или других продвинутых моделей NLP для получения векторного встраивания текста?

текст=»Еда, подаваемая на свадьбе, была очень вкусной»

1. поскольку Spacy, Bert обучались на огромных необработанных наборах данных, есть ли какие-либо преимущества применения удаления стоп-слов, стемминга и лемматизации к этому тексту перед созданием вложения с использованием bert / spacy для задачи классификации текста?

2. Я могу понять, что удаление стоп-слов, стемминг и лемматизация будут полезны, когда мы используем countvectorizer, tfidf vectorizer для встраивания предложений.

Комментарии:

1. Вы можете проверить, помогает ли выполнение стемминг-лемматизации и удаления стоп-слов. Это не всегда. Я обычно делаю, если собираюсь отобразить, поскольку стоп-слова загромождают результаты.

Ответ №1:

Вы можете проверить, помогает ли выполнение стемминг-лемматизации и удаления стоп-слов. Это не всегда. Я обычно делаю, если собираюсь отобразить, поскольку стоп-слова загромождают результаты.

Аргумент в пользу отказа от использования стоп-слов Использование стоп-слов предоставит контекст намерениям пользователя, поэтому, когда вы используете контекстную модель, такую как BERT. В таких моделях, как BERT, все стоп-слова сохраняются для предоставления достаточной контекстной информации, такой как слова отрицания (not, nor, never), которые считаются стоп-словами.

Согласно https://arxiv.org/pdf/1904.07531.pdf

«Удивительно, что стоп-словам уделяется столько же внимания, сколько и нон-стоп словам, но их удаление не влияет на производительность MR-RR «.

Ответ №2:

С помощью BERT вы не обрабатываете тексты; в противном случае вы теряете контекст (стемминг, лемматизация) или полностью изменяете тексты (удаление стоп-слов).

Некоторые более базовые модели (основанные на правилах или на наборе слов) выиграли бы от некоторой обработки, но вы должны быть очень осторожны с удалением стоп-слов: многие слова, которые меняют значение всего предложения, являются стоп-словами (не, нет, никогда, если только).

Ответ №3:

  • Не удаляйте SW, поскольку они добавляют новую информацию (осведомленность о контексте) к предложению (а именно, обобщение текста, машинный перевод, языковое моделирование, ответы на вопросы)

  • Удалите SW, если мы хотим получить только общее представление о предложении (а именно, анализ настроений, классификация языка / текста, фильтрация спама, генерация заголовков, автоматическая генерация тегов, тема / документ

Ответ №4:

Это не обязательно. Удаление стоп-слов иногда может помочь, а иногда нет. Ты должен попробовать оба.