Java — удалить ненужные слова из текстового файла

#java #text

#java #текст

Вопрос:

Я должен написать Java-программу, которая читает текстовый файл построчно и удаляет «бесполезные» слова, такие как «я», «ты», «он», «она», «на», «в» … и так далее, сохраняя все остальные для своего рода анализа настроений. Поскольку их много, существует ли словарь подобных слов, или мне нужно написать его самому?

Комментарии:

1. Поскольку только вы знаете бесполезные слова, вам следует написать словарь самостоятельно. Это часть вашего задания / работы.

Ответ №1:

Похоже, вы ищете список стоп-слов. Такие списки доступны в качестве ссылок на странице Википедии по этому вопросу. Первый связанный список начинается так:

  • a
  • о нас
  • выше
  • через
  • после
  • впоследствии
  • снова

Он также содержит слова, которые вы упомянули, поэтому, похоже, соответствует вашим требованиям.

Ответ №2:

Я так понимаю, что вы должны удалить все местоимения и предлоги. Простым способом было бы создать набор строк всех местоимений и предлогов, которые вы хотите удалить (т.Е. Set<String> ). Затем выполните итерацию по всем элементам, проанализировав текстовый файл для каждого, чтобы удалить эти слова, и собрав его обратно, когда закончите.

Комментарии:

1. Поскольку удаляемые слова являются String s, было бы проще сохранить их в a Set<String> для более быстрого поиска.