#java #text
#java #текст
Вопрос:
Я должен написать Java-программу, которая читает текстовый файл построчно и удаляет «бесполезные» слова, такие как «я», «ты», «он», «она», «на», «в» … и так далее, сохраняя все остальные для своего рода анализа настроений. Поскольку их много, существует ли словарь подобных слов, или мне нужно написать его самому?
Комментарии:
1. Поскольку только вы знаете бесполезные слова, вам следует написать словарь самостоятельно. Это часть вашего задания / работы.
Ответ №1:
Похоже, вы ищете список стоп-слов. Такие списки доступны в качестве ссылок на странице Википедии по этому вопросу. Первый связанный список начинается так:
- a
- о нас
- выше
- через
- после
- впоследствии
- снова
Он также содержит слова, которые вы упомянули, поэтому, похоже, соответствует вашим требованиям.
Ответ №2:
Я так понимаю, что вы должны удалить все местоимения и предлоги. Простым способом было бы создать набор строк всех местоимений и предлогов, которые вы хотите удалить (т.Е. Set<String>
). Затем выполните итерацию по всем элементам, проанализировав текстовый файл для каждого, чтобы удалить эти слова, и собрав его обратно, когда закончите.
Комментарии:
1. Поскольку удаляемые слова являются
String
s, было бы проще сохранить их в aSet<String>
для более быстрого поиска.