Java — Получение текста с веб-страницы

#java #web-applications #web-scraping

#java #веб-приложения #очистка веб-страниц

Вопрос:

Я начинаю новый проект, это то, с чем я никогда не пытался работать на Java, и я исследовал это заранее. Мои исследования не продвинули меня намного дальше того, с чего я начал.

В основном мой проект будет делать это:

  • Выполните поиск по веб-сайту и получите соответствующие данные (в основном выполните поиск в его поисковой системе на основе запроса, который вводит пользователь, а затем возвращает соответствующие результаты)

  • Пользователь нажимает на один из результатов, и затем программа покажет определенные
    значения (значения будут на веб-странице
    результата)

Пока все, что я знаю о том, как это сделать, — это очистка веб-страницы. Я не смог найти никаких примеров, поэтому я все еще в некотором неведении по этому поводу.

Действительно ли это возможно? Я буду использовать Java с Android SDK. У меня вроде как есть идея, но мои знания Java не имеют ничего общего с веб-страницами и т.д.

Большое спасибо, Брэндон

Ответ №1:

Nutch — отличный инструмент, но может быть немного излишним для небольшого проекта. если вы ищете что-то действительно быстрое, грязное и простое для понимания, вам следует заглянуть в crawler

смотрите пример использования здесь: http://java.net/projects/crawler/sources/svn/content/trunk/src/examples/com/torunski/crawler/examples/ExampleDownloadWithHTMLParser.java?rev=429

Вероятно, вы можете добавить это в свой проект и выполнить очистку через 10 минут

Ответ №2:

Конечно, это возможно. Вероятно, лучшей библиотекой для этого является Apache Nutch. Он основан на мощных библиотечных стеках, таких как Lucene, и является очень зрелым. Загляните в их руководства, и вы, возможно, найдете всю необходимую информацию для быстрого poc.