#java #web-applications #web-scraping
#java #веб-приложения #очистка веб-страниц
Вопрос:
Я начинаю новый проект, это то, с чем я никогда не пытался работать на Java, и я исследовал это заранее. Мои исследования не продвинули меня намного дальше того, с чего я начал.
В основном мой проект будет делать это:
-
Выполните поиск по веб-сайту и получите соответствующие данные (в основном выполните поиск в его поисковой системе на основе запроса, который вводит пользователь, а затем возвращает соответствующие результаты)
-
Пользователь нажимает на один из результатов, и затем программа покажет определенные
значения (значения будут на веб-странице
результата)
Пока все, что я знаю о том, как это сделать, — это очистка веб-страницы. Я не смог найти никаких примеров, поэтому я все еще в некотором неведении по этому поводу.
Действительно ли это возможно? Я буду использовать Java с Android SDK. У меня вроде как есть идея, но мои знания Java не имеют ничего общего с веб-страницами и т.д.
Большое спасибо, Брэндон
Ответ №1:
Nutch — отличный инструмент, но может быть немного излишним для небольшого проекта. если вы ищете что-то действительно быстрое, грязное и простое для понимания, вам следует заглянуть в crawler
смотрите пример использования здесь: http://java.net/projects/crawler/sources/svn/content/trunk/src/examples/com/torunski/crawler/examples/ExampleDownloadWithHTMLParser.java?rev=429
Вероятно, вы можете добавить это в свой проект и выполнить очистку через 10 минут
Ответ №2:
Конечно, это возможно. Вероятно, лучшей библиотекой для этого является Apache Nutch. Он основан на мощных библиотечных стеках, таких как Lucene, и является очень зрелым. Загляните в их руководства, и вы, возможно, найдете всю необходимую информацию для быстрого poc.