#javascript #java #html #css #web-crawler
#javascript #java #HTML #css #веб-сканер
Вопрос:
Я хочу разработать сканер, используя Java, который сканирует веб-страницу и извлекает определенное содержимое страницы. Как я должен это сделать? Я новичок, и мне нужно руководство, чтобы начать разработку сканеров.
Например, я хочу получить доступ к содержимому «красный — мой любимый цвет» с веб-страницы, которая встроена примерно так, как показано ниже:
красный — мой любимый цвет< / div >
Комментарии:
1. …. просто получить каждую страницу и сохранить ее в виде текста? Мне очень жаль, ваш вопрос не имеет смысла.
2. Я имею в виду больше похоже только на извлечение определенного содержимого…. как и обычные веб-сканеры, они получают URL-адреса с исходного веб-сайта, используя атрибут href. Аналогично, я заинтересован в извлечении другого содержимого, которое может быть контентом рецензента. Имеет смысл??
Ответ №1:
Рекомендуемые чтения
Статические страницы:
-
jsoup — анализатор HTML и библиотека обработки содержимого
Имейте в виду, что многие страницы будут создавать содержимое динамически с помощью JavaScript после загрузки. В таком случае подход «статическая страница» не поможет, вам нужно будет искать инструменты в категории «Веб-автоматизация».
Selenium — это такой набор инструментов. Вы можете дать команду своему браузеру открывать страницы и перемещаться по ним с помощью обычного браузера, вы даже можете использовать «безголовый браузер» (без пользовательского интерфейса), используя phantomjs.
Удачи, впереди вас ждет много чтения и кодирования.
[отредактировано для примеров]
Этот метод называется очистка веб-страниц — используйте его в Google для примеров. В качестве примера результатов моих поисковых запросов предлагаются следующие, я не даю никаких гарантий или одобрений для них
Для «статического удаления веб-страницы» — вот пример использования jsoup
Для «динамических страниц» — вот пример использования Selenium
Комментарии:
1. Спасибо … ссылка, которой вы поделились, кажется полезной, много полезных методов… Я собираюсь попробовать их. Я обнаружил, что извлечение определенного содержимого с веб-страницы довольно распространено, например, извлечение комментариев к обзору с TripAdvisor, есть ли какой-либо доступный образец?? Я не нахожу ни одного… мне станет легко, по крайней мере, начать.
2. @user2720919 «есть ли какой-нибудь доступный образец??» Я обновил свой пост некоторыми примерами, которые я нашел в сети — смотрите в конце ответа. «Спасибо … ссылка, которой вы поделились, кажется полезной, много полезных методов …» обычно благодарность выражается путем голосования за ответ и, если он полностью отвечает на ваш вопрос , принятия ответа (просто наведите курсор на число / стрелки слева в верхней части ответа, я уверен, что вы поймете идею)