Синтаксический анализ веб-страниц для извлечения содержимого

#javascript #java #html #css #web-crawler

#javascript #java #HTML #css #веб-сканер

Вопрос:

Я хочу разработать сканер, используя Java, который сканирует веб-страницу и извлекает определенное содержимое страницы. Как я должен это сделать? Я новичок, и мне нужно руководство, чтобы начать разработку сканеров.

Например, я хочу получить доступ к содержимому «красный — мой любимый цвет» с веб-страницы, которая встроена примерно так, как показано ниже:

красный — мой любимый цвет< / div >

Комментарии:

1. …. просто получить каждую страницу и сохранить ее в виде текста? Мне очень жаль, ваш вопрос не имеет смысла.

2. Я имею в виду больше похоже только на извлечение определенного содержимого…. как и обычные веб-сканеры, они получают URL-адреса с исходного веб-сайта, используя атрибут href. Аналогично, я заинтересован в извлечении другого содержимого, которое может быть контентом рецензента. Имеет смысл??

Ответ №1:

Рекомендуемые чтения

Статические страницы:

Имейте в виду, что многие страницы будут создавать содержимое динамически с помощью JavaScript после загрузки. В таком случае подход «статическая страница» не поможет, вам нужно будет искать инструменты в категории «Веб-автоматизация».
Selenium — это такой набор инструментов. Вы можете дать команду своему браузеру открывать страницы и перемещаться по ним с помощью обычного браузера, вы даже можете использовать «безголовый браузер» (без пользовательского интерфейса), используя phantomjs.

Удачи, впереди вас ждет много чтения и кодирования.

[отредактировано для примеров]

Этот метод называется очистка веб-страниц — используйте его в Google для примеров. В качестве примера результатов моих поисковых запросов предлагаются следующие, я не даю никаких гарантий или одобрений для них

Для «статического удаления веб-страницы» — вот пример использования jsoup

Для «динамических страниц» — вот пример использования Selenium

Комментарии:

1. Спасибо … ссылка, которой вы поделились, кажется полезной, много полезных методов… Я собираюсь попробовать их. Я обнаружил, что извлечение определенного содержимого с веб-страницы довольно распространено, например, извлечение комментариев к обзору с TripAdvisor, есть ли какой-либо доступный образец?? Я не нахожу ни одного… мне станет легко, по крайней мере, начать.

2. @user2720919 «есть ли какой-нибудь доступный образец??» Я обновил свой пост некоторыми примерами, которые я нашел в сети — смотрите в конце ответа. «Спасибо … ссылка, которой вы поделились, кажется полезной, много полезных методов …» обычно благодарность выражается путем голосования за ответ и, если он полностью отвечает на ваш вопрос , принятия ответа (просто наведите курсор на число / стрелки слева в верхней части ответа, я уверен, что вы поймете идею)