Как я могу начать программный анализ содержимого веб-сайта?

#language-agnostic

#не зависит от языка

Вопрос:

Я искал новый проект по программированию для хобби, и я думаю, было бы интересно попробовать способы программного сбора информации с веб-сайтов, а затем проанализировать эти данные для выполнения таких действий, как агрегирование или фильтрация. Например, если бы я хотел написать приложение, которое могло бы принимать списки Craiglist, а затем делать что-то вроде отображения только тех, которые соответствуют определенному городу, а не просто географическому району. Это всего лишь простой пример, но вы могли бы пойти дальше, как Google анализирует содержимое сайта, чтобы знать, как его ранжировать.

Я почти ничего не знаю об этом предмете, и я думаю, было бы интересно узнать об этом больше или, надеюсь, выполнить очень скромный программный проект в этой теме. Моя проблема в том, что я знаю так мало, что даже не знаю, как найти больше информации по этому предмету.

Как называются эти типы программ? Какие полезные ключевые слова следует использовать при поиске в Google? Где я могу получить некоторые вводные материалы для чтения? Есть ли интересные статьи, которые я должен прочитать?

Все, что мне нужно, это чтобы кто-нибудь разубедил меня в моем невежестве, чтобы я мог провести некоторое исследование самостоятельно.

Ответ №1:

cURL (http://en.wikipedia.org/wiki/CURL ) является хорошим инструментом для извлечения содержимого веб-сайта и передачи его процессору.

Если вы владеете определенным языком, посмотрите, поддерживает ли он cURL. Если нет, PHP (php.net ) может быть хорошим местом для начала.

Когда вы извлекли содержимое веб-сайта с помощью cURL, вы можете использовать функциональность обработки текста языка для анализа данных. Вы можете использовать регулярные выражения (http://www.regular-expressions.info /) или функции, такие как PHP strstr(), для поиска и извлечения конкретных данных, которые вы ищете.

Ответ №2:

Программы, которые «сканируют» другие сайты, обычно называются веб-сканерами или spiders.

Ответ №3:

Недавно я завершил проект, использующий Google Search Appliance, который в основном сканирует весь домен .com веб-сервера.
GSA — очень мощный инструмент, который в значительной степени индексирует все URL-адреса, с которыми он сталкивается, и предоставляет результаты.
http://code.google.com/apis/searchappliance/documentation/60/xml_reference.html