#language-agnostic
#не зависит от языка
Вопрос:
Я искал новый проект по программированию для хобби, и я думаю, было бы интересно попробовать способы программного сбора информации с веб-сайтов, а затем проанализировать эти данные для выполнения таких действий, как агрегирование или фильтрация. Например, если бы я хотел написать приложение, которое могло бы принимать списки Craiglist, а затем делать что-то вроде отображения только тех, которые соответствуют определенному городу, а не просто географическому району. Это всего лишь простой пример, но вы могли бы пойти дальше, как Google анализирует содержимое сайта, чтобы знать, как его ранжировать.
Я почти ничего не знаю об этом предмете, и я думаю, было бы интересно узнать об этом больше или, надеюсь, выполнить очень скромный программный проект в этой теме. Моя проблема в том, что я знаю так мало, что даже не знаю, как найти больше информации по этому предмету.
Как называются эти типы программ? Какие полезные ключевые слова следует использовать при поиске в Google? Где я могу получить некоторые вводные материалы для чтения? Есть ли интересные статьи, которые я должен прочитать?
Все, что мне нужно, это чтобы кто-нибудь разубедил меня в моем невежестве, чтобы я мог провести некоторое исследование самостоятельно.
Ответ №1:
cURL (http://en.wikipedia.org/wiki/CURL ) является хорошим инструментом для извлечения содержимого веб-сайта и передачи его процессору.
Если вы владеете определенным языком, посмотрите, поддерживает ли он cURL. Если нет, PHP (php.net ) может быть хорошим местом для начала.
Когда вы извлекли содержимое веб-сайта с помощью cURL, вы можете использовать функциональность обработки текста языка для анализа данных. Вы можете использовать регулярные выражения (http://www.regular-expressions.info /) или функции, такие как PHP strstr(), для поиска и извлечения конкретных данных, которые вы ищете.
Комментарии:
1. Похоже, это отличное место для начала. Спасибо.
Ответ №2:
Программы, которые «сканируют» другие сайты, обычно называются веб-сканерами или spiders.
Комментарии:
1. Это именно то, что я искал! Попытка поиска информации без знания правильных ключевых слов может быть очень сложной. Это очень помогает. Спасибо.
Ответ №3:
Недавно я завершил проект, использующий Google Search Appliance, который в основном сканирует весь домен .com веб-сервера.
GSA — очень мощный инструмент, который в значительной степени индексирует все URL-адреса, с которыми он сталкивается, и предоставляет результаты.
http://code.google.com/apis/searchappliance/documentation/60/xml_reference.html