Многоуровневый веб-паук с совпадением регулярных выражений?

#regex #web-scraping #web-crawler

#регулярное выражение #очистка веб-страниц #веб-сканер

Вопрос:

Мне нужен веб-паук для поиска определенных ссылок с регулярным выражением.

Паук будет посещать список веб-сайтов, находить ссылки, соответствующие списку шаблонов регулярных выражений, посещать эти соответствующие ссылки и повторять до заданного уровня глубины.

Я собирался закодировать это на php, но я не очень хорошо разбираюсь в потоках на php, и мне нужны потоки для этого приложения.

Итак, как вы думаете, что является лучшим решением?

Может быть, есть какое-то существующее приложение / код, который я мог бы настроить для создания этого паука.

Комментарии:

1. Ваша цель — находить ссылки? Если это так, я бы рекомендовал вам не указывать глубину … есть другие, более эффективные способы гарантировать, что поисковый робот найдет достаточное количество ссылок, не застряв на определенном пути. Какова ваша цель?

Ответ №1:

Существует несколько сканеров, которые вы можете использовать бесплатно:

Nutch, вероятно, лучший, и я бы рекомендовал, чтобы при его использовании вы воспользовались их функциональностью OPIC вместо того, чтобы самостоятельно указывать глубину обхода. OPIC позволяет обходчику определять, какой сайт следует обходить следующим, интеллектуальным способом, без необходимости искусственных ограничений глубины.