#database #web-scraping #nutch #web-crawler
#База данных #очистка веб-страниц #nutch #веб-сканер
Вопрос:
Я хочу получать данные с сайтов. Например, мне нужны цены на разные товары с ebay. Я хочу сохранить эти продукты с их ценами в своей базе данных. Будет ли NUTCH полезен здесь? Если нет, то какой скребок / сканирование я должен предпочесть?
Комментарии:
1. Чего вы ожидаете? Если вы ожидаете предварительно упакованное решение, тогда нет, если вы ожидаете написать некоторый код, тогда да, он выполнит свою работу.
2. итак, я запустил nutch, и он работает. теперь для обработки данных с сайтов электронной коммерции я должен написать синтаксический анализатор, как предложил u. но до сих пор я не нашел ни одного полезного руководства или документации о том, как подключить анализатор, может помочь?
Ответ №1:
Nutch выполняет сканирование некоторых веб-сайтов и индексирует их веб-страницы.
Что вам нужно, так это скребок, который используется для извлечения определенной информации с некоторых веб-страниц. Я не знаю, какие инструменты доступны для очистки, но должно быть довольно легко написать свой собственный, используя какой-нибудь язык сценариев, такой как Perl или Python.
Однако, если вы хотите использовать Nutch для очистки, вы можете создать свой собственный плагин для извлечения дополнительных данных. Вы можете найти больше о плагинах по этой ссылке: https://wiki.apache.org/nutch/PluginCentral .
Вы должны заметить, что очистка не всегда законна, некоторые сайты специально запрещают любую автоматическую загрузку контента со своих страниц, вы должны проверить срок использования этого сайта, прежде чем пытаться очистить его.
Ответ №2:
попробуйте scrapy это очень мощный и хорошо документированный фреймворк для очистки. Опытному программисту требуется несколько часов, чтобы удалить данные электронной коммерции.