вопрос о веб-очистке (как новичок)

#web-scraping

#веб-очистка

Вопрос:

У меня есть хобби — читать новости. Проблема в том, что есть довольно много сайтов, на которые я часто захожу, и это дает мне идею: создать свою собственную базу данных новостей. Идея похожа на газетные вырезки. Например, я прочитал кое-что интересное о новостях экономики Германии, поэтому я могу использовать это программное обеспечение для сохранения всего текста и изображений с указанного сайта (на свой компьютер), и я могу добавить такие теги, как «Германия», «экономика», чтобы я мог найти его и прочитать позже. Я поделился этой идеей со своим другом, и он сказал, что веб-очистка непростая, потому что не каждый сайт позволяет вам это делать. Итак, мой вопрос в том, с чего мне начать? Я изучаю компьютерную инженерию, поэтому у меня есть некоторое понимание программирования, но, очевидно, недостаточно. Любые подсказки или опыт (для веб-очистки и пометки) будут полезны, спасибо!

Комментарии:

1. Я очень люблю pocket getpocket.com

Ответ №1:

В Python есть несколько хороших инструментов для очистки веб-страниц, которые хорошо работают. Beautiful Soup 4, Scrapy, Selenium, requests чтобы назвать несколько. Перед веб-очисткой я бы рекомендовал изучить основы python и то, как работает Веб.

Обратите внимание, что большинство веб-сайтов игнорируют это, если вы их очищаете. Им трудно отследить, как вы это делаете, и если вы загружаете только несколько определенных сайтов, это не должно быть тем, на что они жалуются, поскольку это не намного больше, чем нажатие CTRL C и загрузка всего сайта в виде HTML. Не делитесь этим и не отправляйте запросы в спам — будьте честным игроком. Если вы хотите быть в безопасности, ознакомьтесь с TOS веб-сайта.