#web #web-scraping #beautifulsoup #pagination #scrape
Вопрос:
На самом деле я разработал полный код для очистки контента с одного веб-сайта с помощью Beautifulsoup (он также содержит разбивку на страницы), который используется для очистки деталей конференции. Но теперь мне нужно соскрести детали с нескольких сайтов конференций. "class"
Названия, <div>
теги и т. Д. Были разными для каждого веб-сайта. Итак, как мне удается наскрести детали, не разрабатывая несколько сценариев?
Комментарии:
1. Вы сами ответили на свой вопрос
The "class" names and <div> tags and etc were different for each websites.
Вы не можете (если только каждый веб-сайт не имеет точно такой же структуры), что маловероятно, и вам понадобятся разные сценарии/функции для разных сайтов. Во-вторых, есть ли у этих сайтов api? Это могло бы облегчить его развитие. Поделитесь несколькими сайтами/URL-адресами, и я смогу посмотреть. Какой исходный сайт вы очистили?2. я соскреб все подробности конференции с himss.org/global-conference/schedule
3. И каков пример другого сайта конференции?
4. Еще одна ссылка : siop.org/Annual-Conference/Conference-Schedule
5. ОК. Так что ты. Вам нужно будет разработать разные сценарии/функции для анализа каждого сайта, так как они совершенно разные. Например, второй сайт использует
<table>
теги. Первый-нет.