Как очистить содержимое с нескольких различных доменных сайтов с помощью Beautifulsoup?

#web #web-scraping #beautifulsoup #pagination #scrape

Вопрос:

На самом деле я разработал полный код для очистки контента с одного веб-сайта с помощью Beautifulsoup (он также содержит разбивку на страницы), который используется для очистки деталей конференции. Но теперь мне нужно соскрести детали с нескольких сайтов конференций. "class" Названия, <div> теги и т. Д. Были разными для каждого веб-сайта. Итак, как мне удается наскрести детали, не разрабатывая несколько сценариев?

1. Вы сами ответили на свой вопрос The "class" names and <div> tags and etc were different for each websites. Вы не можете (если только каждый веб-сайт не имеет точно такой же структуры), что маловероятно, и вам понадобятся разные сценарии/функции для разных сайтов. Во-вторых, есть ли у этих сайтов api? Это могло бы облегчить его развитие. Поделитесь несколькими сайтами/URL-адресами, и я смогу посмотреть. Какой исходный сайт вы очистили?

2. я соскреб все подробности конференции с himss.org/global-conference/schedule

3. И каков пример другого сайта конференции?

4. Еще одна ссылка : siop.org/Annual-Conference/Conference-Schedule

5. ОК. Так что ты. Вам нужно будет разработать разные сценарии/функции для анализа каждого сайта, так как они совершенно разные. Например, второй сайт использует <table> теги. Первый-нет.

Вопрос:

Комментарии:

Вам также может понравиться

Сохранить пароль удаленного хоста docker

В Notepad как мне найти n-й «» в строке?

Преобразование SQL-запросов из ‘::’ для ПРИВЕДЕНИЯ ко всей кодовой базе