Поиск всех дат / событий для нескольких веб-страниц

#python #screen-scraping #dateparser

Вопрос:

Я очень новичок в python / веб-скребке и пытаюсь использовать beautifulsoup, чтобы найти все события (даты), перечисленные на различных веб-страницах, а затем вывести их в файл CSV.

Это веб-страницы, которые я пробовал.

https://ir.monday.com/news-and-events/events

https://investor.okta.com/events

https://investors.atlassian.com/events-and-presentations/default.aspx

Любая помощь будет признательна!

Ответ №1:

Веб-создание обычно представляет собой комбинацию поиска правильных идентификаторов/имен классов, которые вы можете использовать для фильтрации необходимых вам данных.

В случае, если investor.okta.com/events страница сайта.

 nir-widget--field nir-widget--event--date
 

Это имя класса дат в списке.
Вы должны найти эти идентификаторы и выполнить поиск по страницам, которые вы собираете, например, с помощью beautifulsoup.

После сбора всех необходимых данных вы можете сохранить их в списке/дикте или в фрейме данных panda.

Затем вы можете использовать пакет csv или функцию pandas для экспорта результатов в csv или другой формат файла.

Чтобы узнать больше о практичности, просмотрите онлайн-руководства по веб-очистке и экспорту csv, чтобы узнать о настройке среды разработки и, например, о том, как использовать git.