#python #screen-scraping #dateparser
Вопрос:
Я очень новичок в python / веб-скребке и пытаюсь использовать beautifulsoup, чтобы найти все события (даты), перечисленные на различных веб-страницах, а затем вывести их в файл CSV.
Это веб-страницы, которые я пробовал.
https://ir.monday.com/news-and-events/events
https://investor.okta.com/events
https://investors.atlassian.com/events-and-presentations/default.aspx
Любая помощь будет признательна!
Ответ №1:
Веб-создание обычно представляет собой комбинацию поиска правильных идентификаторов/имен классов, которые вы можете использовать для фильтрации необходимых вам данных.
В случае, если investor.okta.com/events страница сайта.
nir-widget--field nir-widget--event--date
Это имя класса дат в списке.
Вы должны найти эти идентификаторы и выполнить поиск по страницам, которые вы собираете, например, с помощью beautifulsoup.
После сбора всех необходимых данных вы можете сохранить их в списке/дикте или в фрейме данных panda.
Затем вы можете использовать пакет csv или функцию pandas для экспорта результатов в csv или другой формат файла.
Чтобы узнать больше о практичности, просмотрите онлайн-руководства по веб-очистке и экспорту csv, чтобы узнать о настройке среды разработки и, например, о том, как использовать git.