Веб-очистка Python: как получить HTML внутреннего сайта

#python #web-scraping

#python #веб-очистка

Вопрос:

В моей организации есть нечто похожее на внутренний LinkedIn, где сотрудники перечисляют описания, навыки, выравнивание, название должности и т.д.

Я пытаюсь написать программу веб-очистки, которая может извлекать весь этот текст для поиска ключевых терминов, извлекать ключевую информацию и изображения. Я чувствую себя комфортно, выполняя синтаксический анализ, но изо всех сил пытаюсь обойти требования к доступу в моих организациях, чтобы фактически извлекать HTML-код для каждого из моих 1000 сотрудников.

Возможно ли написать мой скрипт на Python для запуска на переднем плане (он же открытое окно Chrome / Firefox, в котором я уже вошел в систему и могу получить доступ ко всем страницам), а затем выполнить цикл по ссылкам на сайт каждого? Есть другие предложения?

Комментарии:

1. Разве эти данные не хранятся в базе данных, принадлежащей вашей организации? Зачем изобретать велосипед? Удачи!

Ответ №1:

Да, вы можете сделать это с помощью библиотеки Selenium.

Selenium — это библиотека, которая может выполнять тесты и другие приятные вещи на уровне браузера.

Документ:https://selenium-python.readthedocs.io /

Официальный документ:https://www.selenium.dev/documentation/en /

Я надеюсь помочь вам

Удачи