#python #flask #web-scraping #https #python-requests
Вопрос:
У меня есть веб-приложение flask, в котором работает код скребка для простого набора, В моем коде мне нужно запросить несколько страниц сайта Justdial, чтобы использовать его в модуле bs4 для извлечения данных и заполнения их на листе Excel. Я использую requests.Session()
для этого процесс.
session = requests.Session()
session.headers.update({"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"})
url=f"{entry}/page-{page_number}"
session.verify = False
r = session.get(url).text
Затем этот «r» передается в bs4
модуль, и происходит процесс извлечения.
Всякий раз, когда я запускаю этот код на локальном хосте, моя программа работает нормально, данные извлекаются, а значения сохраняются в файле Excel. Но когда я размещаю это в качестве веб-приложения heroku
и пытаюсь выполнить тот же процесс heroku
, я не получаю желаемый результат, ошибки также не отображаются except
try
. Также я получаю пустой файл excel в качестве выходного.
Я пробовал использовать Urllib
, requests.get()
и также requests.get(url, verify-False)
, но та же проблема существует.
Это предупреждение появляется, когда я запускаю программу на локальном хосте
/home/ученик/.local/lib/python3.8/пакеты сайтов/urllib3/connectionpool.py:846: Предупреждение об угрозе запроса: Выполняется непроверенный HTTPS-запрос. Настоятельно рекомендуется добавить проверку сертификата. Смотрите: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings предупреждения.предупредить((
Комментарии:
1. Если у нас включено приложение на heroku https, вы можете его использовать. И видите это , вы не должны сохранять данные в файле Excel.
2. На самом деле с файлом excel проблем нет, на самом деле обновление файла excel при каждом запуске является преимуществом, проблема в том, что запросы вообще не выполняются, проблема в том, что : (