Python Scrapy — анализирует содержимое URL-адреса для последней обновленной даты

#python #web-scraping #scrapy #web-crawler

#питон #соскабливание полотна #scrapy #веб-сканер

Вопрос:

У меня есть webcrawler / scraper, написанный на Python с использованием фреймворка scrapy. Я пытался использовать дату «последнего изменения», чтобы определить самое последнее обновление для каждой страницы, но я также собираю каждый HTML-файл для очищенных страниц. Существует ли более точный метод сбора даты последнего обновления каждой страницы?

Ответ №1:

Есть ETag, если вам просто нужно знать, изменились ли данные, а не когда.

В противном случае, насколько информация с сервера поступает, Last-Modified обычно это так, если только конкретный целевой сервер не предоставляет ту же информацию каким-либо другим способом (альтернативный пользовательский заголовок или содержимое ответа).

Если этого недостаточно, следующим лучшим решением будет отслеживать изменения на стороне клиента. Что не является тривиальным.

Комментарии:

1. Спасибо! Я думаю, что последнее изменение будет в порядке, если оно доступно. Я знаю, что у многих документов не будет даты последнего изменения. У меня просто возникли проблемы с анализом этой даты. Это должен быть тип ответа if / then — если доступно, верните last-mod, else null . Я просто пытаюсь заставить синтаксический анализ html работать.