#python #web-scraping #scrapy #web-crawler
#питон #соскабливание полотна #scrapy #веб-сканер
Вопрос:
У меня есть webcrawler / scraper, написанный на Python с использованием фреймворка scrapy. Я пытался использовать дату «последнего изменения», чтобы определить самое последнее обновление для каждой страницы, но я также собираю каждый HTML-файл для очищенных страниц. Существует ли более точный метод сбора даты последнего обновления каждой страницы?
Ответ №1:
Есть ETag, если вам просто нужно знать, изменились ли данные, а не когда.
В противном случае, насколько информация с сервера поступает, Last-Modified
обычно это так, если только конкретный целевой сервер не предоставляет ту же информацию каким-либо другим способом (альтернативный пользовательский заголовок или содержимое ответа).
Если этого недостаточно, следующим лучшим решением будет отслеживать изменения на стороне клиента. Что не является тривиальным.
Комментарии:
1. Спасибо! Я думаю, что последнее изменение будет в порядке, если оно доступно. Я знаю, что у многих документов не будет даты последнего изменения. У меня просто возникли проблемы с анализом этой даты. Это должен быть тип ответа if / then — если доступно, верните last-mod, else null . Я просто пытаюсь заставить синтаксический анализ html работать.