#javascript #python #html #web #web-scraping
Вопрос:
Я хотел бы знать, есть ли способ увидеть новую страницу веб-сайта до ее размещения на домашней странице, но после того, как они разместили ее в Интернете.
Я пробовал использовать карты сайтов, но проблема в том, что я хочу отслеживать их 24/7, а на сайтах отображается историческая информация, а не в реальном времени.
Например, предположим, что этот сценарий:
Би-би-си создала статью около 23:05, но они опубликовали ее на своей домашней странице около 23:15. Есть ли способ получить ссылку на статью или название статьи до 23:15?
Комментарии:
1. Если веб-сайт содержит статические страницы в отдельных файлах, то то, что вы предлагаете, может быть возможным, если вы сможете идентифицировать эти файлы. То, как вы это делаете на одном сайте, не обязательно будет применимо к любому другому сайту. Многие сайты черпают свой контент из одной или нескольких баз данных. Переполнение стека и Би-би-си-два хороших примера. Контент может быть размещен в базах данных за несколько часов до его публикации, но у вас вообще не будет доступа к нему, пока он не будет опубликован.
2. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.
Ответ №1:
Нет. Файл на веб-сайте полностью невидим, если на него не ссылаются другие страницы.
Комментарии:
1. Не совсем так. Если вы знаете URL-адрес файла, вы можете получить к нему доступ независимо от того, ссылаются на него другие страницы или нет. Проблема, конечно, в знании URL-адреса.
2. Возможно, слово «нераскрытый» лучше, но мнение правильное.