Как узнать в режиме реального времени, когда на веб-сайте публикуется новый контент?

#javascript #python #html #web #web-scraping

Вопрос:

Я хотел бы знать, есть ли способ увидеть новую страницу веб-сайта до ее размещения на домашней странице, но после того, как они разместили ее в Интернете.

Я пробовал использовать карты сайтов, но проблема в том, что я хочу отслеживать их 24/7, а на сайтах отображается историческая информация, а не в реальном времени.

Например, предположим, что этот сценарий:

Би-би-си создала статью около 23:05, но они опубликовали ее на своей домашней странице около 23:15. Есть ли способ получить ссылку на статью или название статьи до 23:15?

1. Если веб-сайт содержит статические страницы в отдельных файлах, то то, что вы предлагаете, может быть возможным, если вы сможете идентифицировать эти файлы. То, как вы это делаете на одном сайте, не обязательно будет применимо к любому другому сайту. Многие сайты черпают свой контент из одной или нескольких баз данных. Переполнение стека и Би-би-си-два хороших примера. Контент может быть размещен в базах данных за несколько часов до его публикации, но у вас вообще не будет доступа к нему, пока он не будет опубликован.

2. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.

Ответ №1:

Нет. Файл на веб-сайте полностью невидим, если на него не ссылаются другие страницы.

1. Не совсем так. Если вы знаете URL-адрес файла, вы можете получить к нему доступ независимо от того, ссылаются на него другие страницы или нет. Проблема, конечно, в знании URL-адреса.

2. Возможно, слово «нераскрытый» лучше, но мнение правильное.