Как идентифицировать рекламу на веб-сайте

#webpage #analysis #ads

#веб-страница #анализ #объявления

Вопрос:

Я хотел бы программно проанализировать содержимое веб-сайта и найти возможные места, где могут быть размещены объявления (или сами объявления). На разных веб-сайтах объявления от разных поставщиков могут быть размещены в разных форматах, и я бы хотел, чтобы мое решение выбирало как можно больше из них.

Как бы вы программно решили эту проблему. Пока я нашел только одно решение, но я не очень доволен этим (причина ниже).

Очевидным решением было бы выполнить серьезный поиск по регулярным выражениям в исходном коде в поисках JS и / или HTML, специфичных для рекламного движка. Я полагаю, что это нечто похожее на то, что AdBlock использует для удаления рекламы с веб-сайтов в браузере. Однако, поскольку существует так много рекламных движков, это не будет ни эффективным, ни простым в обслуживании (даже если мы рассмотрим использование черных списков AdBlock для загрузки поисковой системы).

Я хотел бы найти более общее решение этой проблемы, и я не обязательно ищу окончательное решение. Различные взгляды на проблему будут полезны.

Ответ №1:

Я не думаю, что ведение списка поставщиков рекламы так сложно, особенно учитывая, что есть всего несколько крупных игроков, которые показывают более 90% всех объявлений.

Если вы не ищете универсальное решение, я бы сказал, что обнаружение 90% было бы приемлемым показателем посещаемости.

Делая это «эвристически», вы могли бы просто пометить любые флэш- или подобные медиа-объекты, обслуживаемые с домена, который отличается от того, на котором находится страница хостинга?