Запросите много веб-страниц, чтобы получить все товары из веб-магазина?

#web-scraping #request

Вопрос:

для личного интереса я хочу создать список со всеми товарами, которые есть в интернет-магазине. В Германии есть две крупные компании под названием «Медиа Маркт» и «Сатурн». Система «Медиа Маркт»проста, они используют 7-значный номер в качестве идентификатора для своих продуктов. Поэтому я хочу получить все эти продукты, но я думаю, что выполнение 10 миллионов запросов в 12 потоках (bcs моего компьютера имеет 12 ядер) за короткое время приведет к перегрузке сервера или заставит сервер игнорировать мои запросы через короткое время. Что я могу сделать, чтобы получить этот список со всеми продуктами? Я благодарен за любые идеи.

Комментарии:

1. Ваш вопрос слишком широк для этого форума. То, на что вы здесь ссылаетесь, часто называют открытием соскоба, и у меня есть сообщение в блоге об этом здесь: scrapecrow.com/web-scraping-discovery.html Грубое принуждение к 10 миллионам запросов звучит как плохая идея. Взгляните на другие подходы к открытию, упомянутые в блоге. Похоже, на обоих ваших сайтах есть какая-то карта сайта, в блоге рассказывается о том, как очистить цели с помощью карт сайтов.

2. Большое вам спасибо 😀