Как очистить данные из нескольких несвязанных разделов веб-сайта (с помощью Scrapy)

#python #web-scraping #scrapy

#python #веб-очистка #scrapy

Вопрос:

Я создал Scrapy web crawler, который может очистить Amazon. Он может очищать путем поиска элементов по списку ключевых слов и очищать данные с результирующих страниц.

Тем не менее, я хотел бы очистить Amazon от значительной части данных о его продуктах. У меня нет предпочтительного списка ключевых слов, с помощью которых можно запрашивать элементы. Скорее, я хотел бы равномерно очистить сайт и собрать X количество товаров, которое является репрезентативным для всех товаров, перечисленных на Amazon.

Кто-нибудь знает, как очистить веб-сайт таким образом? Спасибо.

Комментарии:

1. Вы могли бы рассмотреть возможность просмотра каждой категории (мебель, одежда, технологии, автомобили и т. Д.) И сбора там определенного количества предметов. Однако такой подход не будет репрезентативным в пропорциях каждой категории в общем количестве продуктов Amazon. Попробуйте найти метку «X количество результатов» для каждой категории, чтобы компенсировать это? Idk, как еще вы могли бы сделать этот проект, извините.

2. Это интересный подход. Я надеялся на что-то более удобное, где паук мог бы свободно перемещаться по веб-сайту и перемещаться сам по себе. Тем не менее, я обязательно буду использовать этот метод. Спасибо!

Ответ №1:

Я помещаю свой комментарий в качестве ответа, чтобы другим, ищущим аналогичное решение, было легче его найти.

Один из способов добиться этого — просмотреть каждую категорию (мебель, одежда, технологии, автомобили и т.д.) и собрать в ней определенное количество предметов. В Amazon есть боковые / верхние панели с навигационными ссылками на разные категории, поэтому вы можете пропустить их там.

Этот процесс будет заключаться в следующем:

  1. Следуйте URL-адресам категорий с начальной Amazon.com разобрать
  2. Используйте другую функцию синтаксического анализа для обратного вызова, которая будет очищать любое количество элементов из этой категории
  3. Убедитесь, что данные записываются в файл (вероятно, это будет много данных).

Однако такой подход не будет репрезентативным в пропорциях каждой категории в общем количестве продуктов Amazon. Попробуйте найти метку «X количество результатов» для каждой категории, чтобы компенсировать это. Удачи в вашем проекте!