#python #web-scraping #scrapy
#python #веб-очистка #scrapy
Вопрос:
Я создал Scrapy web crawler, который может очистить Amazon. Он может очищать путем поиска элементов по списку ключевых слов и очищать данные с результирующих страниц.
Тем не менее, я хотел бы очистить Amazon от значительной части данных о его продуктах. У меня нет предпочтительного списка ключевых слов, с помощью которых можно запрашивать элементы. Скорее, я хотел бы равномерно очистить сайт и собрать X количество товаров, которое является репрезентативным для всех товаров, перечисленных на Amazon.
Кто-нибудь знает, как очистить веб-сайт таким образом? Спасибо.
Комментарии:
1. Вы могли бы рассмотреть возможность просмотра каждой категории (мебель, одежда, технологии, автомобили и т. Д.) И сбора там определенного количества предметов. Однако такой подход не будет репрезентативным в пропорциях каждой категории в общем количестве продуктов Amazon. Попробуйте найти метку «X количество результатов» для каждой категории, чтобы компенсировать это? Idk, как еще вы могли бы сделать этот проект, извините.
2. Это интересный подход. Я надеялся на что-то более удобное, где паук мог бы свободно перемещаться по веб-сайту и перемещаться сам по себе. Тем не менее, я обязательно буду использовать этот метод. Спасибо!
Ответ №1:
Я помещаю свой комментарий в качестве ответа, чтобы другим, ищущим аналогичное решение, было легче его найти.
Один из способов добиться этого — просмотреть каждую категорию (мебель, одежда, технологии, автомобили и т.д.) и собрать в ней определенное количество предметов. В Amazon есть боковые / верхние панели с навигационными ссылками на разные категории, поэтому вы можете пропустить их там.
Этот процесс будет заключаться в следующем:
- Следуйте URL-адресам категорий с начальной Amazon.com разобрать
- Используйте другую функцию синтаксического анализа для обратного вызова, которая будет очищать любое количество элементов из этой категории
- Убедитесь, что данные записываются в файл (вероятно, это будет много данных).
Однако такой подход не будет репрезентативным в пропорциях каждой категории в общем количестве продуктов Amazon. Попробуйте найти метку «X количество результатов» для каждой категории, чтобы компенсировать это. Удачи в вашем проекте!