Как мне извлечь ссылки с веб-страницы с помощью scrapy?

#python #web-scraping #scrapy

#python #веб-очистка #scrapy

Вопрос:

Это мой начальный URL:

 http://www.amazon.com/s/ref=sr_nr_n_0?rh=n:133140011,n:%21133141011,n:154606011,n:668010011,n:158591011,n:158592011amp;bbn=158591011amp;ie=UTF8amp;qid=1403264414amp;rnid=158591011

Как мне извлечь все ссылки на kindle book из scrapy?

Это мой код, но я не получаю ожидаемых результатов:

 class MySpider(CrawlSpider):
    name = "scraper"
    allowed_domains = ["amazon.com"]
    start_urls = ["http://www.amazon.com/s/ref=sr_nr_n_0?rh=n:133140011,n:!133141011,n:154606011,n:668010011,n:158591011,n:158592011amp;bbn=158591011amp;ie=UTF8amp;qid=1403264414amp;rnid=158591011"]   

    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        items = hxs.select('//*[@id="resultsCol"]').re('/dp/B00.*digital-text')
        for item in items:
            link = item.extract()
            print link

1. Вы пробовали этот xpath? //span[@class="lrg bold"]/../@href Должно выдать вам все ссылки для всех книг. Если в списке есть не только kindle books (на этой странице есть только ссылки на kindle book), то вы, вероятно, могли бы просто настроить свой xpath, чтобы получить необходимые результаты.

2. на самом деле я написал другую версию своего кода. Я использую SGML extractor для извлечения ссылок с помощью регулярного выражения. Это мой код:pastebin.com/UZYNJjW4 Но это не соответствует ссылкам

Вопрос:

Комментарии:

Вам также может понравиться

Тип покупки в приложении, который будет использоваться для приведенных ниже требований

grep между списком объектов

Складывание иконок в Icomoon, как fa-stack шрифтом Awesome