#python #xml #regex #xpath #scrapy
#python #xml #регулярное выражение #xpath #scrapy
Вопрос:
Я пытаюсь выбрать только ссылки этого типа http://lyricsindia.net/songs/show/*
из HTML, который содержит ссылки, подобные этому:
<a href="http://lyricsindia.net/songs/show/550" class=l>LyricsIndia.net dhiimii </a>
<a href="http://smriti.com/hindi-songs/dhiimii-dhiimii-bhiinii-bhiinii-utf8" class=l>dhiimii Songs Archive</a>
Я просмотрел документацию Scrapy, но не смог разобраться в этом. Есть идеи?
Ответ №1:
Попробуйте этот XPath:
//a[starts-with(@href, 'http://lyricsindia.net/songs/show/')]