Как очистить URL-адрес, содержащий #, используя python scrapy

#python #web-scraping #scrapy #fragment-identifier

#python #очистка веб-страницы #scrapy #фрагмент-идентификатор

Вопрос:

Я использую python scrapy для очистки веб-сайта. Веб-страница имеет вид http://www.cuponation.in/myntra-coupons#voucher-13537 он содержит в себе ‘#’. При очистке этой веб-страницы как start_url она игнорирует часть после #.

Есть ли способ, которым я могу очистить fullurl с # в нем, используя python scrapy

Ответ №1:

При очистке обычно игнорируется следующая часть # . Символ обычно приводит вас к <div> тегу на веб-странице, который имеет id значение ‘voucher-13537’, вот и все, что он означает. Поэтому, как только вы очистите страницу, вам следует попытаться найти что-то похожее на:

 <div id="voucher-13537">

и это то, что вы искали бы.

Говоря о синтаксическом анализе html-файлов, если вы еще не используете его, я бы посоветовал вам заглянуть в BeautifulSoup4 module .