#python #web-scraping #scrapy #fragment-identifier
#python #очистка веб-страницы #scrapy #фрагмент-идентификатор
Вопрос:
Я использую python scrapy для очистки веб-сайта. Веб-страница имеет вид http://www.cuponation.in/myntra-coupons#voucher-13537 он содержит в себе ‘#’. При очистке этой веб-страницы как start_url она игнорирует часть после #.
Есть ли способ, которым я могу очистить fullurl с # в нем, используя python scrapy
Комментарии:
1.
#
просто приведет вас к определенному месту на странице.
Ответ №1:
При очистке обычно игнорируется следующая часть #
. Символ обычно приводит вас к <div>
тегу на веб-странице, который имеет id
значение ‘voucher-13537’, вот и все, что он означает. Поэтому, как только вы очистите страницу, вам следует попытаться найти что-то похожее на:
<div id="voucher-13537">
и это то, что вы искали бы.
Говоря о синтаксическом анализе html-файлов, если вы еще не используете его, я бы посоветовал вам заглянуть в BeautifulSoup4
module .
Комментарии:
1. 1 за упоминание BeautifulSoup4, который может быть более подходящим для OP