#python #xml #web-scraping #jsl
#питон #xml — файл #очистка веб-страниц #jsl
Вопрос:
Страница комментариев к обзору мест на картах Google содержит jsl
тег, инкапсулирующий почти всю body
страницу.
Я попытался очистить теги, но все, что инкапсулировано jsl
, не распознается (пробовал scrapy
scrapy shell
и beautifulSoup
, оба с синтаксисом xpath. Также пытался использовать lxml
библиотеку, но безуспешно).
В stackoverflow
, а также в поиске Google не так много информации об этом теге, и я ничего не понял из того, что я нашел.
Что такое jsl
тег и как сделать так, чтобы он был обнаружен selector
? Не могли бы вы мне помочь, пожалуйста?
Ответ №1:
JSL, похоже, является вариантом XSLT для применения шаблонов к веб-страницам — https://commons.apache.org/proper/commons-jelly/libs/jsl/index.html