#python #html #web-scraping #python-requests-html
Вопрос:
Я пытаюсь собрать данные с этого URL-адреса, но все, что я пытаюсь использовать, не работает.
Теги, которые я хочу собрать, на картинке ниже, никогда не отображаются в ответе на мой запрос.
Я предполагаю, что это, возможно, динамическая веб-страница java-скрипта. Как я мог собрать эту информацию?
Мои попытки
from requests_html import HTMLSession
session = HTMLSession()
url = "https://esaj.tjsp.jus.br/cpopg/show.do?conversationId=amp;cbPesquisa=NUMPROCamp;numeroDigitoAnoUnificado=1001035-70.2017amp;foroNumeroUnificado=0102amp;dadosConsulta.valorConsultaNuUnificado=10010357020178260102amp;dadosConsulta.valorConsultaNuUnificado=UNIFICADOamp;dadosConsulta.valorConsulta=amp;dadosConsulta.tipoNuProcesso=UNIFICADOamp;uuidCaptcha=sajcaptcha_f1d8c2dfcba844d198c779150c7b6c21amp;g-recaptcha-response=03AGdBq25WlWBW06ytO1_Mbv7LKUUc1nPLhJNQUYUUcOKMo2nlflJR9S6X3QHt4bHFKaXv5vs96NxdaUsHHz7Y6TrsmqnsylpYChzwISKtoFYRFCklaiNEjjj1A7CmToCplvsZk8vopvoUOOq15dIcEL4jCadJeZX1pKV9bj-rL00-LmaYwVFnJHdEryYvWWAFWKYC1BWQkCQ0fcLtQg5dnCKGVuzZGesCgghiQLIwi0ht0gau92vrJzPbUH6pPYDGEctfujczdJlqoIGg9Jhody2yfLVEYZhp8rQrkmzynqDR74t3KP-komFKWVcjqoSH0Pa_NpFOlgUjgYGTO9oqpaVK7mQJJJCqGD-aWRMH4fXHWd8topqZ73NyaFwYXK3ybepPH2YU9SY4d1RMaV9_ZGke2v0P7t7mqvxI6wPtx-NGB3omcIH5XPtS7M-qJw92eyS0Q_dxJN-nxrRkuLVDMqQoJ2XlB8Nckgamp;processo.codigo=2U0000FDR0000"
r = session.get(url)
r.html.render(sleep=1)
spans = r.html.xpath('//*[@id="numeroProcesso"]')
print(spans)
Результат:
>>> []
Этот небольшой фрагмент кода всегда показывает пустой список. Это почему? Я отрисовал веб — страницу с помощью этой r.html.render()
функции…
Многие другие необходимые сведения, такие как приведенные ниже имена, продолжают следовать одному и тому же шаблону, не могут найти свои теги в ответе на запрос.
Комментарии:
1. Я не могу использовать селен, потому что меня блокирует рекапча