jsoup — не удается получить определенный веб-сайт

#java #html #dom #jsoup

#java #HTML #dom #jsoup

Вопрос:

Я использую последнюю версию jsoup (1.13.1) в последней Eclipse IDE для разработчиков Java (включает инкубирующие компоненты) Версия: 2020-09 (4.17.0) Идентификатор сборки: 20200910-1200.

Я пытаюсь проанализировать очень специфический веб-сайт, но безуспешно. После того, как я выполню эти строки: doc = Jsoup.connect(«http://pokehb.pw/עונה/21/פרק/43 «).get(); doc.select(«заголовок»).forEach(System.out::println);

Ничего не печатается. Дело не только в том, что какой-либо элемент или свойство страницы недоступны.

Да, URL-адрес странный, но это тот, который мне нужен, я могу нормально просматривать его в Chrome. Я также знаю, что теперь это связано с ивритом на веб-сайте, так как другие сайты на иврите работают нормально.

Например, использование этого URL-адреса кажется нормальным: https://context.reverso.net/translation/hebrew-english/לכתובת url-адрес

Любой намек на то, что можно сделать?

Ответ №1:

Что я могу вам сказать, так это то, что в файлах cookie есть «laravel_session». Это говорит о том, что вам понадобится более эффективная технология, чем JSoup. Вместо этого попробуйте HtmlUnit, и это может сработать.

Ответ №2:

В итоге я использовал эту команду: doc = Jsoup.parse(driver.getPageSource());

Который привел весь исходный код страницы в документ. Оттуда это было простое использование getElementsByClass и getElementsByTag .

Надеюсь, это кому-то поможет, и спасибо Робу за попытку ответить.