#java #html #dom #jsoup
#java #HTML #dom #jsoup
Вопрос:
Я использую последнюю версию jsoup (1.13.1) в последней Eclipse IDE для разработчиков Java (включает инкубирующие компоненты) Версия: 2020-09 (4.17.0) Идентификатор сборки: 20200910-1200.
Я пытаюсь проанализировать очень специфический веб-сайт, но безуспешно. После того, как я выполню эти строки: doc = Jsoup.connect(«http://pokehb.pw/עונה/21/פרק/43 «).get(); doc.select(«заголовок»).forEach(System.out::println);
Ничего не печатается. Дело не только в том, что какой-либо элемент или свойство страницы недоступны.
Да, URL-адрес странный, но это тот, который мне нужен, я могу нормально просматривать его в Chrome. Я также знаю, что теперь это связано с ивритом на веб-сайте, так как другие сайты на иврите работают нормально.
Например, использование этого URL-адреса кажется нормальным: https://context.reverso.net/translation/hebrew-english/לכתובת url-адрес
Любой намек на то, что можно сделать?
Ответ №1:
Что я могу вам сказать, так это то, что в файлах cookie есть «laravel_session». Это говорит о том, что вам понадобится более эффективная технология, чем JSoup. Вместо этого попробуйте HtmlUnit, и это может сработать.
Ответ №2:
В итоге я использовал эту команду: doc = Jsoup.parse(driver.getPageSource());
Который привел весь исходный код страницы в документ. Оттуда это было простое использование getElementsByClass и getElementsByTag .
Надеюсь, это кому-то поможет, и спасибо Робу за попытку ответить.