Ошибка: В файлах дампа html после очистки веб-страниц

#java #web-scraping #httprequest

Вопрос:

Я пытаюсь сбросить html-страницы после веб-очистки с помощью java.

 Matcher linkState= BaseAgent.getMatches(browser, linkReg, null);
if (linkState.find()) {
    this.navigate(browser, fieldValuesSet,LOGIN, "http://isupplier.dpispecialtyfoods.com" getMatcherGroupData(linkState,1));
    //this.dumpDocument(browser,null,"login.html","C:\Users\vassudha.singh\HighRadiusCorporation");
    this.dumpDocument(browser,"login.html");
} else {
    LOG.debug(" Link mismatch or not found");
}
    
 

Но страница входа в систему показывает ошибку.. файл .js содержит ошибку: «var _UixWindowOpenError=’В вашем браузере был обнаружен блокировщик всплывающих окон.Блокировщики всплывающих окон мешают работе этого приложения. Пожалуйста, отключите блокировку всплывающих окон или разрешите всплывающие окна с этого сайта».

Я отключил блокировку всплывающих окон в Internet Explorer и Chrome и Firefox с помощью

Инструменты > Блокировщик всплывающих окон >> Отключить блокировку всплывающих окон >>> разрешить всплывающие окна с объявлениями

Но ошибка все равно возникает. Как я могу проверить и отключить блокировщик всплывающих окон? Или есть что-то, чего я не могу обнаружить.

 http-outgoing-3 << "<!-- METADATA_SOURCE - JRAD --><!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"><html dir="ltr" lang="en-US-ORACLE9I"><head><title>Error</title><meta name="generator" content="Oracle UIX"><link rel="stylesheet" charset="UTF-8" type="text/css" href="/OA_HTML/cabo/styles/cache/swanEXTN-custom-2_3_6_9-en.css"><script>var _UixWindowOpenError='A popup window blocker has been detected in your browser. Popup blockers interfere with the operation of this application. Please disable your popup blocker or allow popups from this site.';</script><script src="/OA_HTML/cabo/jsLibs/Common2_3_6_9.js"></script><script>_defaultTZ()</script><script language="javascript" src="/OA_HTML/cabo/oajsLibs/oafcoreR12RUP6.js"></script></head><body class="xk" onload="_checkLoad(event)" onunload="_checkUnload(event)"><iframe id="_pprIFrame" name="_pprIFrame" frameborder="0" longdesc="#" title="" src="about:blank" style="position:absolute;top:-100;visibility:hidden" width="0" height="0"></iframe>
 

Я также проверил все заголовки и все регулярные выражения на предмет очистки.
HTML-страница входа в систему выглядит следующим образом:

login.html

Если вам нужны файлы журналов или код. Я рад поделиться с вами. Заранее спасибо.

Ответ №1:

Веб-страницы обычно загружают внешние ресурсы, такие как js и json. Если содержимое загружается через такой ресурс, сброшенный html-файл больше не сможет получить доступ к этому содержимому из-за CORS.