#c# #web-scraping
#c# #очистка веб-страниц
Вопрос:
Простой пример: страница поиска Google.
http://www.google.com/search ?q=foobar
Когда я получаю исходный код страницы, я получаю базовый JavaScript. Мне нужна результирующая страница. Что мне делать?
Ответ №1:
Даже если это выглядит так, как будто это всего лишь javascript, на самом деле это полный HTML, вы можете легко подтвердить с помощью HtmlAgilityPack:
HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load("http://www.google.com/search?q=foobar");
string html = doc.DocumentNode.OuterHtml;
var nodes = doc.DocumentNode.SelectNodes("//div"); //returns 85 nodes
Комментарии:
1. Как мне получить доступ к HTML?
html
Переменная содержит скрипт.2. @Igor: найдите
<body>
тег — после этого начнется HTML-содержимое