Как очистить страницу, созданную с помощью скрипта на C #?

#c# #web-scraping

#c# #очистка веб-страниц

Вопрос:

Простой пример: страница поиска Google.

http://www.google.com/search ?q=foobar

Когда я получаю исходный код страницы, я получаю базовый JavaScript. Мне нужна результирующая страница. Что мне делать?

Ответ №1:

Даже если это выглядит так, как будто это всего лишь javascript, на самом деле это полный HTML, вы можете легко подтвердить с помощью HtmlAgilityPack:

 HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();
HtmlAgilityPack.HtmlDocument doc = web.Load("http://www.google.com/search?q=foobar");
string html = doc.DocumentNode.OuterHtml;
var nodes = doc.DocumentNode.SelectNodes("//div"); //returns 85 nodes
  

Комментарии:

1. Как мне получить доступ к HTML? html Переменная содержит скрипт.

2. @Igor: найдите <body> тег — после этого начнется HTML-содержимое