Чтение только содержимого HTML со страницы веб-сайта

#c# #asp.net

#c# #asp.net

Вопрос:

Я использую C #, и я хотел бы удалить весь контент на сайте (но не изображения, скрипты или файлы, которые могут быть прикреплены к странице). Как мне сделать это с помощью C # и ASP.NET ?

Комментарии:

1. Вы хотите читать HTML страницы на стороне сервера или как?

2. Вам нужно предоставить более подробную информацию, ваш вопрос неясен.

3. Вы хотите извлекать текст только с веб-страницы?

Ответ №1:

Привет, для этого вы можете использовать следующий фрагмент кода из ЗДЕСЬ:

 StringBuilder sb  = new StringBuilder();
byte[]        buf = new byte[8192];

HttpWebRequest  request  = (HttpWebRequest)WebRequest.Create("http://www.your-url.com");
HttpWebResponse response = (HttpWebResponse)request.GetResponse();

Stream resStream = response.GetResponseStream();

string tempString = null;
int    count      = 0;
do
{
    count = resStream.Read(buf, 0, buf.Length);

    if (count != 0)
    {
        tempString = Encoding.ASCII.GetString(buf, 0, count);
        sb.Append(tempString);
    }
}
while (count > 0);

Console.WriteLine(sb.ToString());
  

Ответ №2:

Вы также можете получить HTML Render методом Page следующим образом.

 protected override void Render(System.Web.UI.HtmlTextWriter writer)
        {

            StringBuilder sb = new StringBuilder();
            StringWriter sw = new StringWriter(sb);

            HtmlTextWriter writer = new HtmlTextWriter(sw);
            base.Render(writer);
            string markupText = sb.ToString();
            // markupText will contain the HTML of the Page
            writer.Write(markupText);
        }