Извлечение только тегов из текстового файла html

#c# #html

#c# #HTML

Вопрос:

Я работаю над методом стеганографии, который скрывает текст внутри HTML-тегов.
например, этот тег: <heEAd> я должен извлечь каждый символ из тега, а затем
проанализировать регистр буквы, если она заглавная, тогда бит устанавливается равным 1, иначе 0 и я также хочу проверить конец, если он видит соответствующий закрывающий тег / head


вот код :

 WebClient client = new WebClient();
String htmlCode = client.DownloadString("url");
String Tags = "";

    for(int i = 0; i < htmlCode.Length; i  ){
     if(htmlCode[i] ='<'){
      if(htmlCode[i] = '>')
       continue;
      else{
      Tags  = htmlCode[i];
         }
      }

}
  

Эта логика ужасна, но как мне использовать IndexOf и lastIndexOf , чтобы получить желаемое
substring Я пытался использовать это, но я просто что-то упускаю из-за недостатка моих знаний о c#

Ответ №1:

Я думаю, вам нужно использовать REGEX.

Я пытался сделать это однажды с Substring , и у меня было много работы. В последнем случае я решил использовать regex, и это было проще, чем в первом.

 var regex = new Regex(@"(?<=<head>).*(?=</head>)");
return regex.Matches(strInput);