Игнорирование ошибок синтаксического анализа с помощью Html Agility Pack?

#c# #html #html-agility-pack #pack

#c# #HTML #html-agility-pack #пакет

Вопрос:

Я пытаюсь разобрать одну страницу с YouTube… Который на самом деле не свободен от синтаксических ошибок. Html Agility Pack кричит об этих ошибках и ничего не возвращает в результате.

http://codepaste.net/gh3hco

Ответ №1:

Я не пробовал это, но, основываясь на предложении на их форуме, вы можете использовать HTML Tidy или аккуратный.СНАЧАЛА используйте NET для очистки HTML. При желании вы могли бы найти ошибочные теги и удалить их на этапе предварительной обработки.

Комментарии:

1. Привет, TrueWill, не хочу здесь ничего перегружать, но я подумал, что причина, по которой люди выбирают пакет agility, заключается в том, чтобы устранить необходимость удалять любые теги на этапе предварительной обработки. Я только что потратил 3 часа и, в частности, написал 6 предварительных шагов, чтобы попробовать прочитать некоторый HTML с помощью библиотеки vanilla XML, прежде чем я нашел htmlagilitypack. Мне нужна крысоловка, а не мышеловка, есть ли там что-нибудь автономное?

2. @ConradB — Насколько я знаю, нет. Вы могли бы попробовать опубликовать отдельный вопрос для этого; возможно, кто-то еще знает об одном.