#c# #html #html-agility-pack #pack
#c# #HTML #html-agility-pack #пакет
Вопрос:
Я пытаюсь разобрать одну страницу с YouTube… Который на самом деле не свободен от синтаксических ошибок. Html Agility Pack кричит об этих ошибках и ничего не возвращает в результате.
Ответ №1:
Я не пробовал это, но, основываясь на предложении на их форуме, вы можете использовать HTML Tidy или аккуратный.СНАЧАЛА используйте NET для очистки HTML. При желании вы могли бы найти ошибочные теги и удалить их на этапе предварительной обработки.
Комментарии:
1. Привет, TrueWill, не хочу здесь ничего перегружать, но я подумал, что причина, по которой люди выбирают пакет agility, заключается в том, чтобы устранить необходимость удалять любые теги на этапе предварительной обработки. Я только что потратил 3 часа и, в частности, написал 6 предварительных шагов, чтобы попробовать прочитать некоторый HTML с помощью библиотеки vanilla XML, прежде чем я нашел htmlagilitypack. Мне нужна крысоловка, а не мышеловка, есть ли там что-нибудь автономное?
2. @ConradB — Насколько я знаю, нет. Вы могли бы попробовать опубликовать отдельный вопрос для этого; возможно, кто-то еще знает об одном.