#c# #html #regex #screen-scraping
#c# #HTML #регулярное выражение #очистка экрана
Вопрос:
Я новичок в сообществе и сначала хочу представиться. Меня зовут Бен, и я люблю программировать, но я начал программировать около 2 лет назад и с тех пор кодировал не очень много (может быть, часов 50 вообще).
Итак, мой вопрос заключается в следующем. Я хочу очистить некоторые данные с веб-сайта, и это работает почти идеально, но проблема в том, что у меня есть строка в исходном коде, подобная этой: -> «ключ»: «Имя», «роль», и я хочу захватить только имя без каких-либо кавычек. Теперь мой код выглядит следующим образом:
MatchCollection AllChampionName = Regex.Matches(html, @"keys*(. ?)s*role", RegexOptions.Singleline);
Но результат в моем текстовом поле выглядит следующим образом: «:»Имя»,»
Я знаю почему, но я не знаю, как я могу с этим справиться, потому что я не знаю, как работает regex.
Может кто-нибудь, пожалуйста, подсказать мне правильный код, чтобы я получал только Name без кавычек и, возможно, источник, где я могу больше прочитать о Regex и о том, как это работает с командами, потому что я не нашел хорошего источника: (
Редактировать: Я программирую на C #.
Большое спасибо!
Комментарии:
1. Не используйте regex для извлечения данных из JSON, используйте
JSON.NET
. Если это находится внутри HTML, также используйте анализатор HTML.2. Хорошо, спасибо. Не знал, что JSON.NET существует. Как я могу сканировать как часть с HTML-сайта. Я имею в виду часть JSON. Это начинается с: <script> keymaking.data = [и затем файл JSON]. Я пытался использовать HtmlAgilityPack, но понятия не имею, как его использовать…