Как выполнить регулярное выражение для извлечения строки из HTML-файла

#python #html

#python #HTML

Вопрос:

Я все еще не могу понять, как извлекать ссылки, подобные этой:

 http: example.com/AA-HDCM-300B.pdf
  

Поскольку я хочу извлечь номер детали продукта, "AA-HDCM-300B" который начинается с "AA-" .

Кто-нибудь знает, каким будет код извлечения?

Комментарии:

1. Пожалуйста, предоставьте больше примеров ссылок

2. idview.com/IDVIEW/Products/Cameras/Covert/assets/IV-PC229XP.pdf

3. Итак, вы хотите извлечь IV-PC229XP из этой ссылки?

4. ДА. Абсолютно. Вы знаете, как написать код извлечения? Я пытался, но всегда терпел неудачу.

5. Всегда ли в имени файла pdf указывается номер продукта?

Ответ №1:

 import re

url = 'dview.com/IDVIEW/Products/Cameras/Covert/assets/IV-PC229XP.pdf'
result = re.findall('(IV.*).', url)
  

Вывод:

 IV-PC229XP
  

Комментарии:

1. Но если у меня есть тысячи ссылок из HTML, и некоторые из них не содержат номера детали? Вот почему я хотел бы использовать re для извлечения строки, начинающейся с некоторых определенных слов.

2. Из какого источника вы хотите извлечь номер детали?

3. Я выполнил веб-очистку и загрузил html-файл для ссылок. Среди этих ссылок я мог видеть номер продукта. Именно по этой причине я хотел бы использовать re для извлечения номеров продуктов из html-ссылок.

4. Можете ли вы показать примеры ссылок, которые don't contain the part number ?

5.url = ‘adobe.com/go/getflashplayer idview.com/IDVIEW/products/Cameras/UltraHD/…