#python #html
#python #HTML
Вопрос:
Я все еще не могу понять, как извлекать ссылки, подобные этой:
http: example.com/AA-HDCM-300B.pdf
Поскольку я хочу извлечь номер детали продукта, "AA-HDCM-300B"
который начинается с "AA-"
.
Кто-нибудь знает, каким будет код извлечения?
Комментарии:
1. Пожалуйста, предоставьте больше примеров ссылок
2. idview.com/IDVIEW/Products/Cameras/Covert/assets/IV-PC229XP.pdf
3. Итак, вы хотите извлечь
IV-PC229XP
из этой ссылки?4. ДА. Абсолютно. Вы знаете, как написать код извлечения? Я пытался, но всегда терпел неудачу.
5. Всегда ли в имени файла pdf указывается номер продукта?
Ответ №1:
import re
url = 'dview.com/IDVIEW/Products/Cameras/Covert/assets/IV-PC229XP.pdf'
result = re.findall('(IV.*).', url)
Вывод:
IV-PC229XP
Комментарии:
1. Но если у меня есть тысячи ссылок из HTML, и некоторые из них не содержат номера детали? Вот почему я хотел бы использовать re для извлечения строки, начинающейся с некоторых определенных слов.
2. Из какого источника вы хотите извлечь номер детали?
3. Я выполнил веб-очистку и загрузил html-файл для ссылок. Среди этих ссылок я мог видеть номер продукта. Именно по этой причине я хотел бы использовать re для извлечения номеров продуктов из html-ссылок.
4. Можете ли вы показать примеры ссылок, которые
don't contain the part number
?5.url = ‘adobe.com/go/getflashplayer idview.com/IDVIEW/products/Cameras/UltraHD/…