#python #url #urllib
#питон #url — адрес #urllib — адрес #python #URL #urllib
Вопрос:
мне нужно открыть URL-адрес, который находится внутри другого URL, но я не знаю, как это сделать
это код, который я написал (я новичок), и он отправляет мне трассировку: URLError: <ошибка urlopen неизвестный тип URL: «http>
пожалуйста, помогите мне
спасибо тебе
import re
import urllib.request, urllib.parse, urllib.error
fhand=urllib.request.urlopen("http://dr-chuck.com/page1.htm")
for line in fhand:
words=line.decode().strip()
if re.search("href=", words):
print(words)
w=words.split()
print(w)
i=w[1]
print(i)
p=i[5:40]
print(p)
q=urllib.request.urlopen(p)
print(q)
Комментарии:
1. Здравствуйте, пожалуйста, включите выходные данные выше, чтобы мы знали, что делает код и что хранится в различных переменных выше. В общем, подход поиска ссылок может быть проблематичным. Вы можете обнаружить, что поиск ссылок, сохранение в списке и последующая обработка могут помочь вам разделить задачи «поиска» ссылок и «открытия» ссылок.
Ответ №1:
Вопрос слишком широкий, чтобы дать прямой ответ, однако в качестве общего подхода вам нужно будет использовать библиотеку очистки, такую как Scrapy
или BeautifulSoup
.
Затем вы должны выполнить GET
запрос по родительскому URL-адресу (т. Е.http://dr-chuck.com/page1.htm ) и проанализировать HTML этой страницы. Затем вы должны настроить таргетинг и извлечь href
HTML-тег и сохранить сам URL-адрес в другую переменную, а затем выполнить другой запрос GET для этого.