как я могу открыть URL-адрес внутри другого URL-адреса с помощью Python?

#python #url #urllib

#питон #url — адрес #urllib — адрес #python #URL #urllib

Вопрос:

мне нужно открыть URL-адрес, который находится внутри другого URL, но я не знаю, как это сделать

это код, который я написал (я новичок), и он отправляет мне трассировку: URLError: <ошибка urlopen неизвестный тип URL: «http>

пожалуйста, помогите мне

спасибо тебе

 import re 
import urllib.request, urllib.parse, urllib.error

fhand=urllib.request.urlopen("http://dr-chuck.com/page1.htm")
for line in fhand:
    words=line.decode().strip()
    if re.search("href=", words):
        print(words)
        w=words.split()
        print(w)
        i=w[1]
        print(i)
        p=i[5:40]
        print(p)
        q=urllib.request.urlopen(p)
        print(q)
  

Комментарии:

1. Здравствуйте, пожалуйста, включите выходные данные выше, чтобы мы знали, что делает код и что хранится в различных переменных выше. В общем, подход поиска ссылок может быть проблематичным. Вы можете обнаружить, что поиск ссылок, сохранение в списке и последующая обработка могут помочь вам разделить задачи «поиска» ссылок и «открытия» ссылок.

Ответ №1:

Вопрос слишком широкий, чтобы дать прямой ответ, однако в качестве общего подхода вам нужно будет использовать библиотеку очистки, такую как Scrapy или BeautifulSoup .

Затем вы должны выполнить GET запрос по родительскому URL-адресу (т. Е.http://dr-chuck.com/page1.htm ) и проанализировать HTML этой страницы. Затем вы должны настроить таргетинг и извлечь href HTML-тег и сохранить сам URL-адрес в другую переменную, а затем выполнить другой запрос GET для этого.