#python-2.7 #web-crawler
#python-2.7 #веб-сканер
Вопрос:
import urllib
data = urllib.urlopen("https://www.python.org/")
for line in data:
line.strip()
print line
Я пытаюсь создать веб-сканер, но когда я запускаю приведенный выше код, некоторые HTML-материалы также печатаются.Мне нужна только текстовая часть веб-страницы и гиперссылки
Ответ №1:
Используйте библиотеку beautiful soup для создания веб-сканера и обработки HTML-тегов.
Ответ №2:
Несколько элементарным решением было бы .разбить по тегам «<» и «>», а затем просто проверить результирующий список, чтобы удалить элементы, начинающиеся с любого «<» и заканчивающиеся следующим «>».