как я могу удалить содержимое html из выходных данных?

#python-2.7 #web-crawler

#python-2.7 #веб-сканер

Вопрос:

 import urllib

data = urllib.urlopen("https://www.python.org/")
for line in data:
    line.strip()
    print line
  

Я пытаюсь создать веб-сканер, но когда я запускаю приведенный выше код, некоторые HTML-материалы также печатаются.Мне нужна только текстовая часть веб-страницы и гиперссылки

Ответ №1:

Используйте библиотеку beautiful soup для создания веб-сканера и обработки HTML-тегов.

Ответ №2:

Несколько элементарным решением было бы .разбить по тегам «<» и «>», а затем просто проверить результирующий список, чтобы удалить элементы, начинающиеся с любого «<» и заканчивающиеся следующим «>».