#selenium #web-scraping #beautifulsoup
#selenium #очистка веб-страниц #beautifulsoup
Вопрос:
У меня есть этот веб-сайт, который мне нужно очистить.
Моя цель — очистить весь новостной контент с ключевым словом «Пакистан»
Пока я могу очистить содержимое только при наличии URL-адреса. Например:
from newspaper import Article
import nltk
nltk.download('punkt')
url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary
Из этого кода я написал, что хотел бы скопировать и вставить все URL-адреса, а это слишком сложно сделать вручную. У вас есть какие-либо идеи о том, как это сделать?
Комментарии:
1. Один из способов сделать это — использовать URL-адрес поиска , а затем получить все ссылки на странице. Как только вы это сделаете, вы можете создать еще один цикл кода, чтобы очистить все URL-адреса от первоначально удаленных URL-адресов.
2. Да! Я извлек ссылки с помощью javascript и перешел оттуда.
Ответ №1:
лучше goto> https://www.dawn.com/pakistan amp; download (.html) затем очистите весь новостной контент, а затем разделите его с помощью ключевых слов.