Как очистить веб-сайт, на котором нет сведений на странице проверки?

#selenium #web-scraping #beautifulsoup

#selenium #очистка веб-страниц #beautifulsoup

Вопрос:

У меня есть этот веб-сайт, который мне нужно очистить.

https://www.dawn.com

Моя цель — очистить весь новостной контент с ключевым словом «Пакистан»

Пока я могу очистить содержимое только при наличии URL-адреса. Например:

 from newspaper import Article
import nltk
nltk.download('punkt')

url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary
  

Из этого кода я написал, что хотел бы скопировать и вставить все URL-адреса, а это слишком сложно сделать вручную. У вас есть какие-либо идеи о том, как это сделать?

Комментарии:

1. Один из способов сделать это — использовать URL-адрес поиска , а затем получить все ссылки на странице. Как только вы это сделаете, вы можете создать еще один цикл кода, чтобы очистить все URL-адреса от первоначально удаленных URL-адресов.

2. Да! Я извлек ссылки с помощью javascript и перешел оттуда.

Ответ №1:

лучше goto> https://www.dawn.com/pakistan amp; download (.html) затем очистите весь новостной контент, а затем разделите его с помощью ключевых слов.