Как успешно очистить веб-страницу для ссылок в заголовках, используя газету

#python

#python

Вопрос:

Я пытаюсь очистить ссылки на заголовки на finviz.com использование библиотеки Python под названием newspaper. Я успешно очищаю ссылки на реальном веб-сайте, но когда я ищу конкретную компанию, она оказывается пустой.

Вот пример моего кода.

     import newspaper
    news_site = newspaper.build("https://finviz.com/")
    news_site.article_urls()
  

Приведенный выше код работает довольно хорошо и дал мне то, что я хочу, но когда я использую приведенный ниже код, он выводит пустой список вместо списка всех ссылок на заголовки.

     import newspaper
    news_site = newspaper.build("https://finviz.com/quote.ashx?t=GOOGL")
    news_site.article_urls()
  

Единственное отличие здесь в том, что я ищу новости, связанные с акциями GOOGL, и пытаюсь получить все эти ссылки.

Что я могу сделать по-другому, чтобы я мог получить список ссылок в заголовках по этой ссылке.

     https://finviz.com/quote.ashx?t=GOOGL
  

Пример кода тоже будет полезен, спасибо

Ответ №1:

Используйте этот фрагмент, он работает на моей машине

 import newspaper
news_site = newspaper.build("https://finviz.com/quote.ashx?t=GOOGL",memoize_articles=False, fetch_images=False)
news_site.article_urls()
  

Комментарии:

1. Эй, это все еще дает мне контент из finviz.com

2. Я специально хочу, чтобы контент из finviz.com/quote.ashx?t=GOOGL