Очистите информацию о ссылке iXBRL внутри исходного кода с помощью python Beautiful Soup

#python #beautifulsoup

Вопрос:

Прежде всего, вот страница, которую я хочу очистить : https://find-and-update.company-information.service.gov.uk/company/09382107/filing-history

У меня есть скрипт на python, который в настоящее время получает все файлы iXBRL и сохраняет их в моей папке. Я хотел бы получить информацию об этих файлах : «Дата» и «Описание» в виде строки, моя проблема в том, что я хочу получить только «Дату» и «Описание» файла по ссылке iXBRL.

Это то, что у меня есть до сих пор:

 link_filling_historic = "https://find-and-update.company-information.service.gov.uk/company/09382107/filing-history"
r = requests.get(link_filling_historic)
html = r.text
soup = BeautifulSoup(html, "html.parser")

info = soup.find('table', {'class': 'full-width-table'})
info = soup.findChildren(['tr'])
info_of_iXBRL_files = []
other_info = []


for item in info:
  if "xhtml" in item:
     info_of_iXBRL_files.append(item)
  else :
     other_info.append(item)

print(info_of_iXBRL_files)
 

выход :

 []
 

Моя идея состояла в том, чтобы сохранить элемент из моего списка с «xhtml» внутри него и удалить другой, чтобы затем можно было легко извлечь текст из каждого элемента.
Вывод представляет собой пустой список, означающий, что он не распознает строку «xhtml» в элементе моего списка. Я не понимаю, почему

Есть какие-нибудь предложения о том, как я мог бы заставить это работать? Заранее спасибо.

Ответ №1:

 import requests
from bs4 import BeautifulSoup
URL = 'https://find-and-update.company-information.service.gov.uk/company/09382107/filing-history'
page = requests.get(URL)
soup = BeautifulSoup(page.content)
table_div = soup.find('table',class_='full-width-table')
rows = table_div.find_all('tr')
table = {}
row_index = 1
for tr in rows:
    tds = tr.find_all('td')
    ls = []
    td_index = 0
    for td in tds:
        text = td.get_text().strip()
        if td_index != 1 and td_index != 3:
            ls.append(text)
        if td_index == 3:
            #a = td.find_all('a',string="Download iXBRL",href=True)
            #if len(a) > 0:
                #for tag in a:
                    #href = tag['href']
            a = td.select_one('a',string="Download iXBRL",href=True)
            if a:
                href = a['href']
                ls.append(href)
                table[row_index] = ls
                row_index  = 1
        td_index  = 1    
print(table)
 

Выход

 {1: ['04 Mar 2021',
  'Micro company accounts made up to 31 December 2019',
  '/company/09382107/filing-history/MzI5MzM0OTU0OGFkaXF6a2N4/document?format=xhtmlamp;download=1'],
 2: ['04 Mar 2021',
  'Micro company accounts made up to 31 December 2018',
  '/company/09382107/filing-history/MzI5MzMzNTIwM2FkaXF6a2N4/document?format=xhtmlamp;download=1'],
 3: ['09 Nov 2018',
  'Accounts for a dormant company made up to 31 December 2017',
  '/company/09382107/filing-history/MzIxOTA5MTA2N2FkaXF6a2N4/document?format=xhtmlamp;download=1'],
 4: ['06 Dec 2017',
  'Accounts for a dormant company made up to 31 January 2017',
  '/company/09382107/filing-history/MzE5MjEyNzU2M2FkaXF6a2N4/document?format=xhtmlamp;download=1'],
 5: ['04 Nov 2016',
  'Accounts for a dormant company made up to 31 January 2016',
  '/company/09382107/filing-history/MzE2MTE5NTk3NWFkaXF6a2N4/document?format=xhtmlamp;download=1']}
 

В этой таблице в вашем выводе есть td без необходимости с индексом 1