#python #beautifulsoup
Вопрос:
Прежде всего, вот страница, которую я хочу очистить : https://find-and-update.company-information.service.gov.uk/company/09382107/filing-history
У меня есть скрипт на python, который в настоящее время получает все файлы iXBRL и сохраняет их в моей папке. Я хотел бы получить информацию об этих файлах : «Дата» и «Описание» в виде строки, моя проблема в том, что я хочу получить только «Дату» и «Описание» файла по ссылке iXBRL.
Это то, что у меня есть до сих пор:
link_filling_historic = "https://find-and-update.company-information.service.gov.uk/company/09382107/filing-history"
r = requests.get(link_filling_historic)
html = r.text
soup = BeautifulSoup(html, "html.parser")
info = soup.find('table', {'class': 'full-width-table'})
info = soup.findChildren(['tr'])
info_of_iXBRL_files = []
other_info = []
for item in info:
if "xhtml" in item:
info_of_iXBRL_files.append(item)
else :
other_info.append(item)
print(info_of_iXBRL_files)
выход :
[]
Моя идея состояла в том, чтобы сохранить элемент из моего списка с «xhtml» внутри него и удалить другой, чтобы затем можно было легко извлечь текст из каждого элемента.
Вывод представляет собой пустой список, означающий, что он не распознает строку «xhtml» в элементе моего списка. Я не понимаю, почему
Есть какие-нибудь предложения о том, как я мог бы заставить это работать? Заранее спасибо.
Ответ №1:
import requests
from bs4 import BeautifulSoup
URL = 'https://find-and-update.company-information.service.gov.uk/company/09382107/filing-history'
page = requests.get(URL)
soup = BeautifulSoup(page.content)
table_div = soup.find('table',class_='full-width-table')
rows = table_div.find_all('tr')
table = {}
row_index = 1
for tr in rows:
tds = tr.find_all('td')
ls = []
td_index = 0
for td in tds:
text = td.get_text().strip()
if td_index != 1 and td_index != 3:
ls.append(text)
if td_index == 3:
#a = td.find_all('a',string="Download iXBRL",href=True)
#if len(a) > 0:
#for tag in a:
#href = tag['href']
a = td.select_one('a',string="Download iXBRL",href=True)
if a:
href = a['href']
ls.append(href)
table[row_index] = ls
row_index = 1
td_index = 1
print(table)
Выход
{1: ['04 Mar 2021',
'Micro company accounts made up to 31 December 2019',
'/company/09382107/filing-history/MzI5MzM0OTU0OGFkaXF6a2N4/document?format=xhtmlamp;download=1'],
2: ['04 Mar 2021',
'Micro company accounts made up to 31 December 2018',
'/company/09382107/filing-history/MzI5MzMzNTIwM2FkaXF6a2N4/document?format=xhtmlamp;download=1'],
3: ['09 Nov 2018',
'Accounts for a dormant company made up to 31 December 2017',
'/company/09382107/filing-history/MzIxOTA5MTA2N2FkaXF6a2N4/document?format=xhtmlamp;download=1'],
4: ['06 Dec 2017',
'Accounts for a dormant company made up to 31 January 2017',
'/company/09382107/filing-history/MzE5MjEyNzU2M2FkaXF6a2N4/document?format=xhtmlamp;download=1'],
5: ['04 Nov 2016',
'Accounts for a dormant company made up to 31 January 2016',
'/company/09382107/filing-history/MzE2MTE5NTk3NWFkaXF6a2N4/document?format=xhtmlamp;download=1']}
В этой таблице в вашем выводе есть td без необходимости с индексом 1