#python #python-3.x #beautifulsoup
#python #python-3.x #beautifulsoup
Вопрос:
Прочитав документацию BeautifulSoup, мне удалось написать короткий скрипт на python, чтобы очистить таблицу и распечатать ее, однако я не могу понять, как отформатировать ее в таблицу. Конечная цель — получать прогнозы на футбольные матчи с веб-сайта:https://afootballreport.com/predictions/over-1.5-goals / и сохранять их в текстовый файл.
Вот код, который я написал до сих пор:
import urllib
import urllib.request
from bs4 import BeautifulSoup
def make_soup(url):
thepage = urllib.request.urlopen(url)
soupdata = BeautifulSoup(thepage, "html.parser")
return soupdata
soup = make_soup("https://afootballreport.com/predictions/over-1.5-goals/")
for record in soup.findAll('tr'):
for data in record.findAll('td'):
print(data.text.strip())
и это вывод:
03/28
17:30
Iceland Reykjavik Youth Cup
Fjölnir / Vængir U19
Valur / KH U19
Over 1.5
Valur / KH U19 have over 1.5 goals in 100% of their games in the last 2 months (total games 6).
03/28
17:30
Saudi Arabia Pro League
Al Ittifaq
Al Quadisiya
Over 1.5
Al Ittifaq have over 1.5 goals in 100% of their games in the last 2 months (total games 8).
Я хочу, чтобы в нем было по столбцу для каждой строки: дата, время, футбольная лига, домашняя команда, выездная команда, Совет, Описание.
Вот так:
Date, Time, Football League, HomeTeam, AwayTeam, Tip, Description
03/28, 17:30, Iceland Reykjavik Youth Cup, Fjölnir / Vængir U19, Valur / KH U19, Over 1.5, Valur / KH U19 have over 1.5 goals in 100% of their games in the last 2 months (total games 6).
Не мог бы кто-нибудь мне помочь, пожалуйста?
Комментарии:
1. Взгляните на pprint. «Симпатичный принтер», как мне нравится его называть.
Ответ №1:
Вы выполняете ужасно много работы. Всякий раз, когда я вижу <table>
тег, я бы сначала попробовал pandas .read_html()
. Он выполняет большую часть работы за вас, а затем вы можете просто манипулировать фреймом данных по мере необходимости.
import pandas as pd
tables = pd.read_html('https://afootballreport.com/predictions/over-1.5-goals/')
table = tables[0]
table[['Date', 'Time']] = table['Home team - Away team'].str.split(' ', expand=True)
table = table.drop(['Home team - Away team'],axis=1)
table = table.rename(columns={"Unnamed: 3":"Description"})
table[['Football League', 'Home Team', 'Away Team']] = table['Tip'].str.split(' ', expand=True)
table = table.drop(['Tip'],axis=1)
Вывод:
print (table.head(5).to_string())
Logic Description Date Time Football League Home Team Away Team
0 Over 1.5 Valur / KH U19 have over 1.5 goals in 100% of ... 03/28 17:30 Iceland Reykjavik Youth Cup Fjölnir / Vængir U19 Valur / KH U19
1 Over 1.5 Al Ittifaq have over 1.5 goals in 100% of thei... 03/28 17:30 Saudi Arabia Pro League Al Ittifaq Al Quadisiya
2 Over 1.5 Sarreguemines have over 1.5 goals in 100% of t... 03/28 19:00 France National 3 Sarreguemines Strasbourg II
3 Over 1.5 Mons Calpe have over 1.5 goals in 100% of thei... 03/28 19:29 Gibraltar Premier Division Mons Calpe Glacis United
4 Over 1.5 Glacis United have over 1.5 goals in 100% of t... 03/28 19:29 Gibraltar Premier Division Mons Calpe Glacis United
Редактировать:
Если вы используете Pandas версии 0.24.2
import pandas as pd
tables = pd.read_html('https://afootballreport.com/predictions/over-1.5-goals/')
table = tables[0]
table[['Date', 'Time']] = table['Home team - Away team'].str.split(' ', expand=True)
table = table.drop(['Home team - Away team'],axis=1)
table = table.rename(columns={"Logic":"Description"})
table[['Football League', 'Home Team', 'Away Team']] = table['Home team - Away team.1'].str.split(' ', expand=True)
table = table.drop(['Home team - Away team.1'],axis=1)
Комментарии:
1. Спасибо за это, выглядит намного проще. Однако столбец команды хозяев и команды гостей не отображается? если бы это показывало, что это было бы идеально
2. о да. Я этого не заметил. Я посмотрю, смогу ли я это исправить
3. на самом деле это там, просто смещение. Я распечатаю его, чтобы показать вам при редактировании выше
4. если вы дадите мне несколько минут, я исправлю таблицу, чтобы в ней были правильные данные, как вы хотите
5. ах, большое спасибо, как мне тогда переименовать столбцы в дату, время, футбольную лигу, домашнюю команду, выездную команду, подсказку, логику? Я хотел бы иметь возможность использовать данные в другом скрипте, поэтому должен иметь возможность поиска, например, по hometeam и awayteam