#python #pandas #dataframe #screen-scraping
Вопрос:
Я соскабливаю данные nfl во фрейм данных, но вывод заключается в том, что каждая команда помещается в отдельный фрейм данных для каждой команды. Как я могу сделать так, чтобы вывод помещал каждую строку во все тот же DF?
team_abbreviations = ['buf','mia','nwe','nyj','htx','clt','jax','oti','cin','pit',
'cle','rav','den','kan','rai','sdg','phi','dal','nyg','was',
'car','nor','tam','atl','chi','det','gnb','min','crd','ram','sea','sfo']
for i in team_abbreviations:
url = 'https://www.pro-football-reference.com/teams/{0}/2021/gamelog/'.format(i)
data = pd.read_html(url)[0]
data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
data.rename(columns={'Unnamed: 4_level_1': 'W/L'}, inplace=True)
data.rename(columns={'Unnamed: 6_level_1': '@'}, inplace=True)
data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
data.columns = ['Week', 'Day', 'Date', 'Box_link', 'W/L', 'OT', 'Home/Away', 'Opp_Team', 'Tm_Score',
'Opp_Score', 'PassCmp', 'PassAtt', 'PassYds', 'PassTD', 'Int', 'Sk', 'YdsLost_Sk', 'PassY/A',
'PassNY/A', 'Cmp%', 'PasserRate', 'RushAtt', 'RushYds', 'RushY/A', 'RushTD', 'FGM', 'FGA', 'XPM',
'XPA', 'Pnt', 'PntYds', '3DConv', '3DAtt', '4DConv', '4DAtt', 'ToP']
data = data[pd.notnull(data['Opp_Score'])]
print(data)
Ответ №1:
Как я могу сделать так, чтобы вывод помещал каждую строку во все тот же DF?
Используйте конкат
team_abbreviations = ['buf', 'mia', 'nwe', 'nyj', 'htx', 'clt', 'jax', 'oti', 'cin', 'pit',
'cle', 'rav', 'den', 'kan', 'rai', 'sdg', 'phi', 'dal', 'nyg', 'was',
'car', 'nor', 'tam', 'atl', 'chi', 'det', 'gnb', 'min', 'crd', 'ram', 'sea', 'sfo']
df_holder = []
for i in team_abbreviations:
url = 'https://www.pro-football-reference.com/teams/{0}/2021/gamelog/'.format(i)
data = pd.read_html(url)[0]
data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
data.rename(columns={'Unnamed: 4_level_1': 'W/L'}, inplace=True)
data.rename(columns={'Unnamed: 6_level_1': '@'}, inplace=True)
data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
data.columns = ['Week', 'Day', 'Date', 'Box_link', 'W/L', 'OT', 'Home/Away', 'Opp_Team', 'Tm_Score',
'Opp_Score', 'PassCmp', 'PassAtt', 'PassYds', 'PassTD', 'Int', 'Sk', 'YdsLost_Sk', 'PassY/A',
'PassNY/A', 'Cmp%', 'PasserRate', 'RushAtt', 'RushYds', 'RushY/A', 'RushTD', 'FGM', 'FGA', 'XPM',
'XPA', 'Pnt', 'PntYds', '3DConv', '3DAtt', '4DConv', '4DAtt', 'ToP']
data = data[pd.notnull(data['Opp_Score'])]
print(data)
df_holder.append(data)
all_dfs = pd.concat(df_holder)
Комментарии:
1. Вы можете упростить и удалить все эти столбцы переименования с помощью:
data = pd.read_html(url, header=1)[0]