Как я могу поместить все строки в один df?

#python #pandas #dataframe #screen-scraping

Вопрос:

Я соскабливаю данные nfl во фрейм данных, но вывод заключается в том, что каждая команда помещается в отдельный фрейм данных для каждой команды. Как я могу сделать так, чтобы вывод помещал каждую строку во все тот же DF?

     team_abbreviations = ['buf','mia','nwe','nyj','htx','clt','jax','oti','cin','pit',
                  'cle','rav','den','kan','rai','sdg','phi','dal','nyg','was',
                  'car','nor','tam','atl','chi','det','gnb','min','crd','ram','sea','sfo']

    for i in team_abbreviations:
       url = 'https://www.pro-football-reference.com/teams/{0}/2021/gamelog/'.format(i)
       data = pd.read_html(url)[0]
       data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
       data.rename(columns={'Unnamed: 4_level_1': 'W/L'}, inplace=True)
       data.rename(columns={'Unnamed: 6_level_1': '@'}, inplace=True)
       data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
       data.columns = ['Week', 'Day', 'Date', 'Box_link', 'W/L', 'OT', 'Home/Away', 'Opp_Team', 'Tm_Score',
                'Opp_Score', 'PassCmp', 'PassAtt', 'PassYds', 'PassTD', 'Int', 'Sk', 'YdsLost_Sk', 'PassY/A',
                'PassNY/A', 'Cmp%', 'PasserRate', 'RushAtt', 'RushYds', 'RushY/A', 'RushTD', 'FGM', 'FGA', 'XPM',
                'XPA', 'Pnt', 'PntYds', '3DConv', '3DAtt', '4DConv', '4DAtt', 'ToP']
       data = data[pd.notnull(data['Opp_Score'])]
       print(data)
 

Ответ №1:

Как я могу сделать так, чтобы вывод помещал каждую строку во все тот же DF?

Используйте конкат

 team_abbreviations = ['buf', 'mia', 'nwe', 'nyj', 'htx', 'clt', 'jax', 'oti', 'cin', 'pit',
                      'cle', 'rav', 'den', 'kan', 'rai', 'sdg', 'phi', 'dal', 'nyg', 'was',
                      'car', 'nor', 'tam', 'atl', 'chi', 'det', 'gnb', 'min', 'crd', 'ram', 'sea', 'sfo']

df_holder = []

for i in team_abbreviations:
    url = 'https://www.pro-football-reference.com/teams/{0}/2021/gamelog/'.format(i)
    data = pd.read_html(url)[0]
    data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
    data.rename(columns={'Unnamed: 4_level_1': 'W/L'}, inplace=True)
    data.rename(columns={'Unnamed: 6_level_1': '@'}, inplace=True)
    data.rename(columns={'Unnamed: 3_level_1': 'Box_link'}, inplace=True)
    data.columns = ['Week', 'Day', 'Date', 'Box_link', 'W/L', 'OT', 'Home/Away', 'Opp_Team', 'Tm_Score',
                    'Opp_Score', 'PassCmp', 'PassAtt', 'PassYds', 'PassTD', 'Int', 'Sk', 'YdsLost_Sk', 'PassY/A',
                    'PassNY/A', 'Cmp%', 'PasserRate', 'RushAtt', 'RushYds', 'RushY/A', 'RushTD', 'FGM', 'FGA', 'XPM',
                    'XPA', 'Pnt', 'PntYds', '3DConv', '3DAtt', '4DConv', '4DAtt', 'ToP']
    data = data[pd.notnull(data['Opp_Score'])]
    print(data)
    df_holder.append(data)
    
all_dfs = pd.concat(df_holder)
 

Комментарии:

1. Вы можете упростить и удалить все эти столбцы переименования с помощью: data = pd.read_html(url, header=1)[0]