импорт таблицы с веб-страницы с помощью pd.read_html

#html #python-3.x #pandas #dataframe

#HTML #python-3.x #pandas #фрейм данных

Вопрос:

Я пытаюсь использовать pd.read_html для импорта таблицы в разделе «Ежедневные наблюдения» из https://www.wunderground.com/history/monthly/us/mi/ann-arbor/date/2020-1

Я попробовал это, но появилась ошибка «HTTPError: HTTP Error 403: запрещено».

 Jan = pd.read_html('https://www.wunderground.com/history/monthly/us/mi/ann-arbor/date/2020-1')
 

В качестве альтернативы я скопировал исходный код таблицы и сохранил его как HTML-файл.

HTML-файл выглядит следующим образом:

https://i.stack.imgur.com/YTkF9.jpg

Когда я использую pd.read_html для импорта этого HTML-файла, кажется, что импортированный набор данных не является фреймом данных. Строки и столбцы стали беспорядочными, как это:

 [                                                  Time  
0    Jan 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 ...   
1                                                  Jan   
2                                                    1   
3                                                    2   
4                                                    3   
..                                                 ...   
220                                               0.02   
221                                               0.00   
222                                               0.00   
223                                               0.00   
224                                               0.00   

                                    Temperature (° F)  
0    Max Avg Min 38 30.8 26 47 41.8 35 45 42.8 39 3...   
1                                                  NaN   
2                                                  NaN   
3                                                  NaN   
4                                                  NaN   
..                                                 ...   
220                                                NaN   
221                                                NaN   
222                                                NaN   
223                                                NaN   
224                                                NaN   
 

Как я могу это решить?

Комментарии:

1. pd.read_html(/путь/ к / html/файлу)