#python #time-series #nan
Вопрос:
У меня есть набор данных по показателям здоровья с такими столбцами, как «Страна», «Год», «ВВП» и «Ожидаемая продолжительность жизни». Данные охватывают 2000-2015 годы.
Таким образом, имеются данные по многим показателям состояния здоровья по каждой стране за каждый из 2000-2015 годов.
Во многих переменных отсутствуют данные (NaN) по конкретным годам/странам.
- Итак, например, как бы я заменил значения NaN средними/средними значениями, характерными для данного диапазона стран/лет для всех стран?
- Кроме того, поскольку это продольные данные, было бы здорово сохранить общую тенденцию с течением времени в течение 16 лет данных по каждой стране. Есть ли способ заменить данные NaN для каждой страны, учитывая общую тенденцию для этой страны/переменной с течением времени?
Если бы вы, ребята, могли объяснить оба метода, это было бы феноменально.
ссылка на данные: https://www.kaggle.com/kumarajarshi/life-expectancy-who
Спасибо, Ди
Комментарии:
1. помогут примеры данных и выходные данные exaple.
2. @U12-Вперед, я не уверен, с чего начать после загрузки данных в виде фрейма данных, поэтому мой текущий вывод будет не очень полезен для вас всех.
3. Просто скопируйте фрейм данных и разместите его здесь, а также покажите желаемый результат.
4. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.
Ответ №1:
Вы, вероятно, захотите изучить метод pd.Dataframe.interpolate (). В нем есть различные методы заполнения NAN во временном ряду или заполнения пропущенных значений.
Комментарии:
1. Пожалуйста, добавьте дополнительные сведения, чтобы расширить свой ответ, например, ссылки на рабочий код или документацию.