Данные временных рядов: Повторная выборка.среднее значение (), приводящее к отсутствию значений

#python

Вопрос:

У меня есть данные временных рядов, которые дают значения каждую секунду, я отбираю эти данные с интервалом в 5 минут, поэтому я агрегировал их в среднем за каждые 5 минут. Однако, когда я использую resample.mean() Я получаю некоторые недостающие значения, и мне было интересно, почему это так?

Спасибо вам за вашу помощь!

             Time                                A      B           C    
7908    2021-07-12 00:00:00.035812792 00:00 0.74900 1000000.0   0.74905
7909    2021-07-12 00:00:00.050670938 00:00 0.74900 1000000.0   0.74905
7910    2021-07-12 00:00:00.065535015 00:00 0.74900 1000000.0   0.74905
7911    2021-07-12 00:00:00.120588579 00:00 0.74900 2000000.0   0.74905
7912    2021-07-12 00:00:00.125803018 00:00 0.74900 4000000.0   0.74905

PrimaryBookD.isnull().sum()

Time 0
A    0
B    0
C    0

PrimaryBookF= PrimaryBookD.resample('5T', on='Time').mean()
PrimaryBookG=PrimaryBookF.reset_index()

PrimaryBookG

Time                               A           B               C
0   2021-07-12 00:00:00 00:00   0.748834    3.781859e 06    0.748884
1   2021-07-12 00:05:00 00:00   0.748536    3.987342e 06    0.748586
2   2021-07-12 00:10:00 00:00   0.748677    3.725352e 06    0.748727
3   2021-07-12 00:15:00 00:00   0.748540    3.777257e 06    0.748590
4   2021-07-12 00:20:00 00:00   0.748233    4.366575e 06    0.748284

PrimaryBookG.isnull().sum()

Time   
A    2952
B    2952
C    2952

Пропущенные значения

 is_NaN =PrimaryBookF.isnull()
row_has_NaN = is_NaN.any(axis=1)
rows_with_NaN = PrimaryBookF[row_has_NaN]
print(rows_with_NaN)

 
                                   A    B             C              D
Time                                                                      
2021-07-26 17:00:00 00:00        NaN         NaN        NaN         NaN   
2021-07-26 17:05:00 00:00        NaN         NaN        NaN         NaN   
2021-07-26 17:10:00 00:00        NaN         NaN        NaN         NaN   
2021-07-26 17:15:00 00:00        NaN         NaN        NaN         NaN   
2021-07-26 17:20:00 00:00        NaN         NaN        NaN         NaN   
...                              ...         ...        ...         ...   
2021-08-09 07:35:00 00:00        NaN         NaN        NaN         NaN   
2021-08-09 07:40:00 00:00        NaN         NaN        NaN         NaN   
2021-08-09 07:45:00 00:00        NaN         NaN        NaN         NaN   
2021-08-09 07:50:00 00:00        NaN         NaN        NaN           
2021-08-09 07:55:00 00:00        NaN         NaN        NaN

Выходная форма этой строки

 PrimaryBookZ=PrimaryBookF.reset_index()
PrimaryBookZ.loc[(PrimaryBookZ['Time']>pd.to_datetime('2021-07-26 17:00:00 00:00')) amp;(PrimaryBookZ['Time']<pd.to_datetime('2021-07-26 17:20:00 00:00'))].shape

(3, 11)

1. можете ли вы показать какой-нибудь пример ?, надеюсь, вы использовали скользящее значение

2. Как вы вводите скользящее среднее значение при пересчете?

3. извините за это, я имел в виду среднее значение фильма при отборе проб, можете ли вы подчеркнуть некоторые недостающие места , не смог выяснить ни одного

4. Спасибо Киран за вашу помощь, я отобразил значения na lmk, если вам нужны дополнительные данные. Возможно, я сделал что-то не так раньше, нормально ли, что NAs создается после усреднения?

5. если только в окнах повторной выборки нет ни одной временной метки, она не будет показывать никаких нулевых значений @Emmanuelle, вы бы убедились, что данные отсутствующего окна есть

Вопрос:

Комментарии:

Вам также может понравиться

Послерезкость и критические части кода

Вычисление размера массива для вычисления среднего значения с использованием потоков

Npm запускает сборку и просматривает очень медленно