Python Pandas: поддержка 25 часов в индексе datetime

#python-3.x #pandas #dataframe #datetime

#python-3.x #pandas #фрейм данных #datetime

Вопрос:

Я хочу использовать дату / время в качестве индекса для фрейма данных в Pandas.

Однако переход на летнее время неправильно указан в базе данных, поэтому значения даты и времени для дня, в который заканчивается переход на летнее время, имеют 25 часов и представлены как таковые:

 2019102700
2019102701
...
2019102724
  

Я использую следующий код для преобразования этих значений в DateTime объект, который я использую в качестве индекса для фрейма данных Pandas:

 df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")
  

Однако это приводит к ошибке:

 ValueError: unconverted data remains: 4
  

Предположительно потому, что to_datetime функция не ожидает, что этот час будет 24 . Аналогично, в день, когда начинается переход на летнее время, всего 23 часа.

Одним из решений, о котором я подумал, было сохранение дат в виде строк, но это не кажется ни элегантным, ни эффективным. Есть ли какой-либо способ решить проблему перехода на летнее время при использовании to_datetime ?

Комментарии:

1. Попробуйте df['date'] = df.index.to_series().str.slice(stop=-2) , и обратная .slice(start=-2) для времени, затем измените время с помощью календаря для перехода на летнее время

2. знаете ли вы часовой пояс и является ли интервал регулярным, как в вашем примере (1 час)?

3. @MrFuppes да, я делаю

Ответ №1:

Если вы знаете часовой пояс, вот способ вычислить временные метки UTC. Проанализируйте только часть даты, локализуйте в соответствии с фактическим часовым поясом, к которому «принадлежат» данные, и преобразуйте это в UTC. Теперь вы можете проанализировать часовую часть и добавить ее как временную дельту — например

 import pandas as pd 

df = pd.DataFrame({'date_time_str': ['2019102722','2019102723','2019102724',
                                     '2019102800','2019102801','2019102802']})

df['date_time'] = (pd.to_datetime(df['date_time_str'].str[:-2], format='%Y%m%d')
                   .dt.tz_localize('Europe/Berlin')
                   .dt.tz_convert('UTC'))

df['date_time']  = df['date_time_str'].str[-2:].astype('timedelta64[h]')

# df['date_time']
# 0   2019-10-27 20:00:00 00:00
# 1   2019-10-27 21:00:00 00:00
# 2   2019-10-27 22:00:00 00:00
# 3   2019-10-27 23:00:00 00:00
# 4   2019-10-28 00:00:00 00:00
# 5   2019-10-28 01:00:00 00:00
# Name: date_time, dtype: datetime64[ns, UTC]
  

Ответ №2:

Я не уверен, что это самое элегантное или эффективное решение, но я бы:

 df.loc[df.date_time.str[-2:]=='25', 'date_time'] = (pd.to_numeric(df.date_time[df.date_time.str[-2:]=='25']) 100-24).apply(str)
df.index = pd.to_datetime(df["date_time"], format="%Y%m%d%H")
  

Комментарии:

1. Я предпочитаю решение MrFuppes, но спасибо за ответ, это тоже работает! Тоже хорошее название 🙂

Ответ №3:

Выберите первый и последний индексы, преобразуйте их в tz_aware datetime, затем вы можете сгенерировать date_range, который обрабатывает 25-часовые дни. И присвоите date_range вашему индексу df:

 start = pd.to_datetime(df.index[0]).tz_localize("Europe/Berlin")
end = pd.to_datetime(df.index[-1]).tz_localize("Europe/Berlin")
index_ = pd.date_range(start, end, freq="15min")
df = df.set_index(index_)