Как я могу указать UTC для Pandas.read_sql

#sql-server #python-3.x #pandas

#sql-сервер #python-3.x #pandas

Вопрос:

У меня есть таблица SQL Server, в которой даты указаны как UTC.

 CREATE TABLE [dbo].[MyTable]
(
    [utcDT] [datetime2](7) NOT NULL,
    [Rate] [float] NULL
) ON [PRIMARY]

utcDT                       Rate
-------------------------------------
2012-05-30 20:07:00.0000000 1.237025
2013-09-02 10:55:00.0000000 1.322
2011-06-10 18:46:00.0000000 1.434335
2013-06-13 20:55:00.0000000 1.33736
2016-01-08 04:13:00.0000000 1.088215
  

Запрос:

 sql_query = "SELECT * FROM [dbo].[MyTable] WHERE [utcDT} >= '2020-01-01'"
connection = pyodbc.connect(connection__DATA)
data = pd.read_sql(sql_query, connection,index_col='utcDT',parse_dates=True)
    print(data.index)
    print(data.dtypes)
    print(data.info())

DatetimeIndex(['2020-11-06 21:07:00', '2020-11-06 21:08:00',
               '2020-11-06 21:09:00', '2020-11-06 21:10:00',
               '2020-11-06 21:11:00', '2020-11-06 21:12:00',
               '2020-11-06 21:13:00', '2020-11-06 21:14:00',
               '2020-11-06 21:15:00', '2020-11-06 21:16:00',
               ...
               '2020-11-17 23:50:00', '2020-11-17 23:51:00',
               '2020-11-17 23:52:00', '2020-11-17 23:53:00',
               '2020-11-17 23:54:00', '2020-11-17 23:55:00',
               '2020-11-17 23:56:00', '2020-11-17 23:57:00',
               '2020-11-17 23:58:00', '2020-11-17 23:59:00'],
              dtype='datetime64[ns]', name='utcDT', length=10000, freq=None)
Rate    float64
dtype: object
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 10000 entries, 2020-11-06 21:07:00 to 2020-11-17 23:59:00
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Rate  10000 non-null  float64
dtypes: float64(1)
  

Как я могу гарантировать, что pandas считывает их как UTC?

Комментарии:

1. Если вам нужно знать часовой пояс, не используйте datetime datetime2 типы столбцов или, используйте datetimeoffset со смещением 0 для UTC.

Ответ №1:

Почему бы не прочитать данные, как это делает Pandas, а затем выполнить быструю очистку, чтобы получить то, что вы хотите? Просто создайте новый столбец, чтобы ваши объекты даты и времени учитывали часовой пояс.

Ваш вывод несколько сбивает с толку, поэтому я не могу определить, является ли data['utcDT'] это DatetimeIndex или стандартным рядом с объектами datetime. В любом случае, вы хотите использовать tz_localize() (см. Документы).

Если это DatetimeIndex, то

 data["utcDTtz"] = data["utcDT"].tz_localize(tz="UTC")
  

или же, если просто объекты datetime, то

 data["utcDTtz"] = data["utcDT"].dt.tz_localize(tz="UTC")