Как мне использовать Cassandra / ScyllaDB / MongoDB для хранения pandas с динамическими столбцами и его обновления?

#python #pandas #mongodb #cassandra #scylla

#python #pandas #mongodb #кассандра #сцилла

Вопрос:

У меня есть фрейм данных pandas временных рядов, который динамически увеличивает столбцы каждую минуту:

Начальный:

 timestamp                100     200     300
2020-11-01 12:00:00       4       3       5
 

Следующая минута:

 timestamp                100     200     300   500
2020-11-01 12:00:00       4       3       5     0
2020-11-01 12:01:00       4       3       5     25
 

Фрейм данных содержит эти обновленные значения и так далее каждую минуту.

Я обнаружил, что Cassandara и ScyllaDB являются широкими базами данных столбцов, но мы должны определять столбцы при создании структуры таблиц. MongoDB также может быть полезен.

В моем случае он будет обновляться / меняться каждую минуту. Как мне сохранить это в базе данных, такой как Cassandra, ScyllaDB или даже mongo, для хранения этих данных?

Комментарии:

1. для Cassandra важно понимать, как вы будете считывать данные — это самый важный вопрос

2. Я хочу преобразовать его обратно в фрейм данных, запрашивая временные метки, как это было раньше для обработки. На данный момент я обрабатываю это, сохраняя фрейм данных в файлах, но это не жизнеспособное долгосрочное решение.

Ответ №1:

Вот пример для начала работы с моделированием временных рядов и ScyllaDB: https://scylladb.github.io/care-pet/master/getting_started.html В нашем блоге тоже есть примеры Spark

Комментарии:

1. моя задача заключается в том, что столбцы являются переменными, но будут добавляться к каждой временной метке, а позже может быть более 10 тыс. столбцов.