Обработка данных из большого захвата данных

#python #database #mongodb #twitter #archive

#python #База данных #mongodb #Twitter #Архив

Вопрос:

Я загрузил большой (> 75 ГБ) захват данных из archive.org содержит большинство или все твиты за июнь 2020 года. Сам архив состоит из 31 файла .tar, каждый из которых содержит вложенные папки с самым низким уровнем, содержащие несколько сжатых файлов .json. Мне нужен способ доступа к данным, хранящимся в этом архиве, из моего приложения на Python. Я хотел бы использовать MongoDB, поскольку его структура базы данных на основе документов хорошо подходит для типа данных в этом архиве. Что было бы лучшим способом сделать это?

Вот как выглядит архив (вы можете найти его здесь):

корневая папка

внутренние папки

Любая помощь будет оценена.

Редактировать — чтобы было ясно, я не настроен на использование MongoDB. Я открыт и для других решений для баз данных.

Ответ №1:

MongoDB, безусловно, не очень хорошая идея. Потому что вам нужно загрузить базу данных в ОЗУ. За исключением случаев, когда у вас есть кластер или около того, у вас наверняка недостаточно оперативной памяти для размещения этого содержимого.

Поэтому вы можете отфильтровать его, если вы все еще хотите использовать MongoDB в этом объеме.

Комментарии:

1. Тогда есть ли альтернатива MongoDB? Или, если бы я сначала отфильтровал его, как бы я это сделал программно?