#python #database #mongodb #twitter #archive
#python #База данных #mongodb #Twitter #Архив
Вопрос:
Я загрузил большой (> 75 ГБ) захват данных из archive.org содержит большинство или все твиты за июнь 2020 года. Сам архив состоит из 31 файла .tar, каждый из которых содержит вложенные папки с самым низким уровнем, содержащие несколько сжатых файлов .json. Мне нужен способ доступа к данным, хранящимся в этом архиве, из моего приложения на Python. Я хотел бы использовать MongoDB, поскольку его структура базы данных на основе документов хорошо подходит для типа данных в этом архиве. Что было бы лучшим способом сделать это?
Вот как выглядит архив (вы можете найти его здесь):
Любая помощь будет оценена.
Редактировать — чтобы было ясно, я не настроен на использование MongoDB. Я открыт и для других решений для баз данных.
Ответ №1:
MongoDB, безусловно, не очень хорошая идея. Потому что вам нужно загрузить базу данных в ОЗУ. За исключением случаев, когда у вас есть кластер или около того, у вас наверняка недостаточно оперативной памяти для размещения этого содержимого.
Поэтому вы можете отфильтровать его, если вы все еще хотите использовать MongoDB в этом объеме.
Комментарии:
1. Тогда есть ли альтернатива MongoDB? Или, если бы я сначала отфильтровал его, как бы я это сделал программно?