#python
Вопрос:
Итак, у меня есть этот большой файл (около 1,5 ГБ), который я довольно регулярно загружаю в python. Загрузка анализирует его в объект, который в конечном итоге занимает около 3 ГБ оперативной памяти. Процесс загрузки не такой долгий (на моем компьютере занимает около 40 секунд), но все равно это становится проблемой, когда я хочу отладить программы, которые его загружают.
Я пытался придумать решение для более быстрой загрузки, сначала я думал о том, чтобы выбрать полученный объект python, но, как я уже говорил ранее, он составляет 3 ГБ, поэтому его распаковка заняла еще больше времени, чем процесс синтаксического анализа.
Есть ли способ позволить python получить к нему более быстрый доступ? Я на самом деле не против какого-либо рабочего решения (облачный сервер? другие языки программирования?) но я даже не уверен, что это вообще технически возможно.
Комментарии:
1. Каков тип файла ?
2. его .RRF, но процесс чтения обрабатывает его как текстовый файл, результирующий объект в основном представляет собой словарь, но с некоторыми добавленными методами, а значения являются другим пользовательским объектом
3. Чтение текстового файла объемом 2,4 ГБ построчно (и ничего не делать в строках) занимает на моем компьютере около 8 секунд. Поэтому вам, вероятно, следует проверить, есть ли возможности для оптимизации при обработке данных
4. вы используете рассол или соленый огурец ? если не cPickle, попробуйте cPickle, чтобы это немного помогло, мой опыт работы с рассолом был довольно быстрым, но не имел дело с большим рассолом объемом до ГБ
5. если рассол не работает, вы можете попробовать формат explorer HDF5 с h5py, рассол, похоже, не очень подходит для работы со слишком большим набором данных