#python #json #python-3.x #parallel-processing #mpi
#python #json #python-3.x #параллельная обработка #mpi
Вопрос:
У меня большой файл JSON, его размер в гигабайтах. Эти файлы содержат данные твитов. Мне нужно прочитать этот файл с помощью MPI для python multiple process таким образом, чтобы каждый процесс мог одновременно считывать файл из своей части.
В настоящее время то, что я делаю, разбивает файл на куски по его размеру. Но проблема в том, что это искажает мои данные JSON. Поскольку файл может быть разделен таким образом, что он создает недопустимые данные JSON.
Как я могу разделить файл, не нарушая объекты JSON внутри.
Комментарии:
1. Некоторая часть кода должна будет правильно разделить ваш файл JSON, т. Е. с учетом его внутренней структуры — как вы уже обнаружили, простое разделение его на четверти (или любую другую часть) на основе количества строк или символов, скорее всего, приведет к 4 (или n) поврежденным файлам JSON. Вы могли бы предварительно обработать файл, вы могли бы даже попросить один процесс в программе MPI подготовить файл для параллельного чтения. Или вы могли бы сказать то же самое для игры в солдатики и предоставить каждому процессу, в свою очередь, единственный доступ к файлу для чтения своего собственного фрагмента. Таким образом, каждый процесс видит действительный файл JSON.