Чтение данных в python pandas путем определения ширины каждого столбца как количества символов

#python #csv #pandas #numpy #data-analysis

#python #csv #pandas #numpy #анализ данных

Вопрос:

Я пытаюсь прочитать файл, в котором столбцы разделены переменными пробелами. Мне было интересно, есть ли способ прочитать файл, определив ширину каждого столбца в терминах количества символов, зарезервированных для этого столбца.

Например:

 A B          C  D
- ---------- -- ---
1 foo        32 9.5
4 bar           5.4
5 foofoo_bar 44

Допустим, нам нужно прочитать приведенные выше данные. Обратите внимание, что некоторые записи не существуют в столбцах C и D. Однако обратите внимание, что вторая строка в файле (та, что с тире) указывает максимальное количество символов, которое может содержать конкретный столбец.

Итак, вопрос задается максимальной шириной каждого столбца в наборе данных, есть ли способ прочитать набор данных в python с помощью pandas или любого другого пакета?

Ответ №1:

Вы должны использовать pandas.read_fwf() . Это означает чтение файла фиксированной ширины.

1. Это отличная функция. К сожалению, данные, для которых я опубликовал этот вопрос, отчасти повреждены, поэтому даже эта функция там не работает. Но он работал с аналогичным неповрежденным набором данных, который был отформатирован точно так же. Спасибо за ответ!

2. По умолчанию он попытается определить размер столбца фиксированной ширины. Для воспроизводимости вам может потребоваться узнать, каковы предполагаемые спецификации, которые вы можете получить с помощью: pd.io.parsers.FixedWidthReader(path.open(mode="r"), colspecs="infer", delimiter=None, comment=None).colspecs

Ответ №2:

delimiter For np.genfromtxt может быть списком ширин столбцов вместо символа-разделителя.

Вопрос:

Ответ №1:

Комментарии:

Ответ №2:

Вам также может понравиться

Ошибка «Недопустимая последовательность байтов для кодирования UTF-8: 0x00» в Pentaho из Mysql в Postgresql

Запись фрейма данных, содержащего кириллический символ, в HDFS приводит к изменению кодировки

Сокращение времени синтаксического анализа в Android