Pandas: нерегулярно извлеченный фрейм данных. столбцы из файла «tsv» с угаданным разделителем

#python #pandas

#python #pandas

Вопрос:

У меня есть следующий open_csv вызов для открытия csv с неизвестным разделителем:

 dataframe = pd.read_csv(
    instance.file_entity.path,
    engine='python',
    comment='#',
    skipinitialspace=True,
    skip_blank_lines=True,
    error_bad_lines=False,
    warn_bad_lines=True
)
  

Тем не менее, datafram.columns дает мне следующее:

 Index(['_RAJ2000;_DEJ2000;CXO;RAJ2000;DEJ2000;ePos;S/N;Fb;b_Fb;B_Fb;Fw;hr2;hr1;fc;fe;fs;Vab;Vib;Vaw;Viw'], dtype='object')
  

Мне было интересно, почему это так? Я предположил, что вышеизложенное будет угадывать разделитель, в данном случае «;», а затем правильно извлекать столбцы?

Мне кажется, что движок угадывает запятую, а не точку с запятой…

Любые указатели будут очень приветствоваться!

Комментарии:

1. Ваш файл не tsv является, т.е. Значением, разделенным табуляцией, а скорее разделенным значением ; ? попробуйте передать sep=';' read_csv .

2. @QuangHoang У меня неизвестный разделитель…. Мне нужно угадать разделитель?

3. Мне кажется, что движок угадывает запятую, а не точку с запятой…

4. Вот что csv означает: разделенные запятыми значения , разделитель по умолчанию , . Вам нужно указать либо sep либо delimiter иначе.

5. @QuangHoang Я думаю, что мы пересекаем провода здесь и там — я не буду знать разделитель для csv… хотя csv означает значения, разделенные запятыми, разделитель может отличаться от фактической запятой. Следовательно, почему мне нужно угадать разделитель…