Как я могу импортировать свой большой текстовый файл в MATLAB

#regex #matlab #file-io #import

#регулярное выражение #matlab #file-io #импорт

Вопрос:

В моем файле есть заголовок и заголовок a каждого столбца, а затем столбцы. Я заинтересован в извлечении данных только из 4-го столбца в переменную MATLAB.

Я столкнулся с несколькими проблемами. Во-первых, в нем около 3 миллионов ячеек, и MATLAB по какой-то причине обрезает это, когда я использую мастер импорта (он обрезает файл до 191 686 строк).

Вот первые несколько строк файла:

 Channels:   1  
Count:  3600000  
Start:  40640.854055    04/07/11 16:29:50  
End:    40640.895721    04/07/11   17:29:50                                                                            

Date    Time    Time Stamp  Time from Start EEG 1_8401  
04/07/11           16:29:50        40640.687388    0.000000        3.854626e 001     
04/07/11           16:29:50        40640.687388    0.001000        2.664706e 001     
04/07/11           16:29:50        40640.687388    0.002000        1.425481e 001     
04/07/11           16:29:50        40640.687388    0.003000        1.704369e 000     
04/07/11           16:29:50        40640.687388    0.004000        -1.070827e 001   
04/07/11           16:29:50        40640.687388    0.005000        -2.290569e 001   
  

Вот скрипт, который я использовал для импорта файла, когда он был усечен:

 function importfile(fileToRead1)

DELIMITER = 't';
HEADERLINES = 6;

% Import the file
newData1 = importdata(fileToRead1, DELIMITER, HEADERLINES);

vars = fieldnames(newData1);
for i = 1:length(vars)
     assignin('base', vars{i}, newData1.(vars{i}));
end
  

Я думал о том, чтобы сделать что-то подобное с textscan , но не уверен, как пропустить заголовки, выполняющие это, и продолжать получать ошибки переполнения буфера:

 fid = fopen('scan1.dat');
C = textscan(fid, '%*d/%*d/%*d %*d:%*d:%*d %*f %*f %f')
fclose(fid);
  

Ответ №1:

Вот одно из решений с использованием TEXTSCAN:

 fid = fopen('scan1.dat','r');
dataCell = textscan(fid,'%*s %*s %*f %*f %f','HeaderLines',6);
fclose(fid);
  

Первые 6 строк игнорируются с помощью 'HeaderLines' параметра, дата и время считываются как строки и игнорируются (немного компактнее, чем считывать их как целые числа и игнорировать их), а первые два столбца данных с плавающей запятой игнорируются. Содержимое dataCell{1} будет последним столбцом ваших данных.