#r #csv
Вопрос:
Мой CSV-файл содержит около 2 миллионов (миллионов) записей. Если я открою его с помощью excel, я смогу просмотреть только около 1 м (я полагаю, что excel накладывает на него ограничение). Когда я пытаюсь просмотреть csv-файл в RStudio, он не позволяет мне видеть все записи 2M. Он показывает мне только то же количество записей, что и excel. Как я могу просмотреть все 2 М записей в RStudio?
Я использую приведенный ниже код, чтобы прочитать файл, если вам интересно. Я могу просматривать точно такое же количество записей в excel, как и в R. Но я знаю, что записей гораздо больше.
df <- read.csv("bigfile.csv", header = TRUE)
Комментарии:
1. Сколько колонок? 2 МЛН записей-это не так уж много в наши дни…
2. @RuiBarradas там 16 колонок
3. Я попытаюсь дать ответ: то, как вы смотрите на небольшие наборы данных (а 2 м строк далеки от больших данных) в R, заключается в использовании кода — вы используете код для проверки отсутствующих или несогласованных значений, используете код для поиска шаблонов и используете код для манипулирования им. Хотя 2M — это не bigdata, в любом случае это очень сложно проверить визуально…. по крайней мере, так я это воспринимаю
4. Я удалил теги rstudio и excel, потому что они на самом деле не актуальны. Вы можете
View()
работать вне RStudio так же хорошо, как и с ним. В противном случае, чего вы хотите достичь, просматривая такое количество строк? Вы, конечно, не сможете разобраться в этом, не выполнив какую-либо форму агрегирования, поэтому вам не нужно будет много делать, кроме того, чтобы убедиться, что данные правильно отформатированы.5. Проблема в том, что (как говорит @dario) просто непрактично визуально рассматривать два миллиона строк , чтобы увидеть, происходит ли что-то забавное. Если вы можете визуально исследовать 100 строк в секунду, вам потребуется более 5 часов, чтобы просмотреть весь набор данных; если 1000 строк в секунду, это все равно около 30 минут (и вы, вероятно, что-то пропустите). Вы могли бы изучить случайную подвыборку …
Ответ №1:
Я использую бесплатное приложение под названием Средство просмотра больших текстовых файлов (LTFViewer) для быстрого просмотра больших файлов. В нем есть инструмент поиска и инструмент goto_line, очень удобный для расследования проблем.
Как только вы выполнили импорт в R, вы можете сделать:
str(df)
head(df)
names(df)
Вы также можете попробовать
View(df)
Но это работает хуже, так как размер вашего файла увеличивается, как вы заметили.