Импорт .tsv при фильтрации данных в r

#r #filter

Вопрос:

У меня есть очень большой набор данных в формате .tsv (около 5 ГБ). После попытки открыть файл в R (так как он был слишком большим, у меня возникли проблемы с R). Я подумал, что было бы неплохо фильтровать данные во время импорта набора данных в R, чтобы удалить все данные, которые мне не нужны, что облегчит задачу для R. Мне было интересно, может ли кто-нибудь дать мне несколько предложений, чтобы сделать это с Р. Я нашел «пакет sqldf», который, похоже, работает с такого рода задачами, но только с файлом .csv.

Я бы попросил R импортировать данные db.tsv, одновременно фильтруя столбец «Кодекс», чтобы удалить все значения ниже 0, что-то вроде этого:

db lt;- (читать.tsv(db.tsv), …. кодекс gt;0)

Заранее благодарим вас за любую помощь или предложение!

Ответ №1:

Вы можете передать свой собственный разделитель в read.csv.sql функции из sqldf . Вот ответ с небольшим примером.

 #Create a dummy dataset mt_data lt;- head(mtcars) rownames(mt_data) lt;- NULL mt_data  # mpg cyl disp hp drat wt qsec vs am gear carb #1 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 #2 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 #3 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 #4 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 #5 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 #6 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1  #Write tsv file readr::write_tsv(mt_data, 'mydata.tsv')  #Read the data with custom separator filtering the data while reading. sqldf::read.csv.sql('mydata.tsv', 'select * from file where am = 0', sep = 't')  # mpg cyl disp hp drat wt qsec vs am gear carb #1 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 #2 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 #3 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Как я могу использовать endpoint DSL для пользовательского компонента в Apache Camel?

php7.2-ошибка установки openssl Alpine Docker

Какой наилучший способ предоставить интерфейс для этих библиотечных функций?