#r #text-mining #readfile
#r #интеллектуальный анализ текста #readfile
Вопрос:
Название в основном говорит само за себя. Я хотел бы прочитать .txt-файл в R, где все пробелы и знаки препинания эффективно превращаются в разрывы строк, разделяя слова на векторный или одностолбцовый фрейм данных, где количество строк равно количеству слов в текстовом файле.
Комментарии:
1. Посмотрите на
readr
пакет
Ответ №1:
Я бы сначала прочитал в файле, а затем разделил строки на слова:
lines <- readLines("C:/Users/Johannes Gruber/Documents/Github/boellhessen/test.txt")
words <- strsplit(lines, " ")[[1]]
head(words)
#> [1] "Title" "basically" "says" "it." "I'd" "like"
Или, в качестве альтернативы, вы можете использовать tokenizers
, что быстрее и точнее.
better_words <- tokenizers::tokenize_words(lines, lowercase = FALSE, strip_punct = FALSE)[[1]]
head(better_words)
#> [1] "Title" "basically" "says" "it" "." "I'd"
Создано 2020-09-17 пакетом reprex (версия 0.3.0)