Как прочитать текстовый файл .txt в R как вектор с каждым словом в отдельной строке / строке

#r #text-mining #readfile

#r #интеллектуальный анализ текста #readfile

Вопрос:

Название в основном говорит само за себя. Я хотел бы прочитать .txt-файл в R, где все пробелы и знаки препинания эффективно превращаются в разрывы строк, разделяя слова на векторный или одностолбцовый фрейм данных, где количество строк равно количеству слов в текстовом файле.

Комментарии:

1. Посмотрите на readr пакет

Ответ №1:

Я бы сначала прочитал в файле, а затем разделил строки на слова:

 lines <- readLines("C:/Users/Johannes Gruber/Documents/Github/boellhessen/test.txt")
words <- strsplit(lines, " ")[[1]]
head(words)
#> [1] "Title"     "basically" "says"      "it."       "I'd"       "like"
  

Или, в качестве альтернативы, вы можете использовать tokenizers , что быстрее и точнее.

 better_words <- tokenizers::tokenize_words(lines, lowercase = FALSE, strip_punct = FALSE)[[1]]
head(better_words)
#> [1] "Title"     "basically" "says"      "it"        "."         "I'd"
  

Создано 2020-09-17 пакетом reprex (версия 0.3.0)