Выбор двух несмежных файлов для формирования подкорпуса в Quanteda

#r #subset #corpus #quanteda

#r #подмножество #corpus #quanteda

Вопрос:

Я надеюсь на совет относительно выбора двух или более несмежных файлов для формирования подкорпуса. Этот код выбирает 1 файл: testcorpus <- texts (txtdata)[2]

Если бы я хотел сформировать корпус, объединяющий файлы 1 и 25, как бы я это сделал:

Я попытался изменить код, который я нашел в сети, со следующими результатами:

 > my_corpus1 <- corpus(txtdata)[1] 
> my_corpus2 <- corpus(txtdata)[25] 
> my_corpus3 <- ( my_corpus1   my_corpus2)
Error in my_corpus1   my_corpus2 : 
  non-numeric argument to binary operator

>  xx <- corpus(txtdata)[1]    corpus(txtdata)[25] 
Error in corpus(txtdata)[1]   corpus(txtdata)[25] : 
  non-numeric argument to binary operator

> my_corpus3 <-c( my_corpus1   my_corpus2)
Error in my_corpus1   my_corpus2 : 
  non-numeric argument to binary operator
  

Приветствуются любые советы,

Боб

Ответ №1:

Я бы сделал это таким образом:

 library("quanteda")
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

corpus_subset(
  data_corpus_inaugural,
  seq_len(ndoc(data_corpus_inaugural)) %in% c(1, 25)
)
## Corpus consisting of 2 documents and 3 docvars.
  

Аргумент subset здесь возвращает логический вектор, где первый и 25-й элементы равны true, а остальные false, который выбирает эти документы в ваш подкорпус.