#r #subset #corpus #quanteda
#r #подмножество #corpus #quanteda
Вопрос:
Я надеюсь на совет относительно выбора двух или более несмежных файлов для формирования подкорпуса. Этот код выбирает 1 файл: testcorpus <- texts (txtdata)[2]
Если бы я хотел сформировать корпус, объединяющий файлы 1 и 25, как бы я это сделал:
Я попытался изменить код, который я нашел в сети, со следующими результатами:
> my_corpus1 <- corpus(txtdata)[1]
> my_corpus2 <- corpus(txtdata)[25]
> my_corpus3 <- ( my_corpus1 my_corpus2)
Error in my_corpus1 my_corpus2 :
non-numeric argument to binary operator
> xx <- corpus(txtdata)[1] corpus(txtdata)[25]
Error in corpus(txtdata)[1] corpus(txtdata)[25] :
non-numeric argument to binary operator
> my_corpus3 <-c( my_corpus1 my_corpus2)
Error in my_corpus1 my_corpus2 :
non-numeric argument to binary operator
Приветствуются любые советы,
Боб
Ответ №1:
Я бы сделал это таким образом:
library("quanteda")
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.
corpus_subset(
data_corpus_inaugural,
seq_len(ndoc(data_corpus_inaugural)) %in% c(1, 25)
)
## Corpus consisting of 2 documents and 3 docvars.
Аргумент subset здесь возвращает логический вектор, где первый и 25-й элементы равны true, а остальные false, который выбирает эти документы в ваш подкорпус.