#r #for-loop #foreach #parallel-processing
#r #для цикла #foreach #параллельная обработка
Вопрос:
У меня есть список из более чем 1 миллиона строк URL-адресов, которые я собираюсь очистить, и я делаю это параллельно. Однако для выполнения требуется больше времени, чем ожидалось. Итак, я думаю разбить его на несколько циклов и выдавать результаты через каждые 20 000 строк, а также распечатывать время, затраченное на выполнение каждого цикла. Возможно ли это сделать?
Я создал функцию scrape с именем URL_Scrape
, и вызывается список URL-адресов URLs_List
Вот мой код для параллельной очистки
no_cores <- detectCores()-1
cl <- makeCluster(no_cores)
clusterEvalQ(cl, library(Rcrawler))
system.time({
Result <- parLapply(cl, URLs_List, URL_Scrape)
})
stopCluster(cl)
Приветствуются любые советы.
Комментарии:
1. Есть несколько пакетов, в которые можно добавить индикатор выполнения
parLapply()
.