открытие PDF-файла с веб-страницы в R

#r #nlp #data-mining

Вопрос:

Я пытаюсь попрактиковаться в анализе текста с помощью протоколов FOMC ФРС.

Я смог получить все ссылки на соответствующие pdf-файлы по ссылке ниже. https://www.federalreserve.gov/monetarypolicy/fomccalendars.htm

Я попытался загрузить файл. (https://www.federalreserve.gov/monetarypolicy/files/fomcminutes20160316.pdf,»1.pdf»).

Загрузка прошла успешно; однако, когда я нажимаю на загруженный файл, он выводит «Произошла ошибка при открытии этого документа. Файл поврежден и не может быть восстановлен». Каковы некоторые способы исправить это? Является ли это способом предотвращения соскабливания веб-страниц на стороне ФРС?

У меня есть 44 ссылки(pdf-файлы) для загрузки и чтения в R. Есть ли способ сделать это без физической загрузки файлов?

Ответ №1:

 library(stringr)
library(rvest)
library(pdftools)

# Scrape the website with rvest for all href links
p <- 
  rvest::read_html("https://www.federalreserve.gov/monetarypolicy/fomccalendars.htm")
pdfs <- p %>% rvest::html_elements("a") %>% html_attr("href")

# Filter selected fomcminute paths and reconstruct html links
pdfs <- pdfs[stringr::str_detect(pdfs, "fomcminutes.*pdf")]
pdfs <- pdfs[!is.na(pdfs)]
paths <- paste0("https://www.federalreserve.gov/", pdfs)

# Scrape minutes as list of text files
pdf_data <- lapply(paths, pdftools::pdf_text)
 

Комментарии:

1. Спасибо вам за помощь!!