#r #nlp #data-mining
Вопрос:
Я пытаюсь попрактиковаться в анализе текста с помощью протоколов FOMC ФРС.
Я смог получить все ссылки на соответствующие pdf-файлы по ссылке ниже. https://www.federalreserve.gov/monetarypolicy/fomccalendars.htm
Я попытался загрузить файл. (https://www.federalreserve.gov/monetarypolicy/files/fomcminutes20160316.pdf,»1.pdf»).
Загрузка прошла успешно; однако, когда я нажимаю на загруженный файл, он выводит «Произошла ошибка при открытии этого документа. Файл поврежден и не может быть восстановлен». Каковы некоторые способы исправить это? Является ли это способом предотвращения соскабливания веб-страниц на стороне ФРС?
У меня есть 44 ссылки(pdf-файлы) для загрузки и чтения в R. Есть ли способ сделать это без физической загрузки файлов?
Ответ №1:
library(stringr)
library(rvest)
library(pdftools)
# Scrape the website with rvest for all href links
p <-
rvest::read_html("https://www.federalreserve.gov/monetarypolicy/fomccalendars.htm")
pdfs <- p %>% rvest::html_elements("a") %>% html_attr("href")
# Filter selected fomcminute paths and reconstruct html links
pdfs <- pdfs[stringr::str_detect(pdfs, "fomcminutes.*pdf")]
pdfs <- pdfs[!is.na(pdfs)]
paths <- paste0("https://www.federalreserve.gov/", pdfs)
# Scrape minutes as list of text files
pdf_data <- lapply(paths, pdftools::pdf_text)
Комментарии:
1. Спасибо вам за помощь!!