#wordpress #amazon-s3 #scrapy #scrapinghub
#wordpress #amazon-s3 #scrapy #scrapinghub
Вопрос:
Я периодически запускаю spiders в Scrapy Cloud и экспортирую результаты в корзину AWS S3. Мне нужно динамически загружать мои таблицы WordPress с этими результатами, и в настоящее время я использую плагин TablePress, в котором есть опция «Импортировать таблицы», но это позволяет мне обновлять таблицы только каждые 15 минут.
Есть ли какой-либо способ, которым я мог бы выполнять эти периодические обновления каждые 5 минут или лучше, при изменении файла AWS S3?
Плагин WordPress, который работает с Scrapinghub напрямую, тоже мог бы решить мою проблему, но я искал и не нашел ни одного.
Ответ №1:
Возможно, вам было бы лучше использовать канал JSON — https://wordpress.org/plugins/json-content-importer
Ответ №2:
От вас, Spider на ScrapingHub, вы можете либо
- Отправляйте каждый элемент из вашего Spider, используя
item_scraped
метод - Отправляйте все элементы, как только ваш Spider закончит использовать
spider_closed
метод
Конечно, на вашем веб-сайте будет API для получения этих данных
Надеюсь, это поможет
Комментарии:
1. И как я могу создать API на своем веб-сайте WordPress для получения данных и их динамического отображения?
2. Вы можете создать лямбду (AWS Lambda), которая будет срабатывать каждый раз, когда новый файл загружается в корзину S3 (с экспортом ленты), эта лямбда может выполнить пинг вашего веб-сайта по определенному URL с указанием пути к файлу. например: mywebsite.com/import_from_s3/?path=myspider/myfile_20190328.json
3. @JorgeGarcia если вы не знаете, как создать простой API для получения данных, вам следует нанять для этого настоящего программиста