Извлечение фильмографии со страницы википедии с использованием nodejs и puppeteer

#javascript #node.js #web-scraping #puppeteer

#javascript #node.js #веб-очистка #puppeteer

Вопрос:

Я пытаюсь получить фильмографию из Википедии. Используя puppeteer, я выбираю раздел filmography из элемента inspect и копирую XPath . Однако я не получаю никаких данных о фильме.


scrapers.js

 const puppeteer = require("puppeteer")

    const scrapeProduct = async (url) => {
    const browser = await puppeteer.launch()
    const page = await browser.newPage()
    await page.goto(url)


    const [el] = await page.$x(`//*[@id="mw-content-text"]/div[1]/div[8]/div`)
    console.log("el=>", el)

    browser.close()
}


scrapeProduct("https://en.wikipedia.org/wiki/Werner_Herzog")
 

Вот что я получаю console.log(el) :

https://hastebin.com/usozakisen.yaml

Комментарии:

1. Зачем вам пытаться очистить это в первую очередь? У Википедии очень приличный API .

Ответ №1:

el это дескриптор элемента, а не само содержимое. Вы можете попробовать получить innerText этот дескриптор:

 console.log(await el.evaluate(el => el.innerText));