Извлечение фильмографии со страницы википедии с использованием nodejs и puppeteer

#javascript #node.js #web-scraping #puppeteer

#javascript #node.js #веб-очистка #puppeteer

Вопрос:

Я пытаюсь получить фильмографию из Википедии. Используя puppeteer, я выбираю раздел filmography из элемента inspect и копирую XPath . Однако я не получаю никаких данных о фильме.

scrapers.js

 const puppeteer = require("puppeteer")

    const scrapeProduct = async (url) => {
    const browser = await puppeteer.launch()
    const page = await browser.newPage()
    await page.goto(url)


    const [el] = await page.$x(`//*[@id="mw-content-text"]/div[1]/div[8]/div`)
    console.log("el=>", el)

    browser.close()
}


scrapeProduct("https://en.wikipedia.org/wiki/Werner_Herzog")

Вот что я получаю console.log(el) :

https://hastebin.com/usozakisen.yaml

Ответ №1:

el это дескриптор элемента, а не само содержимое. Вы можете попробовать получить innerText этот дескриптор:

 console.log(await el.evaluate(el => el.innerText));

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Android — обнаружение устройств с унифицированным объемом

Eigen: поворот вектора вокруг оси

ошибка: [ComponentProcessor: ошибка] dagger.internal.codegen.ComponentProcessor не смог обработать этот класс