#javascript #node.js #web-scraping #puppeteer
#javascript #node.js #веб-очистка #puppeteer
Вопрос:
Я пытаюсь получить фильмографию из Википедии. Используя puppeteer, я выбираю раздел filmography из элемента inspect и копирую XPath
. Однако я не получаю никаких данных о фильме.
scrapers.js
const puppeteer = require("puppeteer")
const scrapeProduct = async (url) => {
const browser = await puppeteer.launch()
const page = await browser.newPage()
await page.goto(url)
const [el] = await page.$x(`//*[@id="mw-content-text"]/div[1]/div[8]/div`)
console.log("el=>", el)
browser.close()
}
scrapeProduct("https://en.wikipedia.org/wiki/Werner_Herzog")
Вот что я получаю console.log(el)
:
Комментарии:
1. Зачем вам пытаться очистить это в первую очередь? У Википедии очень приличный API .
Ответ №1:
el
это дескриптор элемента, а не само содержимое. Вы можете попробовать получить innerText
этот дескриптор:
console.log(await el.evaluate(el => el.innerText));