#python #web-scraping
#python #очистка веб-страниц
Вопрос:
Мне нужно извлечь описание, но я не могу избавиться от всего вокруг него
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen
my_url = "https://articulo.mercadolibre.com.ar/MLA-882792877-donativo-para-gt710-me-ayudas-_JM#position=1amp;type=itemamp;tracking_id=65132519-fce6-4449-afe0-c36e112f4638"
uclient = urlopen(my_url)
htmlreader = uclient.read()
page_soup= soup(htmlreader,"html.parser")
containers = page_soup.find("p",{"class":"ui-pdp-description__content"})
print(containers)
Я получаю это в результате
<p class="ui-pdp-description__content">.Me ayudas a conseguir una plaquita de video para que mi nene juegue roblox? Muchas gracias de antemano.<br/></p>
Мне это нужно так
Me ayudas a conseguir una plaquita de video para que mi nene juegue roblox? Muchas gracias de antemano
Я попробовал containers.string, но в результате получил «none».
Комментарии:
1. в последней строке используйте этот код print(containers.text[1:])
2. сработало как шарм, спасибо!
3. Пожалуйста, проголосуйте за это
Ответ №1:
ваш код абсолютно правильный. В конце просто сделайте
print(containers.text)
При этом удаляются все теги HTML, и остается нужная вам строка.
Комментарии:
1. Я был бы очень признателен, если бы вы подтвердили мой ответ 🙂
Ответ №2:
Я не уверен, какой лучший способ сделать это, но если вы запустите следующий код
print(containers.prettify().split('>')[1].replace('<br/', ''))
он вернет строку, которая включает только предложение, которое вы пытаетесь напечатать.