Python извлекает содержимое веб-страницы html с использованием ключевых слов

#python #html #python-3.x

#python #HTML #python-3.x

Вопрос:

Использование python хотело бы извлечь контекст путем сопоставления ключевых слов,

Вот мой скрипт на python

 import requests
from bs4 import BeautifulSoup
import re
html = """ <pre>
      Companies:
       Telstra VI Huawei
      Countries:
       JPN CHN MLY
   </pre>
   <pre>
   Data center:
    US UK
   </pre>"""
r = requests.get(html)
soup = BeautifulSoup(r.content, "html.parser")
k = soup.find(text=re.compile("companies:")).parent.text
print (k)
  

Ожидаемый результат:

 Companies:
       Telstra VI Huawei
  

Комментарии:

1. В чем ваш вопрос? Каков ваш текущий результат?

2. @ThomasMunk Пожалуйста, посмотрите мой скрипт на python, используя который я хочу напечатать ожидаемый результат. Текущий вывод {}

Ответ №1:

Попробуйте это.

 from simplified_scrapy import SimplifiedDoc

html = """ <pre>
      Companies:
       Telstra VI Huawei
      Countries:
       JPN CHN MLY
   </pre>
   <pre>
   Data center:
    US UK
   </pre>"""
doc = SimplifiedDoc(html)
pre = doc.getElementByReg('Companies:')
print(pre.text)
print('-' * 50)
print(pre.replaceReg('Countries:[sS]*', '').strip())
  

Результат:

 Companies: Telstra VI Huawei Countries: JPN CHN MLY
--------------------------------------------------
Companies:
       Telstra VI Huawei