#python #web-scraping #staleelementreferenceexception #helium
#python #очистка веб-страниц #исключение staleelementreferenceexception #helium
Вопрос:
Существует веб-страница, которая содержит ссылки на несколько статей, и я хочу иметь возможность посещать каждую из этих статей и извлекать текст, содержащийся в них. Для этой цели я использовал пакет Helium Python и написал скрипт, однако я продолжаю сталкиваться с той же ошибкой.
Ниже приведен сценарий, который я использовал. Я в основном пытаюсь извлечь все теги абзацев и создать из них документ Word. Он отлично работает, когда я тестирую его в одной статье, однако использование этого цикла приводит к тому, что я сталкиваюсь с указанной ошибкой.
from helium import *
import time
from docx import Document
from docx.shared import Inches
document = Document()
start_chrome('some url', headless = True)
time.sleep(5)
article_list = find_all(S('a'))
for article in article_list:
url = article.web_element.get_attribute('href')
if url.startswith('some substring'):
go_to(url)
time.sleep(5)
paragraph_list = find_all(S('p'))
for paragraph in paragraph_list:
document.add_paragraph(paragraph.web_element.text)
Это ошибка, которую я продолжаю получать,
StaleElementReferenceException Traceback (most recent call last)
<ipython-input-10-7a524350ae24> in <module>()
1 for article in article_list:
----> 2 url = article.web_element.get_attribute('href')
3 print(url)
4 if url.startswith('some url'):
5 go_to(url)
StaleElementReferenceException: Message: stale element reference: element is not attached to the page document
(Session info: headless chrome=86.0.4240.198)
(Driver info: chromedriver=2.38.552522 (437e6fbedfa8762dec75e2c5b3ddb86763dc9dcb),platform=Windows NT 10.0.19041 x86_64)
Я совсем новичок в очистке веб-страниц, поэтому я не знаю, есть ли что-то простое, чего мне не хватает. Любая помощь здесь была бы очень признательна.
Ответ №1:
Я смог решить эту проблему. Я полагаю, что проблема заключалась в том, что собранные мной URL-адреса находились в их относительных состояниях. Лучший способ сделать это — собрать все URL-адреса в список, а затем перейти оттуда, в отличие от его генерации путем перебора самих элементов (статей). Код для этого выглядит следующим образом,
from helium import *
import time
from docx import Document
from docx.shared import Inches
document = Document()
start_chrome('some url', headless = True)
time.sleep(5)
article_list = find_all(S('a'))
href_list = [article.web_element.get_attribute('href') for article in article_list]
for href in href_list:
if href.startswith('some substring'):
go_to(href)
time.sleep(5)
paragraph_list = find_all(S('p'))
for paragraph in paragraph_list:
document.add_paragraph(paragraph.web_element.text)
document.save('Extract.docx')