как использовать webscraping для очистки данных в Inspect elemrnt или просмотра источника страницы

#python #python-3.x #web-scraping #python-requests

#питон #python-3.x #соскабливание полотна #python-запросы #python #веб-очистка

Вопрос:

Я попробовал вебскрапинговать на конкретном веб-сайте. но я не могу получить тег.Я также вижу тег в элементе проверки и источнике страницы просмотра. как получить тег, можете ли вы, пожалуйста, дать мне какое-либо предложение.

WebScrapy.py

 from bs4 import BeautifulSoup
from urllib.request import urlopen
import html5lib
import urllib
import pandas as pd
import xlsxwriter
from docx import Document
from docx.shared import Inches

document = Document()

url = "https://www.newegg.com/Product/ProductList.aspx?Submit=ENEamp;DEPA=0amp;Order=BESTMATCHamp;Description="
Remaining_url="amp;ignorear=0amp;N=-1amp;isNodeId=1"
product_name = 'Seagate 80GB 7200 RPM SATA 3.0Gb/s Internal Hard Drive (IMSourcing) Bare Drive'
p = document.add_paragraph("Product_name "  ":" "  " product_name)

search_words = {'text': product_name}
search_url = urllib.parse.urlencode(search_words).split("=")[1]
product_url = url   search_url   Remaining_url
content = urlopen(product_url).read()
soup = BeautifulSoup(content, "html5lib")
print(soup.find_all("div", class_="list-wrap"))

Я запускаю программу, которая выбрасывает пустой список.Как это исправить, любой может предложить любое решение.

1. Мы нашли 0 элементов, которые соответствуют «Внутреннему жесткому диску Seagate 80GB 7200 RPM SATA 3.0Gb / s (IMSourcing)», — это то, что я вижу по вашему запросу.

2. Нет, я перепробовал много запросов, чтобы получить данные на этом сайте. но я получил некоторые сведения о продукте. он автоматически запускает робота. итак, как это решить. и как запросить solwly для использования для очистки данных.

Ответ №1:

Да, это правильно, список результатов был пуст.

         <div class="result-message">
         <p class="result-message-title">
          <span class="result-message-error">
           We have found 0 items that match "Seagate 80GB 7200 RPM SATA 3.0Gb/s Internal Hard Drive (IMSourcing) Bare Drive".
          </span>
         </p>
        </div>

Вы можете делать паузу между запросами GET с помощью sleep() :

 time.sleep(1.5)

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

К чему «прикреплены» qdisc?

Объедините данные из определенного диапазона всех листов в папке с основным листом

Как отключить пользовательский элемент управления Openlayers?