Как правильно очистить веб-сайт и получить все тексты td с веб-сайта

#python #web #web-scraping #beautifulsoup #python-requests

#python #веб #веб-очистка #beautifulsoup #python-запросы

Вопрос:

Я новичок в python. кто-нибудь знает {sum(int(td.text) для td в soup.select(‘td:last-child’)[1:])}, что такое использование [1:] в этом или [0] или [1] . я видел это во многих примерах очистки нижедля в цикле. Поскольку я практиковался, я создаю этот код и не могу очистить все данные в файле csv. заранее спасибо, извините за два вопроса одновременно.

 import requests
from bs4 import BeautifulSoup
import csv

url= "https://iplt20.com/stats/2020/most-runs"

r= requests.get (url)

soup= BeautifulSoup (r.content, 'html5lib')

lst= []

table=soup.find ('div', attrs = {'class':'js-table'})



#for row in table.findAll ('div', attrs= {'class':'top-players__player-name'}):
#    score = {}
 #   score['Player'] = row.a.text.strip()
#    lst.append(score)

for row in table.findAll (class_='top-players__m top-players__padded '):
    score = {}
    score['Matches'] = int(row.td.text)
    lst.append(score)

filename= 'iplStat.csv'
with open (filename, 'w', newline='') as f:
    w= csv.DictWriter(f,['Player', 'Matches'])
    w.writeheader()
    for score in lst:
        w.writerow(score)



print (lst)
  

Комментарии:

1. Если мой ответ помог вам, пожалуйста, примите мой ответ как лучший ответ. Спасибо!

2. Все, что вам нужно сделать, это нажать на зеленую галочку рядом с моим ответом. Принятие ответа как лучшего ответа сохранит сайт в чистоте, а также поможет вам получить 2 очка репутации!!!

3. Выполнено. но можете ли вы предложить, как научиться кодированию coding.

4. Просто посмотрите несколько руководств и решите больше упражнений.

Ответ №1:

Все это даже не нужно. Просто используйте pandas :

 import requests
import pandas as pd

url = "https://iplt20.com/stats/2020/most-runs"

r = requests.get (url)

df = pd.read_html(r.content)[0]

df.to_csv("iplStats.csv", index = False)
  

Скриншот csv файла:

введите описание изображения здесь