python вырезает удивительные значки шрифтов(значки fa-fa) на странице

#python #web-scraping #scrapy #web-crawler

Вопрос:

Я пытаюсь извлечь данные с веб-сайта, на котором есть несколько потрясающих значков шрифтов, подобных этому <i class="fa fa-check-square green-icon font-095"></i>

в основном есть два типа значков, означающих «правильно» или «неправильно», я хочу извлечь это как 1 и 0(если правильно 1, еще 0).

есть ли какие-либо предложения о том, как я могу извлечь данные такого типа?

Комментарии:

1. Разница между «правильными» и «неправильными» значками заключается в классе green-icon или red-icon ?

2. На самом деле, это не имеет отношения к вопросу. это определяет, как после извлечения значков я буду их использовать. Я просто хочу знать, могу ли я извлечь потрясающие значки шрифтов

Ответ №1:

С точки зрения извлечения этих данных вы можете использовать библиотеки BeautifulSoup и запросов. Это выглядело бы примерно так…

 import requests
from bs4 import BeautifulSoup
r = requests.get("www.website-you-want.com")
soup = BeautifulSoup(r.text, 'lxml')
rows = soup.find_all('i')
 

Это должно привести вас к каждому появлению тега i на странице. Если бы вы хотели быть более конкретными, вы могли бы сделать что-то в этом роде…

 rows = soup.find_all('i', {'class', 'green-icon'})
 

Это должно обеспечить вам каждое появление тега i с классом с зеленым значком.

ПРИМЕЧАНИЕ: Если веб-сайт динамически загружает контент, вам придется использовать селен с красивым супом. Дайте мне знать, если это так, и я могу попытаться помочь в этом.

Комментарии:

1. Спасибо, используя Scrapy, я сделал то же самое, пока мой веб-сайт работает динамически, а URL-адреса можно изменять.