#python #web-scraping #scrapy #web-crawler
Вопрос:
Я пытаюсь извлечь данные с веб-сайта, на котором есть несколько потрясающих значков шрифтов, подобных этому <i class="fa fa-check-square green-icon font-095"></i>
в основном есть два типа значков, означающих «правильно» или «неправильно», я хочу извлечь это как 1 и 0(если правильно 1, еще 0).
есть ли какие-либо предложения о том, как я могу извлечь данные такого типа?
Комментарии:
1. Разница между «правильными» и «неправильными» значками заключается в классе
green-icon
илиred-icon
?2. На самом деле, это не имеет отношения к вопросу. это определяет, как после извлечения значков я буду их использовать. Я просто хочу знать, могу ли я извлечь потрясающие значки шрифтов
Ответ №1:
С точки зрения извлечения этих данных вы можете использовать библиотеки BeautifulSoup и запросов. Это выглядело бы примерно так…
import requests
from bs4 import BeautifulSoup
r = requests.get("www.website-you-want.com")
soup = BeautifulSoup(r.text, 'lxml')
rows = soup.find_all('i')
Это должно привести вас к каждому появлению тега i на странице. Если бы вы хотели быть более конкретными, вы могли бы сделать что-то в этом роде…
rows = soup.find_all('i', {'class', 'green-icon'})
Это должно обеспечить вам каждое появление тега i с классом с зеленым значком.
ПРИМЕЧАНИЕ: Если веб-сайт динамически загружает контент, вам придется использовать селен с красивым супом. Дайте мне знать, если это так, и я могу попытаться помочь в этом.
Комментарии:
1. Спасибо, используя Scrapy, я сделал то же самое, пока мой веб-сайт работает динамически, а URL-адреса можно изменять.