#python #web-scraping
#python #очистка веб-страниц
Вопрос:
Я пробовал веб-сбор отзывов о компании glassdoor, используя beautiful soup, selenium, mechanical soup и gaspacho во всех библиотеках, когда я запускал его из своего локального, который я смог очистить. Но тот же код, когда я пытался запустить из своего экземпляра AWS ec2, я столкнулся с ошибкой 403 forbidden. Однако я ожидаю, что код будет запущен с сервера. У меня есть два экземпляра ec2, один из которых linux, а другой — Windows, и в обоих я сталкиваюсь с одной и той же ошибкой
попробовал этот фрагмент кода возвращает
403 запрещенная ошибка
import urllib.request
user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'
url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"
request = urllib.request.Request(url)
request.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(request)
#print(response.read())
with open('Output_new.txt', 'w', encoding='utf-8') as f:
print(response.read(), file=f)
при запуске этого кода я получаю 403, пытаясь добавить больше заголовков
Я также попробовал это с помощью gazpacho libraries get method
здесь:
url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'
html = get(url)
soup = Soup(html)
print(soup)
with open('Output.txt', 'w', encoding='utf-8') as f:
print(soup, file=f)
здесь я также сталкиваюсь с той же ошибкой
Может кто-нибудь, пожалуйста, помочь мне с этой проблемой
Заранее спасибо
Ответ №1:
Из Условий использования Glassdoor:
Вы соглашаетесь, что не будете:
- Внедрите программное обеспечение или автоматизированные агенты в Glassdoor или получите доступ к Glassdoor, чтобы создавать несколько учетных записей, генерировать автоматические сообщения или удалять, удалять или извлекать данные из Glassdoor без нашего письменного разрешения;
Я думаю, что ваша основная проблема здесь не обязательно техническая — это то, что вы нарушаете Условия использования этого сайта, который явно хорошо оборудован, чтобы свести на нет ваши усилия. Правильный ответ здесь, вероятно, состоит в том, чтобы прекратить попытки очистить Glassdoor.
Я сам не раз сталкивался с этой дилеммой с сайтами, с которых я хотел очистить данные. В конце концов, вероятно, лучше всего уважать высказанные пожелания владельцев сайтов, какими бы они ни были. В конце концов, они зарабатывают свои деньги и платят своим сотрудникам, потому что у них есть данные, которых нет у других, и по этой причине они защищают их.