Необходимо получить отзывы о компании glassdoor с сервера aws (Windows или Linux)

#python #web-scraping

#python #очистка веб-страниц

Вопрос:

Я пробовал веб-сбор отзывов о компании glassdoor, используя beautiful soup, selenium, mechanical soup и gaspacho во всех библиотеках, когда я запускал его из своего локального, который я смог очистить. Но тот же код, когда я пытался запустить из своего экземпляра AWS ec2, я столкнулся с ошибкой 403 forbidden. Однако я ожидаю, что код будет запущен с сервера. У меня есть два экземпляра ec2, один из которых linux, а другой — Windows, и в обоих я сталкиваюсь с одной и той же ошибкой

попробовал этот фрагмент кода возвращает

403 запрещенная ошибка

 import urllib.request

user_agent = 'Mozilla/5.0 (platform; rv:geckoversion) Gecko/geckotrail Firefox/firefoxversion'

url = "https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm"

request = urllib.request.Request(url)

request.add_header('User-Agent', user_agent)

response = urllib.request.urlopen(request)

#print(response.read())

with open('Output_new.txt', 'w', encoding='utf-8') as f:

    print(response.read(), file=f)

при запуске этого кода я получаю 403, пытаясь добавить больше заголовков

Я также попробовал это с помощью gazpacho libraries get method

здесь:

 url = 'https://www.glassdoor.co.in/Reviews/Wells-Fargo-Reviews-E8876.htm'

html = get(url)

soup = Soup(html)

print(soup)

with open('Output.txt', 'w', encoding='utf-8') as f:

    print(soup, file=f)

здесь я также сталкиваюсь с той же ошибкой

Может кто-нибудь, пожалуйста, помочь мне с этой проблемой

Заранее спасибо

Ответ №1:

Из Условий использования Glassdoor:

Вы соглашаетесь, что не будете:

Внедрите программное обеспечение или автоматизированные агенты в Glassdoor или получите доступ к Glassdoor, чтобы создавать несколько учетных записей, генерировать автоматические сообщения или удалять, удалять или извлекать данные из Glassdoor без нашего письменного разрешения;

Я думаю, что ваша основная проблема здесь не обязательно техническая — это то, что вы нарушаете Условия использования этого сайта, который явно хорошо оборудован, чтобы свести на нет ваши усилия. Правильный ответ здесь, вероятно, состоит в том, чтобы прекратить попытки очистить Glassdoor.

Я сам не раз сталкивался с этой дилеммой с сайтами, с которых я хотел очистить данные. В конце концов, вероятно, лучше всего уважать высказанные пожелания владельцев сайтов, какими бы они ни были. В конце концов, они зарабатывают свои деньги и платят своим сотрудникам, потому что у них есть данные, которых нет у других, и по этой причине они защищают их.

Вопрос:

Ответ №1:

Вам также может понравиться

атрибут html-формы target=_blank по-прежнему устанавливает window.opener в новом окне

js / jQuery — выход из функции по положению мыши

Публикация вложенного json с использованием API jersey REST Webtarget