Парсинг сайтов всегда вызывает сомнения относительно его законности в России (и в других странах). Мы довольно долго занимаемся этим бизнесом и подготовили ответы на ваши наиболее часто задаваемые вопросы:
Что такое парсинг?
Парсинг, также известный, как сбор и извлечение данных с веб-сайтов, доступных во всемирной сети через протокол передачи гипертекста (HTTP) или через веб-браузеры.
Парсинг — это законно?
Сам по себе парсинг не является чем-то противозаконным, поскольку это — всего лишь инструмент, облегчающий сбор данных. Однако парсинг может нарушать закон, если вы используете его для кражи непубличной информации, или интересующий вас веб-сайт строго запрещает использование веб-страниц без предварительного разрешения или упоминания некоторых юридических аспектов авторского права, связанных с использованием чужих данных. Настоятельно рекомендуется внимательно прочитать Условия использования веб-сайта, прежде чем его сканировать.
Парсинг сайтов в России — законен?
Да, абсолютно. Мы проводили консультации с рядом юридических компаний и у нас есть правовое заключение о том, что парсинг сайтов и мониторинг цен товаров с сайтов в сети Интернет – абсолютно правовое действие, т.к. вся информация находится в открытом доступе. Название товара и цена (артикул, категория и т.п.) не могут является объектами авторского права – это общедоступная информация (фактическая).
Сервис работает по полной аналогии с человеком, который может сделать эту работу самостоятельно, просто наш продукт значительно облегчает эту рутинную задачу! Более того, мы помогаем повысить конкуренцию, т.к. даже небольшой бизнес сможет воспользоваться данными парсинга крупных продавцов и стать более конкурентным на рынке за счет ценового и ассортиментного анализа.
Вы сильно нагружаете сайты, товары на которых мониторите?
Нет. Мы прекрасно понимаем, что это может повредить бизнесу компании, которой принадлежит сайт и наш сервис парсинга сайтов работает в максимально «щадящем» режиме. Так, мы стараемся обновлять цены только в ночное время, когда на сайты обычно минимальная нагрузка. Далее, сервис не берет часто информацию о ценах на все имеющиеся товары, а только на те, которые нужно отслеживать.
Все это приводит к тому, что компании даже не замечают работу сервиса, т.к. он абсолютно не влияет на работоспособность и доступность их ресурса в сети Интернет. Можно провести аналогию, что работает пять операторов одновременно, которые вручную записывают в Excel цены с одного сайта – вряд ли это хоть как-то скажется на его работоспособности…
Вы парсите закрытую информацию на сайтах?
Нет. Мы полностью следуем инструкциям, прописанным для поисковых систем Yandex/Google в файлах robots.txt на сайтах, которые парсим. Мы не занимаемся сбором закрытой (конфиденциальной, защищаемой) информации и никогда не будем это осуществлять.
Мониторинг цен и парсинг сайтов – это не взлом сайтов с целью получения доступа к какой-то коммерческой информации. Каждый посетитель сайта, продающего товары, и так видит цены (или услуги) в открытом доступе, даже без регистрации. Наша задача – повторить работу поисковых систем Яндекс и Google но не для всех сайтов в сети Интернет, а только для тех, товары или услуги которых следует отслеживать.
Что такое robots.txt?
Файл robots.txt — это текстовый файл, который сообщает сканерам, ботам или парсерам, как следует работать с сайтом, можно ли парсить этот веб-сайт. Очень важно соблюдать правила из файла robots.txt, чтобы не быть заблокированным при сканировании веб-страниц.
Есть ли ограничение на количество товаров у конкурентов для мониторинга?
Нет. Но чем больше товаров, тем больше времени сервису может понадобиться на регулярный сбор цен (учитывая тот факт, что сбор не должен помешать работе сайта).
Обычно, как показывает наша практика, 10 000 SKU отслеживаются за 5-6 часов (при регулярном мониторинге изменения цен на сайте вашего конкурента). Нет ограничений и по количеству сайтов, которые можно парсить для сбора информации.
У нас есть клиенты, которые отслеживают (парсят) до 15 сайтов- конкурентов одновременно и получают оперативно отчеты об изменениях цен, ассортимента и т.п. Естественно, от количества конкурентов будет меняться цена на услуги парсинга.
Можно ли парсить сайты, не относящиеся к категории Интернет-магазины?
Да. Но обратите внимание, что мы работаем строго в рамках закона – собирается только открытая информация, которая доступна любому пользователю сети Интернет. Технически наши роботы могут регулярно собирать любую информацию с любых сайтов в сети Интернет и записывать ее в удобном формате (CSV, EXCEL, XML и т.п.). Но сложность и стоимость такой работы зависит от источника и обсуждается отдельно.
Можно ли парсить картинки и описания товаров?
Технически парсить изображения и описания (товаров, услуг) не является проблемой. Но надо отметить, что эта информация может быть объектом авторского права и парсинг (а точнее дальнейшее использование этой информации) может нарушать закон.
Возможно ли парсить данные на сайтах, требующих авторизации?
Да, мы можем сканировать данные на сайте с авторизацией, если у вас есть действующий аккаунт на сайте. Процесс парсинга после входа в систему ничем не будет отличаться от обычного парсинга.
Да. Но мы попросим предоставить нам логин и паролья для доступа. Фактически, парсинг под паролем ничем не отличается от обычного парсинга данных, разве что наш сервис автоматически зарегистрируется на сайте.
Важно – мы не занимаемся подбором паролей для взлома закрытого доступа, мы оказываем услугу по автоматизированному сбору информации в ваших интересах и под вашим логином и паролем. Иными словами, мы просто оптимизируем работу вашего персонала, повышая конкурентоспособность вашего бизнеса.
Нам нужно парсить персональные данные!
Друзья, мы не занимаемся хакингом (взломом) сайтов и т.п. Мы не подбираем пароли, не собираем персональную информацию. Все наши парсеры работают по полной аналогии с роботами Яндекс или Гугл. Мы собираем только открытую (!) публично-доступную информацию.
Мониторинг цен – это сведение результатов парсинга двух или более сайтов в единую удобную табличку Excel. Исходя из этого, вначале нужно спарсить информацию, а затем свести ее воедино. В этом процессе есть нюансы, но да – мы это делаем для многих клиентов…
Вы работаете по безналичному расчету?
Только так мы и работаем! Мы поддерживаем ЭДО СБИС.
Нам нужно парсить резюме с сайта ХедХантер — поможете?
Обращаем ваше внимание, что мы можем парсить сайты только под вашим логином и паролем, оказывая услугу по автоматизированному сбору резюме. Мы не занимаемся взломом сайтов или подбором паролей. Наша цель – упростить сбор информации автоматизированными методами. И да, мы можем парсить ХедХантер учитывая сказанно выше.
Как извлечь контент с динамических веб-страниц?
Динамический сайт — сайт, который часто обновляет данные. Например, в Твиттере постоянно появляются новые сообщения. Парсинг данных с такого веб-сайта аналогичен парсингу других веб-сайтов, но вы должны разрешить боту с определенной частотой заходить на веб-сайт для непрерывного получения обновленных данных.
Может ли парсер скачивать файлы с веб-сайтов?
Да, существует множество инструментов для парсинга, которые могут в процессе сканирования текстовой информации скачивать файлы непосредственно с веб-сайта и сохранять их на Dropbox или других серверах.
В чем разница между парсингом сайтов и их сканированием?
Веб-парсинг и сканирование веб-сайтов — это две взаимосвязанные концепции. Парсинг, как мы упоминали ранее, это процесс получения данных с веб-сайтов. Сканирование веб-сайтов — это систематический просмотр интернета, как правило, с целью индексации.
Можно ли переиздавать контент, полученный с помощью парсинга?
При повторной публикации контента необходимо согласие владельца. Даже если вы парсили текстовое содержимое веб-сайтов, на которых разрешены боты, вам все равно нужно использовать эти данные таким образом, чтобы не нарушать авторские права издателя.
Можно ли в процессе парсинга решать капчу (capcha)?
Когда-то давно капча была ночным кошмаром парсеров, но теперь её можно легко решить. Множество веб-парсеров имеют встроенную функцию автоматического определения капча в процессе сканирования. Существует много решателей капча, которые могут быть интегрированы с парсерами.
Как избежать блокировки при парсинге сайта?
Большинство сайтов будут блокировать вас, если вы слишком много их парсите. Чтобы избежать блокировки, необходимо сделать процесс парсинга похожим на человека, просматривающего веб-сайт. Например, добавить задержку между двумя запросами, использовать прокси-сервер или использовать разные шаблоны сканирования — это всё может помочь вам не быть заблокированными.
Data Mining и парсинг — это одно и то же?
Парсинг и Data Mining — это два разных процесса. Парсинг предназначен для сбора необработанных данных, а Data Mining — это процесс нахождения структуры в больших наборах данных.
Парсинг — зачем он нужен?
Парсинг в интернете нацелен на сбор данных, поэтому его можно применять в любой отрасли, которая нуждается в данных. Он широко используется в исследованиях рынка, мониторинге цен, управлении человеческим капиталом, привлечении потенциальных клиентов и во многих других задачах.
Могу ли я парсить LinkedIn или Facebook?
К сожалению, оба сайта через свой robots.txt запрещают автоматическое сканирование. Юридические споры LinkedIn с компаниями, которые сканировали данные, были на слуху. Но остается возможность парсить эти два сайта, если вы будете извлекать из них только публичные данные и списки.
Какой инструмент для парсинга является лучшим?
Выбор инструмента для парсинга зависит от характера сайта и его сложности. До тех пор, пока инструмент помогает вам быстро и без проблем получать данные по приемлемой стоимости или вообще бесплатно, вы можете выбрать любой инструмент, который вам нравится.
Часто задаваемые вопросы, касающиеся наших программных продуктов:
Могу ли я получить мани бэк, если мне не подойдет приложение?
В виду того, что каждая наша программа имеет демоверсию, у Вас есть возможность до покупки без всякого риска для себя оценить работоспособность и качество выбранной Вами программы. Если оно Вам не подходит, то Вы его просто не покупаете. Произведя оплату, Вы тем самым подтверждаете, что Вы приняли осознанное решение о покупке того или иного нашего продукта.
Хочу купить одну из Ваших программ но не хватает денег, бывают ли у вас скидки?
Да, мы достаточно часто проводим различные акции и Вы периодически можете найти промокоды на скидки, как на нашем сайте, так и на различных форумах. Если Вы попробовали использовать демоверсию и сложили о приложении свое мнение, Вы можете написать отзыв на одном из форумов и получить индивидуальную скидку.
Что делать если утерян код активации приложения?
Если Вы потеряли код активации, Вам нужно просто связаться с нами и указать любые данные, которые Вы могли указать при предыдущей активации приложения. Это может быть E-Mail, по ним мы без проблем найдем Ваш код активации и вышлем его Вам. Так же, если Вы покупали приложение через систему, Вы можете зайти туда, ввести Ваш E-Mail и Вам будет доставлена вся информация о ваших покупках, среди которой будет и Ваш код активации.
Я хочу импортировать полученный контент на свой сайт, как мне это сделать?
Парсер контента по списку ключевых слов и он не отвечает за постинг в различные CMS за исключением WordPress. Вы можете непосредственно в парсере сформировать шаблон для импорта в WordPress, на примере уже существующего. Делается это в Шаблонах вывода. Для экспорта в другие CMS существует множество программ. Поскольку хотя бы одна из этих программ имеются у большинства наших клиентов мы не стали завышать цену за счет такого функционала.
Сколько стоит ваши услуги парсинга?
Поскольку мы предлагаем индивидуальное решение для каждого клиента, цена будет варьироваться в зависимости от нескольких факторов, таких как сложность задачи и масштаб проекта. Например, если вам нужно собрать данные из трех источников с 5000 веб-страниц каждый, то цена будет выше, чем если вам нужно спарсить контактную информацию с одной страницы.
Свяжитесь с нами, опишите вашу задачу по парсинга, и мы в скором времени пришлем вам цену за кастомное решение.
Можете ли вы парсить не русскоязычные сайты?
Да, безусловно можем. Для партнеров мы парсили сайты на английском, немецком, французском и других языках.
Какой инструменты для парсинга лучше всего?
Возможность и использование любого инструмента для парсинга сайтов зависит от типа сайта и его сложности. Инструменты для парсинга сайтов обычно относятся к категориям инструментов, которые вы устанавливаете на свой компьютер или в браузер вашего компьютера (Chrome или Firefox). Инструменты для парсинга (бесплатные или платные) и веб-сайты, приложения могут быть хорошим выбором, если ваши требования к данным невелики, а исходные веб-сайты не являются сложными.
Если же вам нужно извлекать большие объемы данных, с большого количества сайтов или сайты имеют хороший уровень защиты от парсинга, лучше всего обратиться к компаниям, которые напишут под ваши задачи кастоманый парсер.
Парсинг — это то же самое, что и интеллектуальный анализ данных?
Нет, но парсинг является неотъемлемой частью интеллектуального анализа данных.Интеллектуальный анализ данных – это процесс поиска закономерностей в больших наборах данных, который обычно выполняется с помощью различных решений машинного обучения. Именно здесь на помощь приходит парсинг. Парсинг является одним из наиболее эффективных способов сбора большого объема данных, и после парсинга и обработки данных у вас будет готовый для дальнейшего анализа набор данных.
Сколько времени потребуется, чтобы спарсить нужные данные?
На сбор данных с сайта может потребоваться от 1 дня и более, этот процесс зависит от сложности и масштабов вашего проекта. Мы оговариваем сроки и порядок выполнения для каждого проекта индивидуально и устанавливаем разные сроки для каждого клиента. В зависимости от объема вашего проекта, сроки могут быть больше. Важно помнить одну вещь – если вы спешите с крупномасштабным проектом по парсингу, вы можете быть заблокированы исходным сайтом, что, в свою очередь, продлит проект, так как необходимо будет внедрить новое решение для парсинга.
Что я должен указать в заявке на парсинг?
Опишите свой проект по парсингу:
- ссылки на сайты, которые надо спарсить;
- укажите что конкретно надо спарсить с сайтов – отзывы, цену, описание, название и т.д., лучше всего будет, если сделаете скриншот сайта и выделите цветом то, что нужно спарсить.
- укажите параметры огранивающие сбор данных – категорию, бренды или товары;
- в каком формате вам нужны данные – CSV/EXCEL;
- укажите периодичность сбора – раз в день, раз в неделю, раз в месяц;
- укажите телефон и email, чтобы наши менеджеры могли с вами связаться и задать уточняющие вопросы по задаче.
Что произойдет после того, как я заполню форму обратной связи?
После того, как вы описали свой проект по парсингу, один из наших менеджеров внимательно изучит ваш запрос, а также сайт, с которого вам надо собрать информацию, чтобы определить, позволяют ли его условия использования, robots.txt и другие факторы спарсить необходимые данные с нужных вам сайтов.
Наша команда свяжется с вами в ближайшее время. Вы сразу узнаете, осуществим ли ваш проект по парсингу технически и юридически. Консультация бесплатная, без каких-либо скрытых затрат.