• Главная
  • Блог
  • Парсинг данных с сайтов что это и зачем он нужен.

Парсинг данных с сайтов что это и зачем он нужен.

Парсинг обычно применяют, когда нужно быстро собрать большой объем данных. Его выполняют с помощью специальных сервисов — парсеров. В этой статье мы разберем, с какой целью можно использовать парсинг, что он позволяет узнать о конкурентах и законен ли он. Также мы рассмотрим, как пошагово спарсить данные с помощью одного из инструментов.



Время чтения 17 минут

Вы можете перейти сразу к интересующему разделу:

Что такое парсинг
Способы применения парсинга
Что могут узнать конкуренты с помощью парсинга
Законно ли парсить сайты
Этапы парсинга
Как парсить данные
Как защитить свой сайт от парсинга
Выводы

Что такое парсинг

Парсинг — это процесс автоматического сбора данных и их структурирования.

Специальные программы или сервисы-парсеры «обходят» сайт и собирают данные, которые соответствуют заданному условию.

Простой пример — допустим, нужно собрать контакты потенциальных партнеров из определенной ниши. Вы можете это сделать вручную. Надо будет заходить на каждый сайт, искать раздел «Контакты», копировать в отдельную таблицу телефон и т. д. Так на каждую площадку у вас уйдет по пять-семь минут. Но этот процесс можно автоматизировать. Задаете в парсере условия выборки и через какое-то время получаете готовую таблицу со списком сайтов и телефонов. 

Плюсы парсинга очевидны — если сравнивать его с ручным сбором и сортировкой данных:

вы получаете данные очень быстро;
можно задавать десятки параметров для составления выборки;
в отчете не будет ошибок;
парсинг можно настроить с определенной периодичностью — например, собирать данные каждый понедельник;
многие парсеры не только собирают данные, но и советуют, как исправить ошибки на сайте.

В сети достаточно много решений для парсинга. Они могут находиться в «облаке» или «коробке»:

облачная версия — это SaaS, вам нужно будет зарегистрироваться и работать с сервисом прямо в браузере;
коробочная версия — решение, которое нужно установить на ваш компьютер, и работать с ним в окне программы.

В обоих случаях вы платите за доступ к парсеру в течение какого-то времени. Например, месяца, года или нескольких лет.

Способы применения парсинга

Область применения парсинга можно свести к двум целям:

анализ конкурентов, чтобы лучше понимать, как они работают, и заимствовать у них какие-то подходы;
анализ собственной площадки для устранения ошибок, быстрого внедрения изменений и т. д.

Пример того, что может предложить один из парсеров для поиска, устранения ошибок и прокачки SEO

Мы регулярно используем парсер для блога Ringostat. Например, когда нужно найти изображения, к которым по какой-то причине не прописан атрибут Alt. Поисковики считают это ошибкой и могут понизить в выдаче тот сайт, на котором много таких иллюстраций. Даже страшно представить, сколько времени потребовалось бы на ручной поиск таких картинок. А благодаря парсеру мы получаем список со ссылками за несколько минут.

Теперь давайте рассмотрим для каких целей еще можно использовать парсинг.

Исследование рынка. Парсинг позволяет быстро оценить, какие товары и цены у конкурентов.
Анализ динамики изменений. Парсинг можно проводить регулярно, чтобы оценивать, как менялись какие-то показатели. Например, росли или падали цены, изменялось количество онлайн-объявлений или сообщений на форуме.
Устранение недочетов на собственном ресурсе. Выявление ошибок в мета-тегах, битых ссылок, проблем с редиректами, дублирующихся элементов и т. д.
Поиск внешних ссылок, ведущих на вашу площадку. Это поможет оценить работу подрядчика по линкбилдингу. Как проверять внешние ссылки и какими инструментами это делать, подробно описано в статье. Пример такого отчета:
Наполнение каталога интернет-магазина. Обычно у таких сайтов огромное количество позиций и уходит много времени, чтобы составить описание для всех товаров. Чтобы упростить этот процесс, часто парсят зарубежные магазины и просто переводят информацию о товарах.
Составление клиентской базы. В этом случае парсят контактные данные, например, пользователей соцсетей, участников форумов и т. д. Но тут стоит помнить, что сбор информации, которой нет в открытом доступе, незаконен.
Сбор отзывов и комментариев на форумах, в соцсетях.
Создание контента, который строится на выборке данных. Например, результаты спортивных состязаний, инфографики по изменению цен, погоды и т. д.

Кстати, недобросовестные люди могут использовать парсеры для DDOS-атак. Если одновременно начать парсить сотни страниц сайта, то площадку можно «положить» на какое-то время. Это, разумеется, незаконно — об этом подробнее ниже От подобных атак можно защититься, если на сервере установлена защита.

Что могут узнать конкуренты с помощью парсинга

В принципе, любую информацию, которая размещена на вашем сайте. Чаще всего ищут:

цены;
контакты компании;
описание товаров, их характеристик и в целом контент;
фото и видео;
информацию о скидках;
отзывы.

Проводить такую «разведку» могут не только конкуренты. Например, журналист может провести исследование, правда ли интернет-магазины предоставляют настоящие скидки на Черную пятницу. Или искусственно завышают цены незадолго до нее и реальную цену выдают за скидку. С этой целью он может заранее спарсить цены десятка интернет-магазинов и сравнить с ценами на Черную пятницу.

Или другой пример — Игорь Горбенко в статье для Vc с помощью парсинга проанализировал, насколько продавцы цветов поднимают цены к Дню святого Валентина:


Кстати, эта статья вызвала большой резонанс. Поэтому, если вы блогер или новостное издание, то парсинг однозначно стоит взять на вооружение.

Законно ли парсить сайты

Если кратко, то законно — если вы парсите информацию, которая есть в открытом доступе. Это логично, ведь так любой человек и без парсера может собрать интересующие данные. Что преследуется законом:

парсинг с целью DDOS-атаки;
сбор личных данных пользователей, которые находятся не на виду — например, в личном кабинете, указывались при регистрации и т. д.;
парсинг для воровства контента — например, перепост чужих статей под своим именем, использование авторских фото не из бесплатных стоков;
сбор информации, которая составляет государственную или коммерческую тайну.

Рассмотрим это подробнее с точки зрения законодательства Украины и России.

Украинское законодательство

Согласно ЗУ «Об информации», информация по режиму доступа делится на общедоступную и информацию с ограниченным доступом. В свою очередь информация с ограниченным доступом делится на конфиденциальную, гостайну и служебную. Определения каждого вида содержатся в ЗУ «О доступе к публичной информации.

В большей степени любой спор касательно незаконного парсинга и/или распространения информации касается именно конфиденциальных данных.

Информация о физлице, которая может его идентифицировать, априори является конфиденциальной и может быть использована только по согласию. Поэтому, чтобы парсинг был законным, парсить нужно либо деперсонифицированные данные, либо получать согласие распорядителя информации — владельца сайта, на котором зарегистрирован пользователь.
Если речь идет об информации, не являющейся персональной, она может считаться конфиденциальной, только если ее владелец определил ее как таковую. Так, чаще всего на сайтах размещается либо политика конфиденциальности, либо правила пользования сайтом. В этом документе/на этой странице указаны права и обязанности посетителей/пользователей, которые нужно соблюдать. Поэтому перед парсингом стоить проверить, не запрещен ли сбор информации и использование данных сайта.

Также важным является возможное нарушение авторских установленных ЗУ «Об авторских и смежных правах» и ГКУ. Перед парсингом нужно понимать, что любой тип контента защищен авторским правом с момента его создания. И только автор определяет как (платно/бесплатно), где (статья/сайт/реклама) и сколько (на протяжении срока действия лицензии/бессрочно) можно использовать его творение.  

Даже при условии правомерности парсинга, его осуществление не должно подрывать нормальную работу сайта, который парсят. Если из-за парсинга информации произойдет сбой и утечка или подделка данных, то подобные действия могут расцениваться как несанкционированное вмешательство в работу сайта, что является нарушением согласно УК Украины.

Есть еще один нюанс. Представим, что одна компания долго разрабатывала продукт, вкладывала деньги, чтобы собрать базу пользователей или покупателей, а другая спарсила все и за несколько недель создала практически аналогичный сервис или продукт. Подобные действия при наличии весомой доказательной базы могут расцениваться как нарушение условий конкуренции согласно ЗУ «О защите от недобросовестной конкуренции».

 

Российское законодательство

Компания вправе осуществлять автоматизированный сбор информации, размещенной в открытом доступе на сайтах. Если при парсинге происходит сбор, а в дальнейшем и распространение информации с ограниченным доступом, то это может считаться нарушением положений УК РФ.

Кроме того, любой контент защищен нормами авторского права. Владелец исключительных прав на контент может определять любые ограничения на его использование. Это означает что контент, собранный с помощью парсинга, в дальнейшем не может быть использован, а если и будет, то это будет считаться нарушением положений ГК РФ, за что предусмотрена ответственность  КоАП РФ.

Автоматизированный сбор информации не должен приводить к нарушению в работе сайтов и нарушать условия пользования площадкой. И, как и в украинском законодательстве, если компания спарсит все у конкурента и создаст аналогичный сайт, это будет расцениваться как нарушение условий конкуренции согласно 135-ФЗ «О защите конкуренции».

Аналогично, парсер не должен извлекать личную информацию пользователя. Персональными данными, согласно 152-ФЗ «О персональных данных», называется «любая информация, относящаяся к прямо или косвенно определенному или определяемому физическому лицу». То есть, закон не определяет исчерпывающего списка того, что является персональными данным. Если даже парсятся только телефонные номера пользователей без их согласия, то уже нарушается закон.

Парсинг данных пользователей с сайтов объявлений и социальных сетей является незаконным, и за это предусмотрена ответственность КоАП РФ.

Кроме того, нарушение 152-ФЗ может сопровождаться нарушением 38-ФЗ «О рекламе», если по собранной базе, например, рассылались рекламные SMS-сообщения. 

Этапы парсинга

Если не погружаться в технические подробности, то парсинг строится из таких этапов:

пользователь задает в парсере условия, которым должна соответствовать выборка — например, все цены на конкретном сайте;
программа проходится по сайту или нескольким и собирает релевантную информацию;
данные сортируются;
пользователь получает отчет — если проводилась проверка на ошибки, то критичные выделяются контрастным цветом;
отчет можно выгрузить в нужном формате — обычно парсеры поддерживают несколько.

Пример отчета Netpeak Spider, где критичные ошибки выделяются красным цветом

Источник

Как парсить данные

Теперь давайте более подробно рассмотрим, как парсить данные. Разберем его в разрезе довольно частой задачи для менеджера — собрать базу для «холодного» обзвона. В качестве примера возьмем парсер Netpeak Checker, с которым работаем и сами.

Допустим, наша компания продает оборудование для салонов красоты. И сотруднику нужно собрать базу контактов таких компаний, чтобы позвонить и предложить им наш товар. Обычно на старте готового списка площадок у менеджера нет. Поэтому для поиска можно использовать встроенный в программу инструмент «Парсер поисковых систем».


Вводим в нем нужные запросы — «салон красоты», «парикмахерская», «бьюти-процедуры».


На вкладке «Настройки» выбираем поисковую систему и количество результатов — например, топ-10 или все результаты выдачи. В дополнительных настройках указываем язык выдачи и параметры геолокации, чтобы в результаты попадали салоны красоты только из нужного нам региона. Сохраняем настройки и нажимаем «Старт», чтобы начать парсинг.


Чтобы перейти к массовому сбору телефонов с главных страниц найденных сайтов, нажимаем на кнопку «Перенести хосты». После этого ссылки отобразятся в основной таблице программы.


Теперь, когда у нас есть полный список салонов, на боковой панели в разделе параметров «On-Page» отмечаем пункт «Телефонные номера» и нажимаем «Старт». Все найденные телефоны с сайтов и их число будут внесены в соответствующих колонках основной таблицы результатов.


Если бы у нас заранее был собран перечень необходимых адресов, мы могли бы их просто загрузить в программу и точно так же собрать телефоны.

Сохраняем данные в формате CSV, нажав кнопку «Экспорт».


Вот и все — мы получили список салонов и их телефонов.

Кстати, сэкономить время можно не только за счет парсинга. Вы в любом случае тратите где-то минуту, чтобы набрать номер на телефоне. Если в вашем списке хотя бы 50 компаний, на это в сумме уйдет почти час. Но есть способ тратить на набор номера одну секунду. Это Ringostat Smart Phone — умный телефон, встроенный прямо в браузер Chrome. Он позволяет звонить, просто нажав на номер, расположенный на любом сайте, в карточке CRM или просто в таблице. Как в нашем примере.

Подключите Ringostat, установите расширение и сможете обзвонить базу за минимальное время. При желании ее можно сразу перенести в CRM и звонить уже оттуда с помощью Ringostat Smart Phone. Тут видно, что звонок происходит мгновенно:


Более подробно этот процесс описан в статье «Лайфхак для менеджера: как подготовить и обзвонить базу за минимальное время». 

Преимущества Ringostat Smart Phone и Ringostat Insider
Простота использования — звоните и принимайте звонки прямо в браузере Google Chrome, переходите в сделку или контакт CRM в один клик.
Звонок по клику с любой веб-страницы — это экономит в среднем 4 часа 20 минут на сотрудника в месяц. Работайте в одном окне — не нужно переключаться между разными системами.
Обращайтесь к клиенту по имени — расширение покажет имя звонящего клиента, если он заведен в CRM.
Ценные инсайты для менеджеров по продажам — предугадывайте потребности клиента еще до ответа на звонок, благодаря расширению Ringostat Insider, которое показывает данные о звонящем пользователе.

Узнать подробнее

Как защитить свой сайт от парсинга

Как мы упоминали выше, парсинг не всегда используют в нормальных целях. Если вы боитесь атаки со стороны конкурентов, площадку можно защитить. Существует несколько способов, как это сделать.

Ограничьте число действий, которые можно совершить на вашей площадке за определенное время. Например, разрешите только три запроса в течение минуты с одного IP-адреса.
Отслеживайте подозрительную активность. Если заметили сильно много запросов с одного адреса, запретите ему доступ. Или показывайте reCAPTCHA, чтобы пользователь подтвердил, что он человек, а не бот или парсер.
Создайте учетную запись, чтобы действия на сайте мог совершать зарегистрированный посетитель.
Идентифицируйте всех, кто заходит на площадку. Например, по скорости заполнения формы или месту нажатия на кнопку. Есть скрипты, которые позволят собирать информацию о местонахождении пользователя, разрешении экрана.
Скройте информацию о структуре сайта. Пусть доступ к ней будет только у администратора.
Обращайте внимание на похожие или идентичные запросы, одновременно поступающие с разных IP-адресов. Парсинг может быть распределенным. Например, через прокси-сервера.

В любом случае, помните, что всегда есть риск заблокировать реального пользователя, а не программу. Поэтому тут вам решать, что важнее — безопасность сайта или риск потери потенциального клиента.

Выводы
Парсинг — это сбор и сортировка данных с определенными параметрами. У этого инструмента масса преимуществ: скорость, отсутствие ошибок в выборке, возможность проводить парсинг регулярно. Плюс, многие парсеры не просто собирают данные, но и советуют, как исправить критические ошибки на вашем сайте.
Парсинг используется для анализа конкурентов, исследования рынка, поиска и устранения ошибок на собственной площадке, создания контента. Интернет-магазины используют его, чтобы переводить описания товаров с иностранных площадок.
Парсинг вполне законен, если вы собираете информацию, которая есть в открытом доступе. Нельзя проводить его, чтобы «положить» ресурс конкурента, украсть чужой контент или получить данные, не предназначенные для общего доступа.
Если боитесь атаки на свой сайт, парсинг можно выявить и запретить. Способов существует несколько, но многие парсеры хвастаются в сети, что умеют их обходить. Плюс, вы всегда рискуете заблокировать «живого» человека.

Подпишитесь на обновления

Раз в неделю мы отправляем дайджест самых интересных новостей о digital

Email*
Подписаться
Даю согласие на обработку персональных данных и хочу получать информационно-рекламные письма *

Категория
Новости
Теги
seo

Если вы нашли ошибку - выделите её и нажмите Ctrl + Enter или нажмите сюда.

Не пропустите

Дайджест обновлений Ringostat за январь 2021
Короче: особенности баннерных кампаний за 5 минут
Стартует третий ежегодный рейтинг агентств контекстной рекламы Украины
Аналитика в маркетинге: зачем она нужна и как построить
Почему важно повторно тестировать гипотезы
Alex

Согласен, сейчас без парсинга практически не обойтись. Я знаю по своему сервису к которому постоянно собираю данные за счет сервиса A-Parser. В современном бизнесе и при создании разных магазинов, сайтов и другого всегда нужно пользоваться услугами парсеров. Главное выбрать адекватный

Нужен парсинг данных?

Собираем открытые данные с любых веб-сайтов: цены, названия, артикулы, описания, свойства, категории, фото, отзывы, ссылки, тел.номера, e-mail и многое другое.

Написать
img