Как парсить товары интернетмагазина.

Существует множество программ, приложений и сервисов для парсинга в целом. Какие-то более заточены для парсинга в SEO-задачах, другие — для мониторинга цен и остатков, но мы рассмотрим парсеры именно для парсинга товаров интернет-магазинов. Основное отличие — в гибкости настройки под парсинг товарных карточек, способности обходить защиты, и скорости (наличие многопотоковости).

Вообще существует достаточно большое количество программ и сервисов. Мы упомянем тут только самые работоспособные и распространенные инструменты, за которые точно можем поручиться.

 

Десктопные парсеры — Datacol и ContentDowloader

Эти и подобные им парсеры имеют ограниченный функционал в бесплатной версии, а также они довольно сложны для изучения всех фишек — на это может потребоваться достаточно большое количество времени. Однако на сегодняшний момент это, пожалуй, самый гибкий функционал для профессионалов.

Главный интерфейс парсера Datacol

Как один, так и второй имеют прекрасную службу поддержки, которая, однако, не будет решать за вас задачи. Впрочем, наличие подробных мануалов и видеоуроков в сочетании с несколькими днями вашего времени снимут все вопросы.

Главный интерфейс парсера Content Downloader X1

Эти парсеры имеют ограниченный функционал в бесплатной версии, а также они довольно сложны для изучения всех фишек — на это может потребоваться достаточно большое количество времени. Однако на сегодняшний момент это, пожалуй, самый гибкий функционал для профессионалов. 

Как один, так и второй имеют прекрасную службу поддержки, которая, однако, не будет решать за вас задачи. Впрочем, наличие подробных мануалов и видеоуроков в сочетании с несколькими днями вашего времени снимут все вопросы.

Подробнее десктопные программы рассмотрены в этой статье: Что такое парсер сайтов, программы для парсинга

 

Онлайн-сервисы — import.io, octoparse.io, cloudparser

Позволяют собрать данные товаров интернет-магазинов прямо из браузера либо как расширение для браузера.
Как правило, парсеры этого типа требуют преднастроенного шаблона, который предоставляет сервис за отдельную плату, либо по подписке.

Некоторые парсеры могут настраиваться прямо из админпанели под парсинг конкретного сайта.

Множество существующих онлайн-парсеров обусловлено различными нишами: сравнение цен, парсинг и импорт товаров в социальные сети, прямой импорт в cms.

Подробно рассматриваем онлайн-сервисы для парсинга в этой статье: Что такое облачный парсер

 

Сервисы парсинговых услуг по подписке — Catalogloader, XMLDatafeed

Настраивают серверные парсеры по заявкам, предоставляют доступ к выгрузкам либо к API для синхронизации данных

Онлайн-сервисы просты, однако если вам встретится интернет-магазин с защитами или потребуются сложные функции, то вряд ли справятся. К тому же вы ограничены производительностью сервера.
Как правило, они приспособлены к парсингу распространенных магазинов и умеют отдавать данные по подписке по расписанию (что больше всего удобно для сравнения и обновления цен).
Если вы хотите спарсить небольшой малоизвестный магазинчик, будьте готовы к тому, что настраивать парсер придется через службу поддержки — а значит, и за дополнительную плату.

Хороший обзор для парсинговых услуг по подписке: Парсеры онлайн

 

Парсеры-надстройки для CMS

Множество предложений представлено на маркетплейсах и форумах соответствующих CMS, например:
«Автоматическая обработка прайс-листов» для OpenCart.

Скрин основного окна парсера OpenCart

Парсер настраивается прямо из админпанели OpenCart или OcStore. Задаются значения селекторов на сайте-источнике, выбирается алгоритм поиска url товаров, и определяется периодичность и другие параметры парсинга.

В итоге происходит синхронизация товарных матриц источника и вашего сайта.

Подобный образом работает и «Сотбит: Парсер контента» для Bitrix:

Скрин интерфейса парсера Bitrix

Парсеры-надстройки для CMS кажутся наиболее удобным вариантом для тех, кто собирается парсить один и тот же источник периодически, обновляя цены и остатки, добавляя новые товары и удаляя снятые с производства.

Функционал ставится внутри системы управления вашего сайта. Там же настраиваются границы парсинга (шаблон на конкретный сайт) и синхронизация с вашим каталогом.

Минусы — вы зависимы от кода источника, а зачастую он все же меняется: хорошие интернет-магазины постоянно работают над внешним видом, соответственно, меняют код вывода. Значит, совсем забыть о парсинге не получится — придется периодически его перенастраивать.

К тому же стоит владельцу источника поменять названия или артикулы — весь парсинг слетает, и вы попадаете на ручное перелопачивание базы.

Еще одна возможная проблема — несоответствие структуры источника и вашего сайта. Вполне возможен “пересорт” товаров в ошибочные категории.

Парсер как самописный функционал у вас на сервере

Зачастую хорошим решением кажется написать свой парсер. Как правило, при этом используется стек php или Python. Такой скрипт можно заказать под конкретные нужды и форматы, с обновлением и синхронизацией своих данных, с запуском по расписанию и другими фишками.
Самая большая беда в том, что код источника частенько меняется, и парсер просто перестает работать. Сайты фриланса полны запросов по типу «парсер перестал работать, ищу того, кто его доработает». Часто программисту невыгодно лезть в давно забытые, пусть даже и свои дебри, и разбираться, почему не работает его программа. Либо просто банально нет времени на этот заказ. Приходится искать нового программиста, а может быть, и писать все заново.

При выборе парсера руководствуйтесь тем, насколько часто стоит задача выполнить парсинг, насколько сложен формат получившихся данных, и оценивайте бюджет (в том числе своего личного времени).

 

Нужен парсинг данных?

Собираем открытые данные с любых веб-сайтов: цены, названия, артикулы, описания, свойства, категории, фото, отзывы, ссылки, тел.номера, e-mail и многое другое.

Написать
img