Парсинг Сервис

50 сервисов для подбора ключевых слов и создания семантического ядра сайта.

У автоматического сбора информации куча преимуществ (по сравнению с ручным методом):

Программа работает самостоятельно. Не приходится тратить время на поиск и сортировку данных. К тому же собирает она информацию куда быстрее человека. Да еще и делает это 24 на 7, если понадобится.
Парсеру можно «скормить» столько параметров, сколько потребуется, и идеально отстроить его для поиска только необходимого контента. Без мусора, ошибок и нерелеватной информации с неподходящих страниц.
В отличие от человека, парсер не будет допускать глупых ошибок по невнимательности. И не устанет.
Утилита для парсинга может подавать найденные данные в удобном формате по запросу пользователя.
Парсеры умеют грамотно распределять нагрузку на сайт. Это значит, что он случайно не «уронит» чужой ресурс, а вас не обвинят в незаконной DDoS-атаке.

Так что нет никакого смысла «парсить» руками, когда можно доверить эту операцию подходящему ПО.

Для чего нужен парсер?
Составление семантического ядра

Можно много говорить о том, для чего нужен парсер. Это и всевозможное извлечение контактных сведений при разработки базы потенциальных клиентов. Так и поиск непосредственно по ней в собственном вэб-ресурсе. При этом будут найдены не внешние ссылки, а вхождение поискового запроса, вбитый пользователем.

Необходимость в программе возникает при сборе ссылокSEO специалистами. Все они знают, что такое язык поисковых запросов и как отражается это в их работе. Они используют парсер для того, чтобы оценить количество ссылок и ссылаемых ресурсов.

Когда требуется работать с большим количеством ссылок, парсер – незаменимый инструмент в оптимизации. Он без проблем соберет информацию и распарсит ее в удобном виде.

Маркерные запросы
Подбор ключевых слов в яндекс вордстате

Маркерные запросы — это запросы, которые четко отвечают продвигаемой странице. Такие запросы обычно имеют значимую частотность ключевых слов по Wordstat и являются средне-частотными (СЧ), или «жирными» низкочастотниками (НЧ), и могут породить «хвост» запросов, например при добавлении слов «купить», «цена», «отзывы».

Примеры:
Платья
Красные платья
Красные платья в пол
Телевизоры
Телевизоры Samsung
Телевизоры Самсунг
LED телевизоры Samsung
Стиральные машины
Стиральные машины для дачи
Стиральные машины шириной 40 см

Другими словами, эти ключевые слова часто являются названием страниц/категорий/статей/карточек товара и прочих типов страниц, которые вообще можно продвигать в поисковых системах.

Часто задаваемые вопросы про маркеры:

Q: Могут ли для страницы быть несколько маркеров?

A: Да — конечно — это довольно частый случай.

Например, на одну страницу могут идти такие маркеры как:
Телевизоры Samsung
Телевизоры Samsung купить
Телевизоры Самсунг
Телевизоры Самсунг купить
Телевизоры самсунг цена
Все эти запросы четко отвечают одной странице
Так же на одну страницу могут идти два маркера-синонима, не связанных лингвистически:
Спецоджеда
Рабочая одежда
или
электроплита бош
электрическая плита bosch
Это вполне нормально и логично.

НЕ маркеры — облако запросов. Это все второстепенные запросы, которые уточняют маркерные запросы — т.е. по факту это маркеры + 1/2/3 слова или синонимы маркеров. Как правило запросы из облака — менее частотные и поэтому мы будем привязывать их к маркерам

Как найти маркерные запросы?

Вариант №1: можно получить поисковые запросы из Яндекс Метрики. Плюсы такого метода — что вы сразу будете знать релевантные URL для этих запросов.

Вариант №2: Берем названия категорий/услуг своего сайта и расширяем их логическими гипотезами:«Как, по каким запросам пользователи еще могут искать эту страницу моего сайта? Какие есть синонимы?»

NB!: Отличным подспорьем в определении маркеров является старый добрый Яндекс Wordstat, при всех его недостатках. Рекомендуем использовать браузерный плагин Yandex Wordstat Assistant от компании Semantica — очень удобный — выполняет роль своего рода «заметок на полях» — в него можно в один клик добавить интересующие слова.

Мы понимаем, что не у каждого оптимизатора/владельца бизнеса есть под рукой департамент разработки, который быстро сможет выгрузить для сайта связку URL — название категории/страницы.

Что такое связка URL-название категории/страницы?

Поэтому есть 3 варианта как получить связку URL — название категории/страницы:

Фактически маркеры для вашего сайта будут состоять из:

Запросов, выгруженных из Яндекс Метрики
Названий категорий/страниц, взятых с сайта
Расширений названий категорий/страниц т.е. логических гипотез

Важно выполнить эту часть работы по подбору семантического ядра максимально тщательно т.к. если вы потеряете большую часть маркеров — вы потеряете большую часть семантического ядра

Часто задаваемые вопросы по подбору маркеров:

Q: У меня большой сайт и маркеров сотни или тысячи — как быть?!

Q: На сколько низкочастотное слово может быть маркером?

A: Здесь все зависит от тематики. В узких тематиках даже ключевые слова с частотностью 15 по кавычкам «» могут быть маркерными запросами. Главное правило — спросите себя — хотел бы мой пользователь видеть отдельную страницу под этот запрос (и связанные с ним?). Удобно ли ему будет пользоваться той структурой, что я создаю?

Q: Как мне держать маркеры в Excell, чтобы потом мне было удобно с ними работать?

A: Идеальный и единственно правильный вариант — всегда держать связку URL-маркер в Excel — так вы всегда сможете понимать какие маркеры идут на один URL, даже если ваш список перемешается.
В дальнейшем таким образом вы сможете фильтровать целые кластеры, которые идут на одну страницу — это может быть и 10 и 50 ключевых слов. Очень удобно.

Пример правильного оформления маркеров в Excel

Итак, после N времени работы мы собрали маркеры для всего сайта (или части сайта), что дальше?

Естественно, что маркеры, это далеко не полная семантика — теперь нам нужно собрать облако запросов — расширить наше семантическое ядро.

Виды парсеров по сферам применения
Для организаторов СП (совместных покупок)
Опять разбавленное: все про вхождения ключевых слов в текст

Есть специализированные парсеры для организаторов совместных покупок (СП). Их устанавливают на свои сайты производители товаров (например, одежды). И любой желающий может прямо на сайте воспользоваться парсером и выгрузить весь ассортимент.

Чем удобны эти парсеры:

интуитивно понятный интерфейс;
возможность выгружать отдельные товары, разделы или весь каталог;
можно выгружать данные в удобном формате. Например, в Облачном парсере доступно большое количество форматов выгрузки, кроме стандартных XLSX и CSV: адаптированный прайс для Tiu, выгрузка для Яндекс.Маркета и т. д.

Популярные парсеры для СП:

SPparser,
Облачный парсер,
Турбо.Парсер,
PARSER.PLUS,
Q-Parser.

Вот три таких инструмента:

Marketparser,
Xmldatafeed,
ALL RIVAL.
Парсеры для быстрого наполнения сайтов

Такие сервисы собирают названия товаров, описания, цены, изображения и другие данные с сайтов-доноров. Затем выгружают их в файл или сразу загружают на ваш сайт. Это существенно ускоряет работу по наполнению сайта и экономят массу времени, которое вы потратили бы на ручное наполнение.

В подобных парсерах можно автоматически добавлять свою наценку (например, если вы парсите данные с сайта поставщика с оптовыми ценами). Также можно настраивать автоматический сбор или обновление данных по расписания.

Примеры таких парсеров:

Catalogloader,
Xmldatafeed,
Диггернаут.
Как со всем этим работать

Расскажу как всё это запустить на примере Windows 10. В Linux и macOS всё делается аналогично.

Установите Python 3. Я использую ветку 3.5. Скачать можно с официального сайта. Ветку 3.6 пока не советую, её зарелизили всего несколько дней назад.
Установите Grab. Лучше через pip. Это менеджер пакетов для python. Идёт с ним в комплекте.

pip install grab

Установите tqdm. Так же ставится через pip.

pip install tqdm

Установите git. Скачать можно с официального сайта.
Скачайте исходники себе на компьютер.

git clone github/gumbert/ydirect

Поменяйте запросы на ваши в тексте программы. Для написания и редактирования кода я использую Sublime.
Запустите скрипт.

python ydirect.py

Если всё сделали правильно, через некоторое время у вас будет файлик firms.csv со всеми данными.

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации.

Где и что парсить?

В прошлый раз мы смотрели объявления по ссылкам вида

Заголовок и текст объявления вы уже знаете как находить. Отсюда же можно взять и сайт компании. Остальная информация есть в карточке объявления. Нужно найти признаки этих ссылок:

Сайт компании находится внутри тега span с классом domain.
Ссылка на карточку имеет класс vcard.

Ссылка на карточку имеет класс vcard

Сайт компании находится внутри тега span с классом domain

На карточке объявления также ищем признаки нужных элементов. Нас будут интересовать:

Название компании. Находится в заголовке с тегом h1.
Телефон находится внутри элементов с классами contact-item call-button-container → large-text.
Почта имеет класс email.

Карточка объявления, где есть интересующие нас данные: название компании, телефон и электронная почта

Соберу всё в кучу:

1. Пройдитесь по всем ссылкам вида direct.yandex/search?&rid=213&text=запрос&page=номер_страницы.
2. С этих страниц запишите в файл заголовок и текст объявления, а также домен сайта.
3. Найдите ссылку на карточку объявления, если она есть.
4. Соберите название компании, почту и номер телефона с карточки и запишите в файл.

Как работать с сервисом Kparser

Проект максимально прост, хотя новичкам все же советую ознакомиться с описаниями всех фишек на официальном сайте. На главной странице Kparser увидите форму с заданием основных параметров выборки. Здесь указываете:

по каким ключами следует искать подсказки (можно использовать несколько с новой строки);
ресурс для сбора информации: поисковики, Amazon, Youtube и др.
отмечаете регион;
задаете язык поиска.

Чтобы активировать продвинутый режим парсинга кликайте по кнопке «Advanced».

В открывшемся окне можете сделать более точный запрос за счет разных параметров:

добавления цифр и ответов на вопросы;
дополнительных слов и символов, которые допускаются в выборке;
глубины парсинга;
включаемых / исключаемых фраз в результатах.

После завершения работы увидите две таблицы:

Справа находятся все найденные запросы, а слева отображаются слова, что в них встречаются. Получается своего рода группировка ключей, с помощью которой вы сможете выбрать одну из позиций и получить список всех существующих фраз по ней. Также в левой таблице имеется специальная иконка глаза, позволяющая скрыть ненужные элементы. Дальше копируете результаты или импортируете их в CSV файл.

Для просмотра среднего числа запросов в месяц и стоимости клика по Adwords придется приобрести продвинутый Pro аккаунт (его стоимость 40 долларов в месяц). Есть вариант попроще Basic, который не будет содержать никаких ограничений по числу позиций при импорте.

В принципе, можете смело тестировать бесплатную версию Kparser, а потом решить нужен ли вам данный сервис. Однако следует понимать, что это всего лишь инструмент, а не кнопка «бабло». Полученные результаты вам надо грамотно использовать в продвижении: на Amazon, Youtube и т.п.

Интересно, какими подобными веб-проектами для сбора подсказок и ключей вы пользуетесь?

Обзор лучших парсеров

Далее рассмотрим наиболее популярные и востребованные приложения для сканирования сайтов и извлечения из них необходимых данных.

В виде облачных сервисов

Под облачными парсерами подразумеваются веб-сайты и приложения, в которых пользователь вводит инструкции для поиска определенной информации. Оттуда эти инструкции попадают на сервер к компаниям, предлагающим услуги парсинга. Затем на том же ресурсе отображается найденная информация.

Преимущество этого облака заключается в отсутствии необходимости устанавливать дополнительное программное обеспечение на компьютер. А еще у них зачастую есть API, позволяющее настроить поведение парсера под свои нужды. Но настроек все равно заметно меньше, чем при работе с полноценным приложением-парсером для ПК.

Наиболее популярные облачные парсеры
Import.io – востребованный набор инструментов для поиска информации на ресурсах. Позволяет парсить неограниченное количество страниц, поддерживает все популярные форматы вывода данных и автоматически создает удобную структуру для восприятия добытой информации.
Mozenda – сайт для сбора информации с сайтов, которому доверяют крупные компании в духе Tesla. Собирает любые типы данных и конвертирует в необходимый формат (будь то JSON или XML). Первые 30 дней можно пользоваться бесплатно.
Octoparse – парсер, главным преимуществом которого считается простота. Чтобы его освоить, не придется изучать программирование и хоть какое-то время тратить на работу с кодом. Можно получить необходимую информацию в пару кликов.
ParseHub – один из немногих полностью бесплатных и довольно продвинутых парсеров.

Похожих сервисов в сети много. Причем как платных, так и бесплатных. Но вышеперечисленные используются чаще остальных.

В виде компьютерных приложений

Есть и десктопные версии. Большая их часть работает только на Windows. То есть для запуска на macOS или Linux придется воспользоваться средствами виртуализации. Либо загрузить виртуальную машину с Windows (актуально в случае с операционной системой Apple), либо установить утилиту в духе Wine (актуально в случае с любым дистрибутивом Linux). Правда, из-за этого для сбора данных потребуется более мощный компьютер.

Наиболее популярные десктопные парсеры
ParserOK – приложение, сфокусированное на различных типах парсинга данных. Есть настройки для сбора данных о стоимости товаров, настройки для автоматической компиляции каталогов с товарами, номеров, адресов электронной почты и т.п.
Datacol – универсальный парсер, который, по словам разработчиков, может заменить решения конкурентов в 99% случаев. А еще он прост в освоении.
Screaming Frog – мощный инструмент для SEO-cпециалистов, позволяющий собрать кучу полезных данных и провести аудит ресурса (найти сломанные ссылки, структуру данных и т.п.). Можно анализировать до 500 ссылок бесплатно.
Netspeak Spider – еще один популярный продукт, осуществляющий автоматический парсинг сайтов и помогающий проводить SEO-аудит.

Это наиболее востребованные утилиты для парсинга. У каждого из них есть демо-версия для проверки возможностей до приобретения. Бесплатные решения заметно хуже по качеству и часто уступают даже облачным сервисам.

В виде браузерных расширений

Это самый удобный вариант, но при этом наименее функциональный. Расширения хороши тем, что позволяют начать парсинг прямо из браузера, находясь на странице, откуда надо вытащить данные. Не приходится вводить часть параметров вручную.

Но дополнения к браузерам не имеют таких возможностей, как десктопные приложения. Ввиду отсутствия тех же ресурсов, что могут использовать программы для ПК, расширения не могут собирать такие огромные объемы данных.

Но для быстрого анализа данных и экспорта небольшого количества информации в XML такие дополнения подойдут.

Наиболее популярные расширения-парсеры
Parsers – плагин для извлечения HTML-данных с веб-страниц и импорта их в формат XML или JSON. Расширение запускается на одной странице, автоматически разыскивает похожие страницы и собирает с них аналогичные данные.
Scraper – собирает информацию в автоматическом режиме, но ограничивает количество собираемых данных.
Data Scraper – дополнение, в автоматическом режиме собирающее данные со страницы и экспортирующее их в Excel-таблицу. До 500 веб-страниц можно отсканировать бесплатно. За большее количество придется ежемесячно платить.
kimono – расширение, превращающее любую страницу в структурированное API для извлечения необходимых данных.
Что такое турбо парсер?

Не лишним будет узнать, что такое турбо парсер. Данный сервис работает на бесплатной основе для всех. Пользуются им организаторы совместных покупок, поскольку это позволяет спарсить им товары с интрернет-магазина поставщика. При этом их можно будет автоматически выгрузить в социальные сети и скачать в формате XLS и CVS.

Сервис славится своей огромной базой поддерживающих сайтов. При этом имеется быстрая техническая поддержка квалифицированными специалистами. Также скорость парсера довольно быстрая. Вдобавок гарантируется полная безопасность всех указанных данных. С ним можно навсегда забыть, что значат внешние ссылки и каково с ними работать, теряя большое количество времени.

Какой функционал предоставляет Spywords

Стоит ли спорить о том, насколько полезным может быть данный сервис для любого блогера или вебмастера?

Ведь его довольно богатый функционал позволяет производить множество манипуляций, направленных на seo-продвижение сайта в поисковых системах и охват большей аудитории.

Список заявленных служб выглядит следующим образом:

Анализ конкурентов;
Битва доменов;
Война доменов;
Рейтинги доменов;
Умный подбор запросов.

Пройдемся более детально по каждой из них.

Анализ конкурентов

Это очень мощный инструмент, который позволяет узнать на каких позициях и по каким ключевым словам сайт находится в выдаче Яндекса и Google (для примера возьмем сайт самой компании Spywords).

Для чего нам эта информация нужна?

Все очень просто: именно под эти запросы можно написать свои статьи и перехватить немного трафика и себе. А может даже и не немного

Здесь стоит отметить, что в работу лучше брать не все запросы, а только с хорошей частотностью и невысокой конкуренцией. Как проверить эти показатели и какой сервис для этого нужно использовать я расскажу в следующей статье.

Статья уже готова и ждет вас вот здесь.

Так что, кто еще не подписался — подписывайтесь, а то есть вероятность пропустить реально полезную информацию.

Помимо этого, анализ транслирует изменения в позициях за определенное время и показывает основных конкурентов. Также анализ позволяет видеть текст объявлений в кампаниях контекстной рекламы и стоимость клика по каждой из поисковых фраз.

Я пока особо в подробности данной информации не вдавалась, поскольку мы не монетизируем блог. Но на будущее, конечно, эта информация будет необходима. Поэтому нужно знать, где её можно получить. Вот мы с вами теперь знаем где — сервис SpyWords.

Итак, какую информацию мы можем получить, проведя анализ своих конкурентов:

запросы в поиске;
позиции в поиске;
сниппеты и урлы страниц;
динамика позиций;
запросы и позиции в контексте;
оценка трафика.

Также анализировать конкурентов можно и в этом сервисе. Подробнее про него можно прочитать здесь.

Битва доменов

Это уникальный инструмент, который позволяет производить сравнение одновременно двух или трех доменов. Сравнение проводиться по таким основным параметрам, как запросы и трафик из контекста, запросы в топ 10 и 50 и, соответственно, трафик из поиска.

Благодаря этой услуге, можно посмотреть по каким пунктам ваш сайт не дотягивает до основных конкурентов, и направить все силы на восполнение и исправление этого недочета.

Сравним сайты Spywords и его конкурента xtool:

Также сервис предоставляет сравнительные диаграммы, на которых можно визуально наблюдать источники наибольшего количества трафика для каждого из доменов.

Война доменов

В отличие от Pro тарифа, функция «Война доменов» доступна только в тарифном плане Unlim. Он практически дублирует возможности «Битвы доменов», но главной его особенностью является то, что для сравнения можно добавлять до 20 разных доменов.

Такое дополнение превращает этот инструмент в настоящий исследовательский центр. Если в вашей нише много конкурентов, анализ каждого из них в отдельности может отнять достаточно времени.

Благодаря функции «Война доменов» можно не только ускорить этот процесс, но и значительно его автоматизировать, так как одна сводка дает детальную информацию по каждому из конкурирующих сайтов.

Рейтинг доменов

Это самый новый инструмент на сайте, который позволяет отслеживать позиции сайтов в поисковой выдаче, однако он доступен лишь в продвинутом тарифном плане.

Там можно просматривать текущую ситуацию в топе выдачи систем Яндекс и Google, следить за взлетами и падениями в выбранный период времени. Это значительно облегчает работу, потому что больше нет необходимости ежедневно отслеживать изменения в выдаче, перебирая вручную тысячи разнообразных запросов.

Умный подбор запросов

Еще один незаменимый помощник в работе вебмастера или блогера, который позволяет в считанные секунды составить полное семантическое ядро.

Вводим в строку необходимый запрос и нажимаем на кнопку «Найти все лучшие слова!»

И выбираем те запросы, которые считаем нужными.

Отличительной чертой этой функции на Spywords является ее большая практичность, так как ядро составляется из тех фраз, которые рекламодатели используют в своих контекстных кампаниях. В то время как большинство похожих сервисов по подбору ключевых фраз не делают детальную выборку по всем доступным фразам, перемешивая качественные слова с откровенно мусорными, Spywords отсеивает нерелевантные и некачественные варианты.

Для любого блогера такой инструмент станет отличной находкой и помощником в генерации новых идей и составлении семантические ядра.

Основные возможности:
Если Вы новичок, Вы научитесь создавать статейные сайты без затрат и рутины:

Вы хотите научится создавать сайты и даже сделали свой первый сайт, но столкнулись с тем, что нужен контент? Вы написали или купили несколько сотен статей, но Вам хочется иметь на сайте десятки тысяч страниц, чтобы собирать хороший трафик? И Вы видите, что вручную такой объем контента сделать не реально? И тут Вам поможет именно автоматический парсер статей по ключевым словам, который мы предлагаем. Если Ваш сайт сделан на WordPress, Вы с помощью одного лишь X-Parser, сможете создать и опубликовать тысячи качественных статей совершенно бесплатно. Вам всего лишь нужно задать ключевые слова, по которым бы Вы хотели парсить новости, выбрать формат сохранения WordPressXML в настройках, запустить парсер и уже через несколько минут будут собраны сотни статей по заданной Вами теме, готовые к публикации на сайте.

Наполнение сайтов контентом станет для Вас практически бесплатным:

Каждый, кто делает сайты знает, что наполнение сайта самый сложный процесс в его создании. Написание уникального текста занимает много времени, либо требует вложений на оплату работы копирайтера. Итого цена наполнения сайта контентом становится весьма ощутимой. X-Parser сэкономит Вам и то и другое, и поможет Вам автоматически создавать и публиковать качественные статьи с хорошими поведенческими факторами совершенно бесплатно. Если Ваш сайт уже находится в выдаче, получает трафик и Вы публикуете на нем какие-то материалы, Вы смело можете брать на вооружение наш парсер, собирать статьи по нужным ключевым словам и публиковать их в пропорции 70/30, где 70% — это копипаст, а 30% — это Ваши уникальные материалы. В результате объем материалов на Вашем сайта существенно возрастет, и Вы сэкономите солидную часть бюджета.

Вы сможете без затрат создавать сайты массово на любых языках, даже которыми не владеете:

Представьте, что Вы, не зная английский или румынский язык, создаете полноценные сайты на нем, он собирают трафик, люди их читают и все понимают. Как такое может быть? Ведь это видится не возможным. Это, безусловно, так, если Вы пишите контент сами, но если за Вас работает парсер контента, то все вполне реально. Как же это сделать спросите Вы? Для этого Вам нужно взять ключевые слова на интересующем Вас языке, распределить их по группам, спарсить контент при помощи X-Parser и опубликовать. X-Parser превосходно парсит контент на любых языках и с ним Вы сможете занимать ниши в любых языковых зонах. А если посмотреть на конкуренцию во многих из этих зон, то легко увидеть, что в отличие от русскоязычного сегмента она будет крайне низкой. А низкая конкуренция – это высокие позиции и больший траф.

Нарушение пользовательского соглашения

На некоторых сайтах есть условия использования или пользовательские соглашения. Это те самые документы, которые «прячутся» в «подвале» и которые редко читают. А зря: в пользовательском соглашении может оказаться пункт, запрещающий парсинг. Следовательно, тот, кто парсит, нарушает пользовательское соглашение, и это плохо. Но «плохо» — это моральная оценка. Что говорит право?

Пользовательское соглашение — это, по сути, договор, а договоры должны исполняться. Если не исполняются, можно привлечь к гражданско-правовой ответственности. Например, если в пользовательском соглашении написано: «Штраф за парсинг — 1 миллион рублей», то в наказание за парсинг, исходя из условий договора, действительно можно потребовать миллион.

А заключён ли договор? Договор должен исполняться, но только в том случае, если пользователь его, упрощённо говоря, подписал. Заходя на сайт, никто никаких договоров обычно не подписывает. Максимум мы нажимаем «ОК» на уведомление о cookie, но это не пользовательское соглашение. Пользовательское соглашение по-прежнему лежит где-то на задворках сайта. Мы предполагаем, что оно есть, но фактически его не видим и не ищем. Кроме того, если мы просто зашли на сайт без регистрации, то нам никто о пользовательском соглашении и не говорит. Так должны ли мы ему подчиняться?

Есть два типа соглашений: click-wrap и browse-wrap. Click-wrap — это когда нужно нажать кнопку или поставить галочку «Я согласен с условиями». Browse-wrap — это когда договор находится на какой-то странице сайта, и нужно самому зайти туда и прочитать. С click-wrap всё сравнительно просто: человек жмёт на кнопку или ставит галочку и тем самым «подписывает» договор. С browse-wrap ситуация куда сложнее. Для заключения договора требуется, чтобы субъект выразил свою волю. Когда договор просто лежит где-то на сайте, невозможно понять, выразил ли субъект свою волю. Следовательно, если пользователь просто зашёл на сайт, то без дополнительных доказательств вряд ли можно сказать, что договор заключён. Нет договора — нет обязанностей.

Если парсит зарегистрированный пользователь, то с заключённостью договора проблем меньше: при регистрации нужно согласиться с условиями использования. Если эти условия запрещают парсинг, то владелец сайта может применить санкции, предусмотренные договором. Простейшая санкция — это бан, который юридически может являться приостановлением оказания услуг или расторжением договора в одностороннем порядке.

Исключаем из парсинга отдельные группы товаров/услуг

Ассортимент товаров или услуг конкурентов не всегда совпадает с вашим. Например, конкуренты могут предлагать дополнительные услуги, которых нет у вас. Или охватывают более широкий ассортимент.

Соответственно, в рекламных кампаниях таких конкурентов будут ключевые слова и объявления, которые не подойдут вам.

Исключите нерелевантные ключи и объявления при парсинге, чтобы получить «чистые» результаты.

Перед запуском парсинга добавьте в поле «Минус-слова» перечень товаров или услуг, которые необходимо исключить из результатов. Также исключите сущности, которые не подходят для рекламы ваших товаров: «бесплатно», «подарок», «бу» и т. д.

Снимите галочку с пункта «Точное вхождение без учета морфологии».

В нашем примере система спарсит релевантные ключевые слова, исключив фразы типа «кухни на заказ», «офисная мебель недорого», «ремонт мебели» и т. д.

Общие выводы
Не так страшен чёрт, как его малюют. Создание парсера с помощью инструмента, дело, в общем, посильное. Достаточно изучить общие принципы и потратить полдня на изучение конкретного инструмента, после чего в дальнейшем все уже будет намного проще. А вот велосипеды изобретать — не надо. Особенно, если вам не особенно важна скорость парсинга и оптимизации.
Грамматики имеют собственную ценность. Имея перед глазами грамматику, гораздо проще оценить, будут ли при использовании составленного по ней парсера возникать ошибки.
Инструмент можно найти всегда. Возможно, не на самом привычном языке, но почти на всех они есть. Если не повезло, и его все-таки нет, можно взять что-нибудь легко используемое (что-то на js, python, lua или ruby — тут уж кому что больше нравится). Да, получится “почти stand-alone в рамках проекта”, но в большинстве случаев этого достаточно.
Все инструменты (немного) различаются. Иногда это “:” вместо “=” в BNF, иногда различия более обширны. Не надо этого пугаться. В крайнем случае, переделка грамматики под другой инструмент займет у вас минут 20. Так что если есть возможность достать где-то грамматику, а не писать её самому, лучше это сделать. Но перед использованием все равно лучше её проверьте. Все мы люди, всем нам свойственно ошибаться…
При прочих равных, лучше используйте более “разговорчивый” инструмент. Это поможет избежать ошибок составления грамматики и оценить, что и как будет происходить.
Если для вас в первую очередь важна скорость разбора, боюсь, вам придется либо пользоваться инструментом для C (например, Bison), либо решать проблему “в лоб”. Так же, следует задуматься о том, нужен ли вам именно парсинг (об этом стоит задуматься в любом случае, но в случае скоростных ограничений — особенно). В частности, для многих задач подходит токенизация — разбиение строки на подстроки с использованием заданного разделителя или их набора. Возможно, это ваш случай.