Как работает парсер.

Вычислительная техника может работать с текстами, написанными с применением привычных для человека конструкций, только используя определенную математическую модель. Синтаксический анализ, написанный на каком-либо языке программирования, принято называть парсингом, от английского parsing (пер. - разбор, анализ).

В некоторой мере парсинг можно приравнять к чтению человеком текста. Человек в таком случае тоже проводит синтаксический анализ, сравнивая прочитанные слова и словесные конструкции с тем словарным запасом, которым он обладает. Естественно, что парсер (программа для парсинга) не в состоянии в настоящее время обрабатывать тексты на столь высоком уровне, как человеческий мозг. Но парсеры, во-первых, становятся более совершенными, и во-вторых, они в основном предназначены для решения узкого круга задач.

Для чего необходим парсинг?

Интернет – практически безграничное хранилище информации. Найти и обработать необходимые тексты в большом объеме за короткое время человек или даже группа людей не в состоянии. А качественно написанный парсер справляется с такого рода работой эффективно, быстро, и работать он может круглосуточно.

Интернет-магазины – это, в первую очередь, информация о тысячах товарных позиций. Написать вручную все описания сложно, а порой и невозможно физически. Тут на помощь приходит парсер, который найдет нужные описания в Сети.  Также многие интернет-магазины занимаются парсингом цен с интернет-каталогов, чтобы держаться на конкуретном уровне. Агрегаторы новостей тоже работают на основе парсинга, отыскивая нужную информацию, но уже не во всей Сети, а на определенных новостных сайтах. Зачастую парсеры используют в качестве средства для наполнения сайта, отыскивая необходимые информационные материалы.

Наиболее известный пример парсера – это роботы поисковиков, обрабатывающие тексты по определенному принципу и составляющие список ответов на поисковые запросы. Программы для проверки уникальности текста также являются парсерами. Они ищут похожие на проверяемый тексты, и если находят совпадения, дают на них ссылку. Парсеры также могут использоваться и для более узких целей.

Порядок работы

Алгоритм, по которому работает парсер:

Поиск в Интернете нужных текстов и скачивание их.
Обработка текстов.
Оформление результатов работы в файл (текстовый, табличный, базы данных и т.п.).

Парсер в основном работает на компьютере, на котором он установлен, не блуждая по просторам Всемирной сети.


Как работает парсинг

В основе парсинга – использование так называемых регулярных выражений. Это конструкция, задающая принципы поиска и обработки информации. Парсеры пишутся на языках программирования, в которых предусмотрена возможность обработки строк.

Регулярные выражения, или, как их еще называют на профессиональном сленге, маски, шаблоны, представляют собой набор определенных знаков, позволяющих описать ту информацию, которую необходимо найти. Например, можно задать поиск по определенному слову, по набору слов, по принципу их размещения, по дате и по каким угодно другим параметрам. Регулярные выражения – очень удачное изобретение, их возможности сложно переоценить.

Комментарии (0)
Имя:
Электронная почта:
Уведомлять о новых ответах:

Добавить новый комментарий:

Опубликовать свой комментарий
Все статьи раздела
Все о хостинге
Соцсети
Все о сайтах
Продвижение сайта
Всякое разное
Атака хакеров: как бороться?
Blockchain сможет решить проблему фейков в СМИ
Топ-10: зарубежные веб-сайты для создания открыток на Хэллоуин
Что такое Рутокен, eToken и JaCarta?
Наушники Sony — самые музыкальные наушники
Эксперимент с JavaScript
Интернет- значение в обществе
Медицина и интернет
Что такое прокси
Деньги из интернета
ИТ технологии
Защита от рекламы
Что такое IT-аутсорсинг
Компьютер как средство общения
Как выбрать компьютерные курсы
Блокировка рекламы
Как заработать деньги на сайте?
Что такое дорвей?
Что такое парсинг?
Избавиться от зависимости!
Изучаем программирование
Выбор системы хранения данных
Айтишник - кто это?
Усложнение технологий IT
Мошенничество в интернете
ГЛОНАСС — сделано в России

Нужен парсинг данных?

Собираем открытые данные с любых веб-сайтов: цены, названия, артикулы, описания, свойства, категории, фото, отзывы, ссылки, тел.номера, e-mail и многое другое.

Написать
img