Парсинг Сервис

Парсинг это законно.

В начале марта появилась новость, что в России запретили парсинг общедоступных персональных данных. В целом это действительно так, но правовые вопросы, связанные с парсингом, не сводятся только к персональным данным. Поэтому я решил написать о парсинге с юридической точки зрения.

Парсинг — это автоматизированный сбор общедоступной информации из интернета, осуществляемый без использования API сайтов. Можно представить, как человек открывает браузер, ходит по сайтам и копирует с них данные. Парсинг — то же самое, только ходит не человек, а робот. Так делают поисковики, агрегаторы, скоринговые компании, злоумышленники, продающие персональные данные, и много кто ещё.

Парсинг — не совсем точное название. На самом деле автоматизированный сбор информации лучше называть скрейпингом, а парсинг — это этап скрейпинга, на котором из скачанных данных извлекается нужная информация (так сказано, например, на второй странице в статье «Legality And Ethics of Web Scraping»). Но в русскоязычных источниках мне чаще попадается слово «парсинг», и используется оно как синоним скрейпинга без терминологических нюансов, так что буду в этой статье писать «парсинг», имея в виду автоматизированный сбор данных в целом, а не какую-то его технологическую часть. Кстати, в законах наверняка не написали бы ни о «парсинге», ни о «скрейпинге», потому что заимствования там не любят. Вместо этого придумали бы что-то вроде «автоматизированного сбора общедоступной информации в сети «Интернет».

В российских законах напрямую о парсинге не говорится ничего: нет какого-то раздела под заголовком «Парсинг» с определением и десятком-другим правил, из которых сразу было бы понятно, что можно, а что нельзя. Это проблема: рассуждать о юридической стороне какого-либо явления проще всего, когда о нём давным-давно известно (желательно — со времён римского права), когда об этом десять раз написано в законах и есть куча судебных решений, официальных разъяснений и разного рода теоретических работ. В случае с парсингом всё не так: римские юристы о нём не знали, в законах ничего конкретно не сказано, судебной практики и научных статей немного, официальных разъяснений я не встречал. Что делать? Лучше всего подумать, какие нормы права в принципе можно применить к парсингу и каким образом.

Краткое, но почти полное изложение статьи

Начать нужно со статьи 29 Конституции: каждый вправе свободно искать и получать информацию любым законным способом. Далее, в Законе об информации говорится: по общему правилу, информация является общедоступной, и каждый вправе использовать такую информацию по своему усмотрению. Казалось бы, всё просто: информация в интернете общедоступная, поэтому её можно свободно парсить. Всё так, не будь различных ограничений, установленных другими законами. Есть ещё несколько блоков правовых норм, которые касаются парсинга и содержат эти самые ограничения.

Правила о гражданско-правовой ответственности и о причинении вреда имуществу.

Уголовная ответственность за преступления в сфере компьютерной информации.

Нормы договорного права.

Право интеллектуальной собственности.

Правила о персональных данных.

Рассмотрим каждый из этих пунктов подробнее. Уточню: говорить буду в основном о российском праве и лишь изредка ссылаться на зарубежный опыт, когда без этого не обойтись. О других странах нужно писать отдельно, потому что в них будут свои тонкости. Правда, указанная выше пятёрка тематических блоков, скорее всего, никуда не денется, то есть по этой схеме можно рассмотреть законодательство многих государств.


Вред имуществу и убытки

Начнём с нетипичных и неочевидных вариантов. Казалось бы, при чём здесь вред имуществу, когда речь о программах, делающих что-то в интернете? На самом деле такой подход к вопросу нельзя исключать. Да, информация, сайты, программы — это нематериальные объекты, но серверы, на которых всё работает — вполне себе материальные. Если из-за парсинга что-то случится с сервером, то вполне можно говорить о вреде имуществу. Грубо говоря, если кто-то станет парсить сайт так активно, что сервер задымится и сломается, то можно будет поставить вопрос о возмещении вреда, причинённого имуществу.

Разумеется, сгоревший сервер — это крайне маловероятно. Впрочем, парсинг всё же может привести к убыткам для владельца сайта. Представим себе интернет-магазин, который «упал» на пять часов из-за нагрузки от парсера. В течение пяти часов покупатели не могли сделать заказ, и владелец сайта не получил деньги, которые он иначе получил бы — это называется упущенная выгода. Можно ли потребовать возмещения таких убытков? Здесь всё непросто: по общему правилу, нужно доказать четыре обстоятельства: первый — есть правонарушение, второй — есть вред, третий — есть причинно-следственная связь между нарушением и вредом, четвёртый — есть вина нарушителя. По каждому из этих пунктов возникнут сложности:

нужно как-то оценить вред и доказать, что его размер не взяли с потолка, а посчитали правильно;

нужно доказать, почему парсинг действительно является правонарушением (тут тоже всё не так просто, но некоторые возможные обоснования будут в следующих разделах статьи);

нужно доказать, что вред возник именно из-за парсинга (а не из-за кривой конфигурации сервера и плохой защиты от ботов);

наконец, нужно доказать, что даже если нарушитель и не хотел ничего плохого (то есть не было умысла), но всё равно по-хорошему он мог бы предвидеть последствия, если бы подумал хотя бы в рамках «здравого смысла» (юридически это будет называться «лёгкая неосторожность»).

Кроме того, нарушителя ещё нужно найти, а это тоже та ещё задачка: «я тебя по IP вычислю» — не более чем мем, а в реальности нужно будет в исковом заявлении указать почтовый адрес, причём полиция не подскажет: они розыском по гражданским делам не занимаются. Словом, хотя в теории привлечь к ответственности можно, на практике это один из самых трудных вариантов.

Когда серверы были слабее, вариант с причинением вреда смотрелся чуть реалистичнее. В частности, в конце 1990-х одна американская компания парсила Ebay. Ebay обратился в суд. Основание — парсер делал 100 тысяч запросов в сутки, что составляло 1,5% от общего трафика на сайт. Это привело к дополнительным расходам на обслуживание серверов — следовательно, финансовые потери должны быть возмещены, а парсинг прекращён. Дело в итоге закончилось мировым соглашением (пример я взял из книги «Web Scraping with Python»). Сейчас серверы намного мощнее, так что вряд ли парсинг реально «положит» сайт или как-то ещё приведёт к убыткам для владельца.


Уголовная ответственность

Звучит страшно: за парсинг могут посадить. Почему бы и нет: предположим, что доступ к некоторым страницам сайта запаролен, и парсер взламывает пароль. Это попадает под состав преступления «Неправомерный доступ к компьютерной информации» (статья 272 Уголовного кодекса): оно небольшой тяжести, но всё равно можно получить штраф до двухсот тысяч рублей или отправиться в колонию на два года. А ещё в той статье есть пункты 2–4, и там наказания куда более суровые.

Впрочем, взлом пароля при парсинге — это редкость. Значит, опасности нет? Не совсем. Вернёмся к статье 272 УК:

неправомерный доступ к охраняемой законом компьютерной информации, если это деяние повлекло уничтожение, блокирование, модификацию либо копирование компьютерной информации, наказывается…

Теперь анализируем. Как гласит примечание к этой статье, «под компьютерной информацией понимаются сведения (сообщения, данные), представленные в форме электрических сигналов, независимо от средств их хранения, обработки и передачи». Таким образом, парсинг — это работа с компьютерной информацией. Влечёт ли он копирование такое информации? Да, ради этого и парсят. Является ли информация «охраняемой законом»? Ясного ответа на этот вопрос нет, но нужно понимать: речь не только о государственной тайне. Под определение «охраняемой законом» могут попасть и персональные данные, и коммерческая тайна, и информация, содержащая результаты интеллектуальной деятельности. Остаётся вопрос с «неправомерным доступом», и с ним опять всё сложно. Допустим, в условиях использования сайта написано, что парсинг запрещён. Означает ли это, что парсинг становится «неправомерным доступом»? На первый взгляд, да. Но с другой стороны, условия использования — это гражданское право, а преступления — это уголовное право, поэтому терминология может различаться.

Для понимания «неправомерного доступа» можно вспомнить, что в США за парсинг иногда пытаются привлечь к ответственности по так называемому CFAA — Computer Fraud and Abuse Act. Он о киберпреступлениях, то есть в какой-то мере аналогичен статьям Уголовного кодекса России. В CFAA говорится о наказании за «unauthorized access» — неавторизованный доступ к компьютерной информации (сравните с «неправомерным»). Американские суды тоже столкнулись с вопросом, что же такое «неавторизованный доступ». Появилась такая аргументация: неавторизованный доступ следует понимать по аналогии со «взломом и вторжением» в жилище, то есть с обезвреживанием средств защиты и устранением препятствий. Следовательно, само по себе нарушение условий использования сайта — это не «неавторизованный доступ», поэтому CFAA тут не применяется. По-видимому, в теории что-то подобное нужно использовать и в России. Однако американские судебные прецеденты (и судебный прецедент вообще) в России — не источник права, поэтому сослаться на них нельзя. Так что вопрос о «неправомерноом доступе» всё равно остаётся. Кроме того, как быть, если парсинг заблокирован технически, а парсер обходит блокировку — будет ли это «неправомерным доступом»?

Помимо статьи 272, есть статья 273 — «Создание, использование и распространение вредоносных компьютерных программ»:

создание, распространение или использование компьютерных программ либо иной компьютерной информации, заведомо предназначенных для несанкционированного уничтожения, блокирования, модификации, копирования компьютерной информации или нейтрализации средств защиты компьютерной информации, наказывается…

Она тоже может касаться парсинга: состав преступления — это использование компьютерных программ, предназначенных для несанкционированного копирования компьютерной информации. Вопрос опять же в толковании термина «несанкционированное копирование» — ситуация такая же неопределённая, как и в случае с «неправомерным доступом». Кроме того, в статье говорится о «нейтрализации средств защиты компьютерной информации» — при желании под эту формулировку можно подвести обход блокировки парсинга. А ещё обратите внимание, что статья касается не только тех, кто использует «компьютерные программы для несанкционированного копирования компьютерной информации», но и тех, кто их «создаёт и распространяет». То есть теоретически отвечать будет не только тот, кто запустил парсер, но и тот, кто его разработал.

Словом, риск уголовной ответственности тоже есть. Я бы не сказал, что он слишком высокий: всё же попытка отнести парсинг к преступлениям выглядит натянутой, и цель указанных статей Уголовного кодекса — это борьба с хакерами и вирусописателями, а не с теми, кто просто собирает данные с сайтов. Впрочем, правоприменение в России иногда довольно своеобразное, а нормы кодекса достаточно неопределённые для того, чтобы при желании под них можно было подвести и парсинг. Вопрос скорее в том, что связываться с правоохранительными органами «потерпевший» вряд ли захочет, потому что гораздо проще забанить пользователя за нарушение пользовательского соглашения.


Нарушение пользовательского соглашения

На некоторых сайтах есть условия использования или пользовательские соглашения. Это те самые документы, которые «прячутся» в «подвале» и которые редко читают. А зря: в пользовательском соглашении может оказаться пункт, запрещающий парсинг. Следовательно, тот, кто парсит, нарушает пользовательское соглашение, и это плохо. Но «плохо» — это моральная оценка. Что говорит право?

Пользовательское соглашение — это, по сути, договор, а договоры должны исполняться. Если не исполняются, можно привлечь к гражданско-правовой ответственности. Например, если в пользовательском соглашении написано: «Штраф за парсинг — 1 миллион рублей», то в наказание за парсинг, исходя из условий договора, действительно можно потребовать миллион.

А заключён ли договор? Договор должен исполняться, но только в том случае, если пользователь его, упрощённо говоря, подписал. Заходя на сайт, никто никаких договоров обычно не подписывает. Максимум мы нажимаем «ОК» на уведомление о cookie, но это не пользовательское соглашение. Пользовательское соглашение по-прежнему лежит где-то на задворках сайта. Мы предполагаем, что оно есть, но фактически его не видим и не ищем. Кроме того, если мы просто зашли на сайт без регистрации, то нам никто о пользовательском соглашении и не говорит. Так должны ли мы ему подчиняться?

Есть два типа соглашений: click-wrap и browse-wrap. Click-wrap — это когда нужно нажать кнопку или поставить галочку «Я согласен с условиями». Browse-wrap — это когда договор находится на какой-то странице сайта, и нужно самому зайти туда и прочитать. С click-wrap всё сравнительно просто: человек жмёт на кнопку или ставит галочку и тем самым «подписывает» договор. С browse-wrap ситуация куда сложнее. Для заключения договора требуется, чтобы субъект выразил свою волю. Когда договор просто лежит где-то на сайте, невозможно понять, выразил ли субъект свою волю. Следовательно, если пользователь просто зашёл на сайт, то без дополнительных доказательств вряд ли можно сказать, что договор заключён. Нет договора — нет обязанностей.

Если парсит зарегистрированный пользователь, то с заключённостью договора проблем меньше: при регистрации нужно согласиться с условиями использования. Если эти условия запрещают парсинг, то владелец сайта может применить санкции, предусмотренные договором. Простейшая санкция — это бан, который юридически может являться приостановлением оказания услуг или расторжением договора в одностороннем порядке.


Интеллектуальная собственность

К интеллектуальной собственности относится много чего: произведения науки, литературы и искусства, компьютерные программы, базы данных, изобретения, селекционные достижения, товарные знаки, ноу-хау и ещё с десяток разных объектов. При парсинге обычно приходится сталкиваться только с произведениями науки, литературы и искусства, а также с базами данных.

Контент сайта — тексты, фото, аудио, видео — иногда относится к произведениям науки, литературы или искусства. Такие произведения охраняются авторским правом «по умолчанию» — просто потому, что они существуют, и без каких-либо формальностей. При парсинге контент копируется. С юридической точки зрения, копирование — это «воспроизведение» объекта интеллектуальных прав. Без разрешения автора оно запрещено.

Если контент распространяется на условиях открытой лицензии (например, Creative Commons, как в «Википедии»), которая разрешает копирование, то парсинг сам по себе не нарушает авторские права. Однако не всё в интернете находится под открытой лицензией. То, что кто-то выложил контент в открытый доступ, вовсе не означает, что он теперь не охраняется авторским правом — напротив, по общему правилу, он всегда охраняется. Таким образом, парсинг может приводить к нарушению авторских прав, если парсер собирает такой контент, который охраняется авторским правом и не распространяется на условиях открытой лицензии, разрешающей копирование.

Впрочем, авторское право действует не всегда. Как я написал выше, «тексты, фото, аудио и видео» иногда относятся к произведениям науки, литературы или искусства. Иногда, но не всегда: объектом авторского права считается результат творческого труда, а контент иногда может быть «нетворческой» информацией. Новостные сообщения, курсы валют, акций и облигаций, прогноз погоды, результаты матчей, объявления о продаже чего-либо, цены на товары — всё это авторским правом не охраняется. Ещё не охраняются авторским правом произведения народного творчества, официальные документы государственных органов и некоторые другие виды объектов — все они указаны в ст. 1259 ⋅ 6 Гражданского кодекса. Следовательно, в плане авторского права их можно парсить спокойно. Однако авторским правом дело не ограничивается.

Помимо произведений есть другой объект интеллектуальных прав — база данных. Этот термин может ввести в заблуждение. Под базой данных в праве понимается не то же самое, что в программировании, хотя кое-что общее есть. База данных, с юридической точки зрения — это совокупность самостоятельных материалов, систематизированных так, что их можно найти и обработать с помощью компьютера (я немного упростил определение из статьи 1260 Гражданского кодекса). Наверное, многие базы данных в «техническом» смысле тоже попадут под это определение, но важно вот что: для права не имеет значения, используется PostrgeSQL или Redis, Hadoop или ClickHouse, табличка в Экселе или набор текстовых файлов, разложенных по папочкам в пять уровней — если есть множество самостоятельных материалов, которые систематизированы и которые можно обработать на компьютере, то это база данных. Сайт, таким образом, вполне можно признать базой данных (даже если там не используется СУБД). А права на базу данных охраняются сами по себе. То есть база данных может сплошь состоять из неохраняемых материалов, но при этом быть объектом интеллектуальной собственности.

Бывают креативные базы, а бывают инвестиционные. Или творческие и нетворческие. Креативные — это такие, в которых при подборе и расположении материалов применили какой-то оригинальный подход так, что она сама по себе стала «художественным произведением». Например, сайт с произведениями философов Античности, которые автор собрал и распределил по категориям, тегам, хронологии и подборкам, можно назвать креативной базой данных, потому что страницы сайта не сброшены в кучу, а организованы оригинальным способом (хотя, конечно, творческий характер работы — это оценочное понятие). Инвестиционные — это такие, где особого творческого подхода не было, а просто собрали очень много материалов. Например, база объявлений на «Хабр Фрилансе» — это скорее инвестиционная база данных, потому что набор категорий типовой, и материалы создаются не владельцем сайта, но материалов довольно много.

Для инвестиционных баз данных есть особые правила. Во-первых, охраняются только те базы, для создания которых потребовались «существенные затраты». Подтвердить затраты должен изготовитель базы данных. Не подтвердил — нет охраны. Однако есть послабление: если в базе больше 10 тысяч материалов, то считается, что существенные затраты есть, и база данных охраняется правом. Во-вторых, из базы данных при некоторых условиях можно извлекать материалы, не нарушая права изготовителя базы данных. Эти условия написаны в статье 1335.1 Гражданского кодекса:

лицо, правомерно пользующееся обнародованной базой данных, вправе без разрешения обладателя исключительного права — изготовителя базы данных и в той мере, в которой такие действия не нарушают авторские права изготовителя базы данных и других лиц, извлекать из базы данных материалы и осуществлять их последующее использование:

в целях, для которых база данных ему предоставлена, в любом объеме, если иное не предусмотрено договором;

в личных, научных, образовательных целях в объеме, оправданном указанными целями;

в иных целях в объеме, составляющем несущественную часть базы данных.

Что важного в этом правиле? Во-первых, извлекать материалы можно, если не нарушаются авторские права, то есть если контент не охраняется авторским правом или распространяется по открытой лицензии. Во-вторых, пользоваться нужно обнародованной базой данных, и пользоваться правомерно, то есть не нарушая условий использования. В-третьих, объём материалов, которые можно извлечь, зависит от целей. Многие понятия из процитированного пункта являются оценочными, так что в зависимости от конкретных обстоятельств парсинг может как быть правомерным, так и нарушать закон.

Словом, выглядит всё не очень радостно: сразу на «входе» в парсинг поджидают авторские права, а если они вдруг не действуют, то сталкиваешься с правами на базы данных — в этом лабиринте интеллектуальных прав легко запутаться. Впрочем, как минимум на базы данных есть одна альтернативная точка зрения. Я натолкнулся на неё в статье М. А. Рожковой об онлайн-классифайдах. Там задаётся вопрос: можно ли считать, что посетитель сайта пользуется базой данных? Нет, он пользуется сервисом, разработанным на основе базы данных, а не самой базой данных. Следовательно, правила о базах данных к парсингу вообще не применяются. Вместо них работают нормы об использовании общедоступной информации — такую информацию можно собирать свободно. Конечно, это не означает, что снимаются вопросы с авторскими правами на контент, но использовать правила о базах данных для запрета парсинга владелец сайта уже не сможет. Несмотря на то что М. А. Рожкова — авторитетный специалист по праву интеллектуальной собственности и ИТ-праву, нужно помнить, что научные работы в России — не источник права: в суде можно сослаться только на закон. Закон, конечно, можно понимать по-разному, так что точку зрения из научной статьи всё же можно использовать, чтобы обосновать свой вариант толкования. Возможно, когда-то идея о том, что пользование сайтом — это не использование базы данных, станет доминирующей, и суды с ней начнут соглашаться.


Персональные данные

Месяц назад мне пришлось бы долго рассуждать на тему общедоступных персональных данных. С 1 марта 2021 года всё стало просто: чтобы законно собирать персональные данные из интернета, нужно получить согласие каждого человека, чьи данные собираются. То, что человек сам разместил свои данные в открытом доступе, больше не имеет значения. На Хабре есть статья о законе, который де-факто запретил парсинг общедоступных персональных данных, поэтому долго рассуждать на эту тему не буду. Кроме того, есть статья на Roem, где объясняются возможные причины принятия этого закона.

Есть один вариант, при котором собирать общедоступные персональные данные всё же можно без согласия каждого конкретного человека: сайт, на котором размещены такие данные, взял у человека согласие на распространение. Иначе говоря, если условный «ВКонтакте» попросит у всех пользователей согласие не только на обработку, но и на распространение персональных данных, то парсинг профилей ВКонтакте снова станет законным — во всяком случае, с точки зрения персональных данных. Однако вряд ли ВКонтакте станет так делать: по делу «ВК против Дабл» можно сделать вывод, что социальная сеть, наоборот, была бы рада максимально затруднить парсинг.

Заключение

Я рассмотрел пять правовых аспектов парсинга. По большей части речь шла о запретах и рисках. В каком-то смысле я сделал так намеренно. Общее правило, которое следует из Конституции и Закона об информации — каждый вправе собирать информацию любым законным способом. Так что по общему правилу парсинг — это законно. Однако нужно помнить о многочисленных ограничениях и нюансах. Иногда они приводят к фактическому запрету парсинга, иногда создают дополнительные сложности, а иногда правомерность парсинга зависит от конкретных обстоятельств.