Збирати інформацію в мережі можна відразу кількома способами. Так, за великого бажання та наявності вільного часу, ви можете зробити це вручну, вивчаючи кожне джерело окремо. Для прискорення завдання можна розподілити між кількома фахівцями. Однак найшвидшим і найефективнішим способом все-таки вважається парсинг, при якому збір даних, що знаходяться у відкритому доступі, здійснюється за допомогою програмного забезпечення, що дозволяє не просто дістати потрібні відомості, а й систематизувати їх, перетворюючи на будь-який зручний для використання формат.
Отримані відомості можна використовувати у різних цілях: від написання наукових праць до аналітики в електронній комерції. Але чи законно парсити сайти, чи законний парсинг? Чи є обмеження щодо вилучення інформації з чужих сторінок? Чи були прецеденти, коли парсинг став причиною гучних судових розглядів? Парсинг це законно?

Парсинг з погляду закону
На сьогоднішній день, законодавства більшості країн не забороняють користуватися інформацією, розміщеною у відкритих джерелах, якими є сайти в мережі інтернет.
Визначення поняття парсингу немає, так само як і його суміжних понять краулінг (обхід обмежень сайту) і скрайпінг (об’єднаний у одну програму краулінг і парсинг).
Оскільки парсинг – це один із способів збору інформації, цей процес підпорядковується правилам, встановленим для поводження з інформацією, зокрема Закону України “Про інформацію”.
Він поділяє інформацію за двома критеріями:
- за змістом;
- за режимом доступу;
Причому режим доступу визначається, зокрема, за змістом.
Будь-яка інформація є відкритою, крім тієї, яка віднесена до інформації з обмеженим доступом. Відповідно, можна використовувати будь-яку інформацію, яка не обмежена у доступі.
У свою чергу, інформація з обмеженим доступом ділиться на конфіденційну, таємну та службову. Визначення кожного виду містяться у Законі України “Про доступ до публічної інформації”. Нас цікавить насамперед визначення конфіденційної інформації, тому що, найімовірніше, суперечка про правомірність парсингу буде зводитись до того, чи була “спарена інформація” конфіденційною. До того ж таємна чи службова інформація точно не перебуватиме у відкритому доступі на сайті.
Які є обмеження у парсингу
Якщо інформація знаходиться у відкритому доступі, не захищена законом про авторські та суміжні права, а її збір здійснюється законними способами і не призводить до порушення роботи сайту або обмеження конкуренції, збір інформації навіть за допомогою ПЗ вважається цілком легальним. Щоб уникнути проблем, парсинг не повинен використовуватися заради:
- Вилучення контенту, захищеного авторським правом;
- створення перешкод для стабільної роботи сайту;
- Несанкціоноване отримання особистих (персональних) даних.
При цьому варто зазначити, що заборона використання контенту, розміщеного на сайті, а також парсинг персональних даних може бути прописана в умовах використання ресурсу.
Гучні судові випадки через парсинг
Світовій судовій практиці відомо кілька яскравих прецедентних випадків, пов’язаних із парсингом даних:
- 2000-2009: eBay проти Bidders Edge. Спочатку суди стали на бік позивача, пояснивши свою позицію тим, що висока активність ботів шкодить швидкості завантаження сторінок і знижує конверсію маркетплейсу. Трохи пізніше, у справі Intel проти Hamidi, стороні звинувачення вдалося довести, що Доктрина про порушення кордонів рухомого майна не поширюється на комп’ютерне середовище без фізичних збитків особистої власності;
- 2009 – Facebook проти агрегатора Power.com. У угоді соціальної мережі вказана заборона на повне копіювання веб-сайту. Суд став на бік медіагіганта, посилаючись на закон про захист авторського права;
- 2010: справа Ауернхаймер. Скориставшись лохом у системі безпеки сайту мобільного оператора AT&T, хакер витяг базу даних з адресами електронних пошт користувачів, які використовували сервіс з iPad. Суд став на бік звинувачення, пославшись на закон про захист персональних даних.
І це лише мала частина відомих прецедентів, оприлюднених загальним розголосом, адже багато мереж продовжують використовувати парсинг персональних даних, особливо тих, які приховані від перегляду.