Парсинг (parsing) – автоматический сбор данных по определенному признаку. Чтение информации человеком с научной точки зрения является синтаксическим анализом-сравнением печатных слов (лексем) с теми, которые имеются в его словарном запасе (с формальной грамматикой). Парсинг - математическая модель, на основании которой происходит сравнивание лексем с формальной грамматикой, реализованной на одном из языков программирования (PHP, Perl, Ruby и др.).
Что такое парсер?
Парсером называют программу-скрипт, позволяющую компьютеру «считывать» нужную информацию из определенных источников в кратчайшие сроки. Парсинг данных минимизирует трудовые и временные затраты на ручное копирование.
С его помощью можно получить:
- контент с сайтов конкурентов (название товаров, артикулы, краткие и полные описания и пр.);
- информацию о веб-страницах с ошибками (к примеру, ошибка 404, отсутствие Title, цены товара и др.);
- аудиторию для рекламной кампании;
- изучить активность пользователей на веб-ресурсе и многое другое
- получает доступ к коду веб-ресурса и выполняет его скачивание,
- читает, копирует и обрабатывает данные,
- переводит информацию в удобный формат txt, .sql, .xml, .html и др.
Работа ПО проходит в рамках компьютера, на котором оно установлено. По принципу действия парсер напоминает троян - получает конфиденциальные данные без разрешения владельца.
Зачем нужен парсинг?
Сбор информации представляет собой трудоемкий, рутинный процесс, требующий существенных временных затрат. С помощью парсера можно в течение суток собрать, обработать и автоматизировать огромный объем информации. Парсер использует программное обеспечение позволяющее проводить проверку уникальности текстового контента в автоматическом режиме. К примеру, с помощью таких программ производится заполнение сотен схожих описаний товаров в интернет-магазинах.
Парсинг используется в спам рассылках по каналам мобильной связи и электронной почты. Достаточно запустить бота по соцсетям и в скором времени будет «спарсена» необходимая информация и собрана база данных ЦА.
Парсер и PHP
Действия парсеров заложены в командной строке - регулярном выражении («шаблоне», «маске»). Шаблоны основаны на РНР, Perl языках. С помощью синтаксиса Unix регулируется активность парсера - «ленивый», «жадный», «сверхжадный» (задается длина строки, копируемая программой). «Сверхжадный» парсер получает контент страницы полностью, в том числе HTML код и CSS таблицу.
Наиболее удобным языком программирования для парсеров является PHP, потому как:
- содержит встроенную библиотеку libcurl, позволяющую подключаться к разным типам серверов, в том числе с зашифрованным соединением https;
- поддерживает регулярные выражения;
- имеет библиотеку DOM для работы с XML;
- полностью совместим с HTML, потому как разрабатывался для его автоматической генерации.
В некоторых случаях парсинг рассматривается поисковиками, как повод для блокировки веб-ресурсов. При повышенном количестве подключений к сайту (200-250 повторов в секунду) действия парсера можно рассматривать как DOS-атаку. Часть представителей интернет-сообщества не считают парсинг воровством контента, особенно это касается случаев, когда имеются ссылки на первоисточники. Многие веб-мастера уверены, что заимствование технических описаний, не являющихся интеллектуальной собственностью, абсолютно допустимо.