Краулинг

Краулинг (сканирование) сайта – процесс, в ходе которого происходит обнаружение поисковым роботом (краулером) новых или обновленных страниц для последующего добавления в индекс поисковика. Это начальный этап, на котором производится сбор данных для внутренней обработки. Однако отсканированная страница не всегда попадает в индекс.

Поисковый робот (краулер) представляет собой программу для сбора контента в сети. Его мощности хватает, чтобы запрашивать тысячи страниц одновременно:

Функции краулера:

●        Проверка и сравнение URL-адресов, собранных для сканирования, с теми URL-адресами, которые уже имеются в индексе;

●        Удаляет дубликаты в очереди для предупреждения повторного скачивания страницы;

●        Отправляет на переиндексацию обновленные страницы для предоставления новых результатов.

Разный контент обходят роботы в определенной последовательности. Например, в Google имеет основной поисковый бот Googlebot, сканирование новостей выполняет Googlebot News, с изображениями работает Googlebot Images, для сканирования видео предназначен Googlebot Video.


НАЗАД К СПИСКУ