Краулинг

Краулинг (сканирование) сайта – процесс, в ходе которого происходит обнаружение поисковым роботом (краулером) новых или обновленных страниц для последующего добавления в индекс поисковика. Это начальный этап, на котором производится сбор данных для внутренней обработки. Однако отсканированная страница не всегда попадает в индекс.

Поисковый робот (краулер) представляет собой программу для сбора контента в сети. Его мощности хватает, чтобы запрашивать тысячи страниц одновременно:

Функции краулера:

  • Проверка и сравнение URL-адресов, собранных для сканирования, с теми URL-адресами, которые уже имеются в индексе;
  • Удаляет дубликаты в очереди для предупреждения повторного скачивания страницы;
  • Отправляет на переиндексацию обновленные страницы для предоставления новых результатов.

Разный контент роботы обходят в определенной последовательности. Например, в Google основной поисковый бот – Googlebot, сканирование новостей выполняет Googlebot News, с изображениями работает Googlebot Images, для сканирования видео предназначен Googlebot Video.




НАЗАД К СПИСКУ