Краулинг (сканирование) сайта – процесс, в ходе которого происходит обнаружение поисковым роботом (краулером) новых или обновленных страниц для последующего добавления в индекс поисковика. Это начальный этап, на котором производится сбор данных для внутренней обработки. Однако отсканированная страница не всегда попадает в индекс.
Поисковый робот (краулер) представляет собой программу для сбора контента в сети. Его мощности хватает, чтобы запрашивать тысячи страниц одновременно:
Функции краулера:
- Проверка и сравнение URL-адресов, собранных для сканирования, с теми URL-адресами, которые уже имеются в индексе;
- Удаляет дубликаты в очереди для предупреждения повторного скачивания страницы;
- Отправляет на переиндексацию обновленные страницы для предоставления новых результатов.
Разный контент роботы обходят в определенной последовательности. Например, в Google основной поисковый бот – Googlebot, сканирование новостей выполняет Googlebot News, с изображениями работает Googlebot Images, для сканирования видео предназначен Googlebot Video.