Що таке краулінг і як керувати роботами

Видача за частку секунди відповідей на пошуковий запит на сторінці пошуку - це тільки верхівка айсбергу. У «чорному ящику» пошукових систем інтернету - проскановані та занесені в спеціальну базу даних, мільярди сторінок, які відбираються для подання, враховуючи безліч факторів.

Сторінка з результатами пошуку формується в результаті трьох процесів:

сканування;
індексування;
надання результатів (включає в себе пошук за індексом і ранжування сторінок).

У цій статті йтиметься про сканування, або краулінг сторінок сайту.

Як працює сканування (краулінг) сайту?

Якщо коротко, краулінг (сканування, crawling) - процес виявлення і збору пошуковим роботом (краулером) нових і оновлених сторінок для додавання їх в індекс пошукових систем інтернету. Сканування - початковий етап, дані збираються тільки для подальшої внутрішньої обробки (побудови індексу), і не відображаються в результатах пошуку. Просканована сторінка не завжди є проіндексованою.

Пошуковий робот (він же crawler, краулер, павук, бот) - програма для збору контенту в інтернеті. Краулер складається з безлічі комп'ютерів, які знаходять і обирають сторінки набагато швидше, ніж користувач за допомогою свого веб-браузера. Фактично він може запитувати тисячі різних сторінок одночасно.

Що ще робить робот-краулер:

Постійно перевіряє і порівнює список URL-адрес для сканування з URL-адресами, які вже знаходяться в індексі Google.
Прибирає дублікати в черзі, щоб запобігти повторному скачування однієї і тієї ж сторінки.
Додає на переіндексацію змінені сторінки для надання оновлених результатів.

Під час сканування павуки переглядають сторінки і виконують перехід по наявних на них посиланнях так само, як і звичайні користувачі. При цьому, різний контент досліджується ботами в різній послідовності. Це дозволяє одночасно обробляти величезні масиви даних.

Наприклад, в Google існують роботи для обробки різного типу контенту:

Googlebot - основний пошуковий робот;
Googlebot News - робот для сканування новин;
Googlebot Images - робот для сканування зображень;
Googlebot Video - робот для сканування відео.

До речі, саме з robots.txt і починається процес сканування сайту - краулер намагається виявити обмеження доступу до контенту, і посилання на мапу сайту (Sitemap). У мапі сайту повинні знаходитися посилання на важливі сторінки сайту. У деяких випадках пошуковий робот може проігнорувати цей документ і сторінки потраплять в індекс, тому конфіденційну інформацію потрібно закривати паролем безпосередньо на сервері.

Примітка.Сторінки можуть бути проіндексовані навіть в тому випадку, якшо вони не були проскановані: ці процеси не залежать один від одного. Якщо про сторінку достатньо інформації, і вона розцінюється як релевантна запиту користувача, то алгоритми пошукової системи можуть включити її в результати пошуку. Навіть якщо вони не мають доступу до контенту. Саме цьому не рекомендується використовувати прості засоби, такі як метатеги robots, щоб явно заборонити індексування своїх сторінок.

Переглядаючи сайти, бот знаходить на кожній сторінці посилання і додає їх до своєї бази. Робот може виявити ваш сайт навіть без розміщення посилань на нього на сторонніх ресурсах. Для цього потрібно здійснити перехід по посиланню з вашого сервера на інший. Заголовок HTTP-запиту клієнта «referer» буде містити URL джерела запиту і, швидше за все, збережеться в журналі джерел посилань на цільовому сервері. Отже, стане доступним для робота.

Як краулер бачить сайт

Якщо хочете перевірити, як робот-краулер бачить сторінку сайту, вимкніть обробку JavaScript з ввімкнутим інструментом розробника в браузері. Розглянемо на прикладі Google Chrome:

1. Натискаємо F12 - викликаємо вікно інструменту розробника, переходимо в налаштування.

2. Відключаємо JavaScript і перезавантажуємо сторінку.

Якщо в цілому на сторінці збереглася основна інформація, посилання на інші сторінки сайту, і виглядає вона приблизно так само, як і з включеним JavaScript, проблем зі скануванням не повинно виникнути.

Другий спосіб - використовувати інструмент Google «Переглянути як Googlebot» в Search Console.

Якщо краулер бачить вашу сторінку так само, як і ви, проблем зі скануванням не виникне.

Третій метод - спеціальне програмне забезпечення.

Якщо сторінка не відображається так, як ви очікували, варто перевірити, чи доступна вона для сканування: чи не заблокована вона в robots.txt, в файлі .htaccess.

Проблеми зі скануванням можуть виникати, якщо сайт створений за допомогою технологій Javascript і Ajax, тому що пошукові системи інтернету поки погано сканують подібний контент.

Як управляти скануванням сторінок

Запуск і оптимізація сканування сайту

Існує кілька методів запросити робота-павука до себе на сайт:

Дозволити сканування сайту, якщо він був запаролений на сервері, і передати інформацію про URL c допомогою HTTP-заголовка «referer» при переході на інший ресурс.
Розмістити посилання на ваш сайт на іншому ресурсі, наприклад, в соцмережах.
Зареєструватися в панелі вебмайстрів Google.
Повідомити пошуковій системі про сайт, безпосередньо через кабінет вебмайстрів Google.
Використовувати внутрішню перелінковку сторінок для поліпшення навігації і сканування ресурсу, наприклад, хлібні крихти.
Створити мапу сайту з потрібним списком сторінок і розмістити посилання на мапу в robots.txt.

Заборона сканування сайту

Для обмеження сканування контенту слід захистити каталоги сервера паролем. Це простий і ефективний спосіб захисту конфіденційної інформації від ботів.
Ставити обмеження в robots.txt.
Використовувати метатег <meta name = "robots" />. За допомогою директиви "nofollow" варто заборонити перехід по посиланнях на інші сторінки.
Використовувати HTTP-заголовок X-Robots tag. Заборона на сканування з боку пошукового сервера здійснюється за допомогою HTTP заголовка X-Robots-tag: nofollow. Директиви, які застосовуються для robots.txt, підходять і для X-Robots tag.

Управління частотою сканування сайту

Googlebot використовує алгоритмічний процес для визначення, які сайти сканувати, як часто і скільки сторінок витягувати. Веб-майстер може надати допоміжну інформацію краулеру за допомогою файлу sitemap, тобто за допомогою атрибутів:

< Lastmod > - дата внесення останніх змін;
<Changefreq > - ймовірна частота змін сторінки;
<Priority > - пріоритетність.

На жаль, значення цих атрибутів розглядаються роботами як підказка, а не як команда, тому в Google Search Console і існує інструмент для ручної відправки запиту на сканування.

Висновки

Різний контент обробляється ботами в різній послідовності. Це дозволяє одночасно обробляти величезні масиви даних.
Для поліпшення процесу сканування потрібно створювати мапи сайтів і робити внутрішню перелинковку - щоб бот зміг знайти всі важливі сторінки.
Закривати інформацію від індексування краще за допомогою метатега <meta name = "robots" content = "nofollow" /> або http-заголовка X-Robot tag, тому що файл robots.txt містить лише рекомендації по скануванню, а не прямі команди до дії.

Фото: flickr.com
Обробка: Vinci

Menu

Що таке краулінг і як керувати роботами