Як пошукові системи індексують сайт

Перед показом сторінки у видачі, її грунтовно обробляють роботи пошукових систем. Спочатку роботи сканують сторінку, потім вносять контент в індекс і дають результати у видачу. Сьогодні поговоримо про індексування.

Індексування — об'єднання і систематизація всієї зібраної на етапі сканування інформації про сторінки, за допомогою створення спеціальної бази, індексу.

Не всі проскановані сторінки потрапляють в індекс. Під час сканування, робот вносить до своєї бази всі сторінки, які може виявити, але в індекс увійдуть тільки ті, які робот визнає корисними для користувача.

Також не варто плутати індексування з ранжуванням. На даному етапі ранг документу не присвоюється, тому що база постійно поповнюється новими сторінками і визначити релевантність документа однозначно не можна — через секунду може з'явиться більш релевантна сторінка. Тому ранг сторінці присвоюється безпосередньо в момент пошуку.

Як формується індекс

Індекс містить дані про слова на сторінці, про їх місцезнаходження, дані з основних тегів і атрибутів, наприклад, тегів title і атрибутів alt. Побудувавши індекс, роботи пошукових систем легко проводять пошук потрібних документів.

Більшість роботів використовують «інвертований індекс» — для кожного терміна створюється список документів, які містять даний запит.

Наприклад:

Термін	Документ
Термін 1	Документ 1, Документ 3, Документ 5, Документ 7
Термін 2	Документ 3, Документ 5, Документ 4
Термін 3	Документ 3, Документ 6

Якщо подивитися на створення інвертованого індексу очима робота, то виглядає це приблизно так:

Конверсія в чистий текст — робот видаляє нетекстові елементи (розмітка, графіка)
Токенізація — робот створює вибірку слів для виділення лексем (семантичних одиниць для обробки)
Лінгвістична обробка лексем. Зібрані лексеми всіх слів з усіх текстів упорядковуються за алфавітом і для кожної з них додається номер входження і інформація про номер сторінки, звідки лексема була взята
Власне складання індексу

Сам запис в індексі виглядає приблизно так, але для економії місця, роботи можуть ускладнювати його структуру:

Лексема/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки

Як керувати індексуванням

1. Відкрити закриті для індексування сторінки

2. Простежити, щоб сторінки просканувались, додаючи посилання для сканування в чергу за допомогою веб-майстра. Також можна використовувати «ловців ботів» — програми, основне завдання яких надавати пошуковим роботам посилання на важливі сторінки сайту

3. Розмістити релевантний контент, метатеги, оптимізувати зображення, стежити, щоб рекламні блоки займали максимум 30% першого екрану сайту

Як обмежити доступ роботів до індексування контенту:

1. Додати спеціальний метатег у верхній частині HTML-сторінок: < meta name = "robots" content = "noindex" / >

2. Додати спеціальний HTTP-заголовок: X-Robots-Tag: noindex

Як перевірити, чи потрапила сторінка в індекс

1. Вручну, через рядок пошуку.

1.1. За допомогою оператора пошуку site: domain.com перевірити індексацію всього сайту:

Домен в пошуку Google — *Так виглядає сторінка в пошуку Google, відфільтрована за допомогою оператора site: domain*

1.2. За допомогою оператора site: domen.com/page1, де domen.com/page1 — url сторінки яка перевіряється:

Сторінка в пошуку Google — *Так виглядає сторінка в пошуку Google, відфільтрована за допомогою оператора site: page*

1.3. За допомогою оператора пошуку cache: domen.com/page1, де domen.com/page1 — url сторінки яка перевіряється:

*Так виглядає сторінка Бізнес Майстерні в Google Cache*

2. За допомогою веб-майстра Google:

3. За допомогою плагіна RDS Bar:

Чому сторінка випадає з індексу

1. Встановлено заборону на сканування в robots.txt, є мета-тег < meta name = "robots" content = "noindex" />. Якщо сторінки вже потрапили в індекс, при повторному скануванні робот побачить заборону і сторінки вийдуть з бази індексованих

2. На сторінці існує атрибут rel = "canonical" для іншої сторінки сайту

3. Відповідь сервера містить HTTP-статус 4XX або 5XX, це перешкоджає обробці сторінки роботом

4. Сайт знаходиться під фільтрами пошукових систем (через неунікальний контент, маніпулювання посилальними факторами і так далі)

5. На сторінці присутні дублі контенту

6. Сторінка перенаправляє робота — відображається 301 код відповіді сервера

Висновки

Під час індексування, роботи пошукових систем систематизують зібрані в процесі сканування дані про сторінки сайту
SEO-спеціаліст може впливати на індексування контенту сайту (але немає стовідсоткової гарантії, що роботи пошукових систем до нього прислухаються)
Сканування сторінки не є гарантією того, що контент буде проіндексований, а індексація контенту не означає, що він ранжуватиметься

Фото: flickr.com
Обробка: Vinci

Menu

Як пошукові системи індексують сайт