Як пошукові системи індексують сайт

Як пошукові системи індексують сайт

Картки

Перед показом сторінки , її грунтовно обробляють роботи пошукових систем. Спочатку роботи сканують сторінку, потім вносять контент в індекс і дають результати у видачу. Сьогодні поговоримо про індексування.


Індексування — об'єднання і систематизація всієї зібраної на етапі сканування інформації про сторінки, за допомогою створення спеціальної бази, індексу.


Не всі проскановані сторінки потрапляють в індекс. Під час сканування, робот вносить до своєї бази всі сторінки, які може виявити, але в індекс увійдуть тільки ті, які робот визнає корисними для користувача.

Також не варто плутати з . На даному етапі ранг документу не присвоюється, тому що база постійно поповнюється новими сторінками і визначити релевантність документа однозначно не можна — через секунду може з'явиться більш релевантна сторінка. Тому ранг сторінці присвоюється безпосередньо в момент пошуку.


Як формується індекс

Індекс містить дані про слова на сторінці, про їх місцезнаходження, дані з основних тегів і атрибутів, наприклад, і атрибутів alt. Побудувавши індекс, роботи пошукових систем легко проводять пошук потрібних документів.

Більшість роботів використовують «інвертований індекс» — для кожного терміна створюється список документів, які містять даний запит.

Наприклад:

Термін Документ
Термін 1 Документ 1, Документ 3, Документ 5, Документ 7
Термін 2 Документ 3, Документ 5, Документ 4
Термін 3 Документ 3, Документ 6

Якщо подивитися на створення інвертованого індексу очима робота, то виглядає це приблизно так:

  • Конверсія в чистий текст — робот видаляє нетекстові елементи (розмітка, графіка)
  • Токенізація — робот створює вибірку слів для виділення лексем (семантичних одиниць для обробки)
  • Лінгвістична обробка лексем. Зібрані лексеми всіх слів з усіх текстів упорядковуються за алфавітом і для кожної з них додається номер входження і інформація про номер сторінки, звідки лексема була взята
  • Власне складання індексу

Сам запис в індексі виглядає приблизно так, але для економії місця, роботи можуть ускладнювати його структуру:

Лексема/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки

Як керувати індексуванням

1. Відкрити закриті для індексування сторінки

2. Простежити, щоб сторінки просканувались, додаючи посилання для сканування в чергу за допомогою веб-майстра. Також «ловців ботів» — програми, основне завдання яких надавати пошуковим роботам посилання на важливі сторінки сайту

3. Розмістити релевантний контент, метатеги, оптимізувати зображення, стежити, щоб рекламні блоки займали максимум 30% першого екрану сайту

Як обмежити доступ роботів до індексування контенту:

1. Додати спеціальний метатег у верхній частині HTML-сторінок: < meta name = "robots" content = "noindex" / >

2. Додати спеціальний HTTP-заголовок: X-Robots-Tag: noindex

Як перевірити, чи потрапила сторінка в індекс

1. Вручну, через рядок пошуку.

1.1. За допомогою оператора пошуку site: domain.com перевірити індексацію всього сайту:

Домен в пошуку Google
Так виглядає сторінка в пошуку Google, відфільтрована за допомогою оператора site: domain

1.2. За допомогою оператора site: domen.com/page1, де domen.com/page1 — url сторінки яка перевіряється:

Сторінка в пошуку Google
Так виглядає сторінка в пошуку Google, відфільтрована за допомогою оператора site: page

1.3. За допомогою оператора пошуку cache: domen.com/page1, де domen.com/page1 — url сторінки яка перевіряється:

Google Cache
Так виглядає сторінка Бізнес Майстерні в Google Cache

2. За допомогою веб-майстра Google:

Google Search Console
Панель Google Search Console

3. За допомогою плагіна :

RDS Bar
Розширення RDS Bar для перевірки індексації сторінок сайту

Чому сторінка випадає з індексу

1. Встановлено заборону на сканування в , є мета-тег < meta name = "robots" content = "noindex" />. Якщо сторінки вже потрапили в індекс, при повторному скануванні робот побачить заборону і сторінки вийдуть з бази індексованих

2. На сторінці існує атрибут rel = "canonical" для іншої сторінки сайту

3. містить HTTP-статус 4XX або 5XX, це перешкоджає обробці сторінки роботом

4. Сайт знаходиться під фільтрами пошукових систем (через неунікальний контент, маніпулювання посилальними факторами і так далі)

5. На сторінці присутні

6. Сторінка перенаправляє робота — відображається 301 код відповіді сервера

Висновки

  1. Під час індексування, роботи пошукових систем систематизують зібрані в процесі сканування дані про сторінки сайту
  2. SEO-спеціаліст може впливати на індексування контенту сайту (але немає стовідсоткової гарантії, що роботи пошукових систем до нього прислухаються)
  3. Сканування сторінки не є гарантією того, що контент буде проіндексований, а індексація контенту не означає, що він ранжуватиметься
Фото: flickr.com
Обробка: Vinci
назад
далі