Як пошукові системи індексують сайт | Бізнес Майстерня

Як пошукові системи індексують сайт

Як пошукові системи індексують сайт

картки

Перед показом сторінки у видачі, її грунтовно обробляють роботи пошукових систем. Спочатку роботи сканують сторінку, потім вносять контент в індекс і дають результати у видачу. Сьогодні поговоримо про індексування.

Індексування - об'єднання і систематизація всієї зібраної на етапі сканування інформації про сторінки, за допомогою створення спеціальної бази, індексу.

Не всі проскановані сторінки потрапляють в індекс. Під час сканування, робот вносить до своєї бази всі сторінки, які може виявити, але в індекс увійдуть тільки ті, які робот визнає корисними для користувача.

Також не варто плутати індексування з ранжуванням. На даному етапі ранг документу не присвоюється, тому що база постійно поповнюється новими сторінками і визначити релевантність документа однозначно не можна - через секунду може з'явиться більш релевантна сторінка. Тому ранг сторінці присвоюється безпосередньо в момент пошуку.

Як формується індекс?

Індекс містить дані про слова на сторінці, про їх місцезнаходження, дані з основних тегів і атрибутів, наприклад, тегів title і атрибутів alt. Побудувавши індекс, роботи пошукових систем легко проводять пошук потрібних документів.

Більшість роботів використовують «інвертований індекс» - для кожного терміна створюється список документів, які містять даний запит.

Наприклад:

Термін

Документ

Термін 1

Документ 1, Документ 3, Документ 5, Документ 7

Термін 1

Документ 3, Документ 5, Документ 4

Термін 1

Документ 3, Документ 6

Якщо подивитися на створення інвертованого індексу очима робота, то виглядає це приблизно так:

  • Конверсія в чистий текст - робот видаляє нетекстові елементи (розмітка, графіка).
  • Токенізація - робот створює вибірку слів для виділення лексем (семантичних одиниць для обробки).
  • Лінгвістична обробка лексем. Зібрані лексеми всіх слів з усіх текстів упорядковуються за алфавітом і для кожної з них додається номер входження і інформація про номер сторінки, звідки лексема була взята.
  • Власне складання індексу.

Сам запис в індексі виглядає приблизно так, але для економії місця, роботи можуть ускладнювати його структуру:

Лексема/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки + номер входження/

Як керувати індексуванням?

Як стимулювати роботів внести сторінки в індекс:

1. Відкрити закриті для індексування сторінки.

2. Простежити, щоб сторінки просканувались, додаючи посилання для сканування в чергу за допомогою веб-майстра. Також можна використовувати «ловців ботів» - програми, основне завдання яких надавати пошуковим роботам посилання на важливі сторінки сайту.

3. Розміщувати релевантний контент, метатеги, оптимізувати зображення, стежити, щоб рекламні блоки займали максимум 30% першого екрану сайту.

Як обмежити доступ роботів до індексування контенту:

  1. Додати спеціальний метатег у верхній частині HTML-сторінок: < meta name = "robots" content = "noindex" / >.
  2. Додати спеціальний HTTP-заголовок: X-Robots-Tag: noindex.

Як перевірити, чи потрапила сторінка в індекс?

1. Вручну, через рядок пошуку.

1.2. За допомогою оператора пошуку site: domen.com перевірити індексацію всього сайту:

сайт

1.3. За допомогою оператора site: domen.com/page1, де domen.com/page1 - url сторінки яка перевіряється:

сторінка

1.4. За допомогою оператора пошуку cache: domen.com/page1, де domen.com/page1 - url сторінки яка перевіряється:

кеш

2. За допомогою веб-майстра Google:

консоль

3. За допомогою плагіна RDS Bar:

бар

Чому сторінка випадає з індексу?

1. Встановлено заборону на сканування в robots.txt, є мета-тег < meta name = "robots" content = "noindex" />. Якщо сторінки вже потрапили в індекс, при повторному скануванні робот побачить заборону і сторінки вийдуть з бази індексованих.

2. На сторінці існує атрибут rel = "canonical" для іншої сторінки сайту.

3. Відповідь сервера містить HTTP-статус 4XX або 5XX, це перешкоджає обробці сторінки роботом.

4. Сайт знаходиться під фільтрами пошукових систем (через неунікальний контент, маніпулювання посилальними факторами і так далі).

5. На сторінці присутні дублі контенту.

6. Сторінка перенаправляє робота - відображається 301 код відповіді сервера.

Висновки

  1. Під час індексування, роботи пошукових систем систематизують зібрані в процесі сканування дані про сторінки сайту.
  2. SEO-спеціаліст може впливати на індексування контенту сайту (але немає стовідсоткової гарантії, що роботи пошукових систем до нього прислухаються).
  3. Сканування сторінки не є гарантією того, що контент буде проіндексований, а індексація контенту не означає, що він ранжуватиметься.
Фото: flickr.com
Обробка: Vinci
назад
далі