Перед показом сторінки у видачі, її грунтовно обробляють роботи пошукових систем. Спочатку роботи сканують сторінку, потім вносять контент в індекс і дають результати у видачу. Сьогодні поговоримо про індексування.
Індексування — об'єднання і систематизація всієї зібраної на етапі сканування інформації про сторінки, за допомогою створення спеціальної бази, індексу.
Не всі проскановані сторінки потрапляють в індекс. Під час сканування, робот вносить до своєї бази всі сторінки, які може виявити, але в індекс увійдуть тільки ті, які робот визнає корисними для користувача.
Також не варто плутати індексування з ранжуванням. На даному етапі ранг документу не присвоюється, тому що база постійно поповнюється новими сторінками і визначити релевантність документа однозначно не можна — через секунду може з'явиться більш релевантна сторінка. Тому ранг сторінці присвоюється безпосередньо в момент пошуку.
Як формується індекс
Індекс містить дані про слова на сторінці, про їх місцезнаходження, дані з основних тегів і атрибутів, наприклад, тегів title і атрибутів alt. Побудувавши індекс, роботи пошукових систем легко проводять пошук потрібних документів.
Більшість роботів використовують «інвертований індекс» — для кожного терміна створюється список документів, які містять даний запит.
Наприклад:
Термін | Документ |
---|---|
Термін 1 | Документ 1, Документ 3, Документ 5, Документ 7 |
Термін 2 | Документ 3, Документ 5, Документ 4 |
Термін 3 | Документ 3, Документ 6 |
Якщо подивитися на створення інвертованого індексу очима робота, то виглядає це приблизно так:
- Конверсія в чистий текст — робот видаляє нетекстові елементи (розмітка, графіка)
- Токенізація — робот створює вибірку слів для виділення лексем (семантичних одиниць для обробки)
- Лінгвістична обробка лексем. Зібрані лексеми всіх слів з усіх текстів упорядковуються за алфавітом і для кожної з них додається номер входження і інформація про номер сторінки, звідки лексема була взята
- Власне складання індексу
Сам запис в індексі виглядає приблизно так, але для економії місця, роботи можуть ускладнювати його структуру:
Лексема/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки
Як керувати індексуванням
1. Відкрити закриті для індексування сторінки
2. Простежити, щоб сторінки просканувались, додаючи посилання для сканування в чергу за допомогою веб-майстра. Також можна використовувати «ловців ботів» — програми, основне завдання яких надавати пошуковим роботам посилання на важливі сторінки сайту
3. Розмістити релевантний контент, метатеги, оптимізувати зображення, стежити, щоб рекламні блоки займали максимум 30% першого екрану сайту
Як обмежити доступ роботів до індексування контенту:
1. Додати спеціальний метатег у верхній частині HTML-сторінок: < meta name = "robots" content = "noindex" / >
2. Додати спеціальний HTTP-заголовок: X-Robots-Tag: noindex
Як перевірити, чи потрапила сторінка в індекс
1. Вручну, через рядок пошуку.
1.1. За допомогою оператора пошуку site: domain.com
перевірити індексацію всього сайту:
1.2. За допомогою оператора site: domen.com/page1
, де domen.com/page1
— url сторінки яка перевіряється:
1.3. За допомогою оператора пошуку cache: domen.com/page1, де domen.com/page1 — url сторінки яка перевіряється:
2. За допомогою веб-майстра Google:
3. За допомогою плагіна RDS Bar:
Чому сторінка випадає з індексу
1. Встановлено заборону на сканування в robots.txt, є мета-тег < meta name = "robots" content = "noindex" />. Якщо сторінки вже потрапили в індекс, при повторному скануванні робот побачить заборону і сторінки вийдуть з бази індексованих
2. На сторінці існує атрибут rel = "canonical" для іншої сторінки сайту
3. Відповідь сервера містить HTTP-статус 4XX або 5XX, це перешкоджає обробці сторінки роботом
4. Сайт знаходиться під фільтрами пошукових систем (через неунікальний контент, маніпулювання посилальними факторами і так далі)
5. На сторінці присутні дублі контенту
6. Сторінка перенаправляє робота — відображається 301 код відповіді сервера
Висновки
- Під час індексування, роботи пошукових систем систематизують зібрані в процесі сканування дані про сторінки сайту
- SEO-спеціаліст може впливати на індексування контенту сайту (але немає стовідсоткової гарантії, що роботи пошукових систем до нього прислухаються)
- Сканування сторінки не є гарантією того, що контент буде проіндексований, а індексація контенту не означає, що він ранжуватиметься
Обробка: Vinci