![Що таке індексація сайту Картки](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhnwgyOLaBZTbg_ldq38N3QFYAI1mlBhN6qne6yl3dfBS24EgjQBub7JefmF2b26b7_prnnds-esjbJo1W6kbsxWaxQmjnG7jCS7ZElTSTtWkXCZHPxxE-sO-4ARETYIhYTK5ESlfJmqos/s0/242-1-kartky.jpg)
Перед показом сторінки у видачі, її грунтовно обробляють роботи пошукових систем. Спочатку роботи сканують сторінку, потім вносять контент в індекс і дають результати у видачу. Сьогодні поговоримо про індексування.
Індексування — об'єднання і систематизація всієї зібраної на етапі сканування інформації про сторінки, за допомогою створення спеціальної бази, індексу.
Не всі проскановані сторінки потрапляють в індекс. Під час сканування, робот вносить до своєї бази всі сторінки, які може виявити, але в індекс увійдуть тільки ті, які робот визнає корисними для користувача.
Також не варто плутати індексування з ранжуванням. На даному етапі ранг документу не присвоюється, тому що база постійно поповнюється новими сторінками і визначити релевантність документа однозначно не можна — через секунду може з'явиться більш релевантна сторінка. Тому ранг сторінці присвоюється безпосередньо в момент пошуку.
Як формується індекс
Індекс містить дані про слова на сторінці, про їх місцезнаходження, дані з основних тегів і атрибутів, наприклад, тегів title і атрибутів alt. Побудувавши індекс, роботи пошукових систем легко проводять пошук потрібних документів.
Більшість роботів використовують «інвертований індекс» — для кожного терміна створюється список документів, які містять даний запит.
Наприклад:
Термін | Документ |
---|---|
Термін 1 | Документ 1, Документ 3, Документ 5, Документ 7 |
Термін 2 | Документ 3, Документ 5, Документ 4 |
Термін 3 | Документ 3, Документ 6 |
Якщо подивитися на створення інвертованого індексу очима робота, то виглядає це приблизно так:
- Конверсія в чистий текст — робот видаляє нетекстові елементи (розмітка, графіка)
- Токенізація — робот створює вибірку слів для виділення лексем (семантичних одиниць для обробки)
- Лінгвістична обробка лексем. Зібрані лексеми всіх слів з усіх текстів упорядковуються за алфавітом і для кожної з них додається номер входження і інформація про номер сторінки, звідки лексема була взята
- Власне складання індексу
Сам запис в індексі виглядає приблизно так, але для економії місця, роботи можуть ускладнювати його структуру:
Лексема/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки + номер входження/номер сторінки
Як керувати індексуванням
1. Відкрити закриті для індексування сторінки
2. Простежити, щоб сторінки просканувались, додаючи посилання для сканування в чергу за допомогою веб-майстра. Також можна використовувати «ловців ботів» — програми, основне завдання яких надавати пошуковим роботам посилання на важливі сторінки сайту
3. Розмістити релевантний контент, метатеги, оптимізувати зображення, стежити, щоб рекламні блоки займали максимум 30% першого екрану сайту
Як обмежити доступ роботів до індексування контенту:
1. Додати спеціальний метатег у верхній частині HTML-сторінок: < meta name = "robots" content = "noindex" / >
2. Додати спеціальний HTTP-заголовок: X-Robots-Tag: noindex
Як перевірити, чи потрапила сторінка в індекс
1. Вручну, через рядок пошуку.
1.1. За допомогою оператора пошуку site: domain.com
перевірити індексацію всього сайту:
![Пошукова оптимізація сайту Домен в пошуку Google](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiTgAYKyRLhlfJeN6JogtOs7qwdPJBOLEf00mnzctqqqXBuVum9V_td4bz4ZcB3eIcfI8koDLYOEmpQnrGk0dT_YRCXQ5k8Oq4wqEXRORxZfBMa6EA3FQ2fsT-PAA2ilUyJ-XdP6XRJuWM/s1600/242-2-sait.png)
1.2. За допомогою оператора site: domen.com/page1
, де domen.com/page1
— url сторінки яка перевіряється:
![SEO оптимізація сайту Сторінка в пошуку Google](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEj3ejR5Z-rJcHtFrmU0_yOvS14dW2QN0CWvkeC5SIAN1n6QQ1iD4Miznef8GocSK96Y5gqrZaoOfveIl_jz3ZCC-0Vkb7lrSDRwZ4o6wHvVs9X6eRI-e-Aev4iDOhylKOsiMImj8SGghig/s1600/242-3-peidg.png)
1.3. За допомогою оператора пошуку cache: domen.com/page1, де domen.com/page1 — url сторінки яка перевіряється:
![Так виглядає сторінка в Google Cache Google Cache](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjXzGqlbstJFE9m5LnAwjOUGnMeW5rDQnkq3UyPPS8bJGQNt0c-1QKXqIOFJw_Dowo5yzcjv0dvyHJDw0bMHh2WrcO31ccvbJlBoXfSQCNunJWrA89ULhN_HIMLnL0SvcTn4sCAhPH01BI/s1600/242-4-cesh.png)
2. За допомогою веб-майстра Google:
![Ранжування сайту пошуковими системами Google Search Console](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjMEH8HBYQ0IZzpttckHnp6QcaTHLOp2Fp8X112FSrk8WgeT2Xj1KxpTI-r0vlvimCJnydrubatlufClxrHDp_HT0WnXwkS-FPc1o5uYFh7cXVC7rCNM_7nrUh_V7l-68AY1KZ3dMlbXp0/s0/242-5-consol.png)
3. За допомогою плагіна RDS Bar:
![Сканування сайту пошуковими роботами RDS Bar](https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjFWULPgXIKcp2eMkWafuS6kXnnt0XR5IS1xu8WGVzSJQ-86AXziBNjmRHmu1EborXchb4oBuI1pPRn3KIreCjqoXCDvPnYJXq1wI6OvGUrKBhX5Sjs3wfyuLgsBGpRHF5sAHJbRwAVdRg/s1600/242-6-bar.png)
Чому сторінка випадає з індексу
1. Встановлено заборону на сканування в robots.txt, є мета-тег < meta name = "robots" content = "noindex" />. Якщо сторінки вже потрапили в індекс, при повторному скануванні робот побачить заборону і сторінки вийдуть з бази індексованих
2. На сторінці існує атрибут rel = "canonical" для іншої сторінки сайту
3. Відповідь сервера містить HTTP-статус 4XX або 5XX, це перешкоджає обробці сторінки роботом
4. Сайт знаходиться під фільтрами пошукових систем (через неунікальний контент, маніпулювання посилальними факторами і так далі)
5. На сторінці присутні дублі контенту
6. Сторінка перенаправляє робота — відображається 301 код відповіді сервера
Висновки
- Під час індексування, роботи пошукових систем систематизують зібрані в процесі сканування дані про сторінки сайту
- SEO-спеціаліст може впливати на індексування контенту сайту (але немає стовідсоткової гарантії, що роботи пошукових систем до нього прислухаються)
- Сканування сторінки не є гарантією того, що контент буде проіндексований, а індексація контенту не означає, що він ранжуватиметься
Обробка: Vinci