Що таке внутрішні дублі сторінок і як з ними боротися

Url різні, а контент сторінок однаковий. Думаєте, нічого страшного? Всього лише кілька однакових сторінок на сайті. Але однаковий контент може потрапити під фільтри пошукових сайтів. Щоб цього не сталося, треба знати, як позбавлятися від внутрішніх дублів сторінок.

Поняття дублів сторінок і їх види

Дублі - це окремі сторінки сайту, контент яких повністю або частково збігається. По суті, це копії всієї сторінки або її певної частини, доступні за унікальним URL-адресами.

Що призводить до появи дублів на сайті:

Автоматична генерація дублюючих сторінок движком системи управління вмістом сайту (CMS) веб-ресурсу. наприклад:
http://site.net/press-centre/cat/view/identifier/novyny/
http://site.net/press-centre/novyny/
Помилки, допущені веб-майстрами. Наприклад, коли один і той же товар представлений в декількох категоріях і доступний за різними URL:
http://site.net/category-1/product-1/
http://site.net/category-2/product-1/
Зміна структури сайту, коли вже існуючим сторінкам присвоюються нові адреси, але при цьому зберігаються їхні дублі зі старими адресами. наприклад:
http://site.net/catalog/product
http://site.net/catalog/category/product

Є два типи дублів: повні та часткові.

Що таке повні дублі?

Повні дублі - це інтернет сторінки з ідентичним вмістом, доступні за унікальними, неоднаковими адресами. Приклади повних дублів:

1. URL-адреси сторінок зі Слеш ( «/», «//», «///») і без них в кінці:
http://site.net/catalog///product; http://site.net/catalog//////product.

2. HTTP і HTTPS сторінки: https // site.net; http // site.net.

3. Адреси з «www» і без «www»: http // www.site.net; http // site.net.

4. URL сторінок з index.php, index.html, index.htm, default.asp, default.aspx, home:
http://site.net/index.html;
http://site.net/index.php;
http://site.net/home.

5. URL-адреси сторінок у верхньому і нижньому регістрах:
http://site.net/example/;
http://site.net/EXAMPLE/;
http://site.net/Example/.

6. Зміни в ієрархічній структурі URL. Наприклад, якщо товар доступний за кількома різними URL:
http://site.net/catalog/dir/tovar;
http://site.net/catalog/tovar;
http://site.net/tovar;
http://site.net/dir/tovar.

7. Додаткові параметри і мітки в URL.

URL з GET параметрами: http://site.net/index.php?example=10&product=25. Сторінка повністю відповідає наступній: http://site.net/index.php?example=25&cat=10.
Наявність utm-міток і параметрів gclid. Utm-мітки допомагають надати в систему аналітики інформацію для аналізу і відстеження різних параметрів трафіку. URL цільової сторінки, до якої додаються utm-мітки, виглядають так:
http://www.site.net/?utm_source=adsite&utm_campaign=adcampaign&utm_term=adkeyword
Параметри gclid (Google Click Identifier). Позначка цільових URL, яка додається автоматично для відстеження даних про компанії, канали та ключові слова в Google Analytics. Наприклад, якщо переходять по вашій об'яві для сайту http://site.net, то адреса переходу відвідувача буде виглядати так:
http://site.net/?gclid=123xyz.
Мітка openstat. З її допомогою роблять аналіз ефективності рекламних кампаній, аналіз сайту на відвідуваність і поведінку користувачів на сайті. Посилання з міткою «openstat»:
http://site.net/?_openstat=231645789.
Дублі, які створюються реферальним посиланням. Реферальне посилання - це спеціальне посилання з вашим ідентифікатором, по якому сайти розпізнають, від кого прийшов новий відвідувач. наприклад:
https://site.net/register/?refid=398992;
http://site.net/index.php?cf=reg-newr&ref=Uncertainty.

8. Перша сторінка пагінації каталогу товарів інтернет-магазину або дошки оголошень, блогу. Вона часто відповідає сторінці категорії або загальній сторінці розділу pageall: http://site.net/catalog; http://site.net/catalog/page1.

9. Неправильні налаштування 404 помилки призводять до появи численних дублів. Наприклад:
http://site.net/rococro-23489-rocoroc; http: //site.net/8888- ???.

Виділений жирним текст може вміщати будь-які символи і/або цифри. Сторінки такого виду повинні віддавати код відповіді сервера 404 (не 200) або ж перенаправляти на актуальну сторінку.

Що таке часткові дублі?

У частково дубльованих сторінок контент однаковий, але є невеликі відмінності в елементах.

Види часткових дублів:

1. Дублі на картках товарів і сторінках категорій (каталогів). Тут дублі виникають через описи товарів, які представлені на спільній сторінці товарів в каталозі. І ті ж описи представлені на сторінках карток товарів.

Щоб уникнути дубля, не показуйте повну інформацію про товари на сторінці категорії (каталогу). Або ж за допомогою неповторюваного опису.

2. Дублі на сторінках фільтрів, сортувань, пошуку і сторінках пагінації, де є схожий вміст і змінюється тільки порядок розміщення. При цьому текст опису і заголовки не змінюються.

3. Дублі на сторінках для друку або для скачування, дані яких повністю відповідають основним сторінкам. наприклад:
http://site.net/novyny/novyna1
http://site.net/novyny/novyna1/print

Часткові дублі важче виявити. Але наслідки від них проявляються систематично і негативно відбиваються на ранжуванні сайту.

До чого призводять дублі сторінок на сайті

Дублі можуть з'явитися незалежно від віку і кількості сторінок на сайті. Відвідувачу вони не завадять отримати потрібну інформацію. Зовсім інша ситуація з роботами пошукових систем. Оскільки URL різні, пошукові сайти сприймають такі сторінки як різні. Наслідком великої кількості дублюючого контенту стають:

Проблеми з індексацією. Під час генерування дублюючих сторінок збільшується загальний розмір сайту. Боти, індексуючи «зайві» сторінки, неефективно витрачають краулінговий бюджет власника веб-ресурсу. «Потрібні» сторінки можуть зовсім не потрапити в індекс. Нагадаємо, що краулінговий бюджет це кількість сторінок, яку бот може просканувати за один візит на сайт.
Зміни релевантної сторінки у видачі. Алгоритм пошукової системи може вирішити, що дубль більше підходить за запитом. Тому в результатах видачі він покаже не ту сторінку, просування якої планувалося. Інший підсумок: через конкуренцію між дубль-сторінками, жодна з них не потрапить в видачу.
Втрата посилальної ваги сторінок, які просуваються. Відвідувачі будуть посилатися на дублі, а не на оригінали сторінок. Результат - втрата природної посилальної маси.

Інструменти для пошуку дубльованих сторінок

Отже, ми вже з'ясували, що таке дублі, якими вони бувають і до чого призводять. А тепер перейдемо до того, як їх виявити. Ось кілька ефективних способів:

Використання пошукових операторів

Для пошуку дублів можна проаналізувати сторінки, які вже проіндексовані, використовуючи пошуковий оператор «site:". Для цього в пошуковий рядок, наприклад Google, вводимо запит «site: examplesite.net». Він покаже сторінки сайту в загальному індексі.

Переглянувши видачу, ви виявите, що повторюються сторінки, а також «сміттєві» сторінки, які потрібно видалити з індексу.

Також можна скористатися пошуком для аналізу видачі за визначеним фрагментом тексту зі сторінок, які, на вашу думку, можуть мати дублі. Для цього беремо в лапки частину тексту, після нього ставимо пробіл, оператор «site:» і вводимо в рядок пошуку. Необхідно вказати ваш сайт, щоб знайти сторінки, на яких присутній саме цей текст. наприклад:

«Фрагмент тексту зі сторінки сайту, яка може мати дублі» site: examplesite.net

Якщо в результатах пошуку одна інтернет сторінка, значить у неї наразі немає дублів. Якщо ж у видачі кілька сторінок, необхідно проаналізувати їх і визначити причини дублювання тексту. Можливо, це і є дублі, від яких необхідно позбутися.

Аналогічним чином, використовуючи оператор «intitle:», аналізуємо вміст «Title» на сторінках у видачі. Дублювання «Title» буває ознакою дублюючих сторінок. Щоб перевірити, використовуємо пошуковий оператор «site:». При цьому вводимо запит у вигляді:

site: examplesite.net intitle: повний або частковий текст тега Title.

Ось як це виглядає:

Використовуючи оператори «site» і «inurl», можна визначити дублі сторінок, які виникли на сторінках сортувань (sort) або на сторінках фільтрів і пошуку (filter, search).

Наприклад, для пошуку сторінок сортувань, в пошуковому рядку потрібно прописати: site:examplesite.net inurl:sort.

Для пошуку сторінок фільтрів і пошуку: site:examplesite.net inurl:filter, search.

Запам'ятайте, пошукові оператори показують тільки ті дублі, які вже були проіндексовані. Тому не можна повністю покладатися на цей метод.

Використання Google Search Console.

У цій панелі для вебмайстрів в розділі меню «Оптимізація HTML» будуть відображатися сторінки, на яких «Title» і «Description» повторюються.

Як позбутися від дублів

Ми вже розглянули, що таке дублі, види, наслідки дублів і як їх знайти. Тепер переходимо до найцікавішого як же зробити так, щоб вони перестали шкодити оптимізації. Використовуємо методи усунення дублів сторінок:

301 редірект.

Вважається основним методом усунення повних дублів. 301 редірект виконує автоматичне переадресування з однієї сторінки сайту на іншу. За налаштованим редіректом, боти бачать, що з даного URL сторінка більше не доступна і перенесена на іншу адресу.

301 редірект дозволяє передати основній сторінці контрольну вагу з дублюючої сторінки.

Цей метод актуальний для усунення дублів, які з'являються тому, що:

URL в різних регістрах
ієрархії URL
визначення основного дзеркала сайту
проблем з використанням слешів в URL

Наприклад, 301 редірект використовують для перенаправлення зі сторінок http://site.net/catalog///product;
http://site.net/catalog//////product;
http://site.net/product на сторінку http://site.net/catalog/product.

файл robots.txt

За допомогою методу ми рекомендуємо пошуковим роботам, які сторінки або файли не варто сканувати.

Для цього необхідно використовувати директиву «Disallow», яка забороняє пошуковим роботам заходити на непотрібні сторінки.
User-agent: *
Disallow:/storinca

Відзначимо, якщо сторінка зазначена в robots.txt з директивою Disallow, ця сторінка все одно може виявитися у видачі. Чому? Вона була проіндексована раніше, або ж на неї є внутрішні або зовнішні посилання. Інструкції robots.txt носять рекомендаційний характер для пошукових роботів. Вони не можуть гарантувати видалення дублів.

Атрибути html rel="next" і rel="prev".

Google рекомендує використовувати цей метод, щоб дублі не з'явилися на сторінках пагінації.

За допомогою rel="next" і rel="prev" можна пов'язати між собою URL окремих сторінок. Пошуковики будуть розпізнавати контент цих сторінок як один великий сувій, а не окремі URL.

Для цього на першій сторінці (http://site.net/catalog-page1) необхідно розмістити в розділі <head> (http://site.net/catalog-page1) тег, який вказує яка сторінка буде наступною:
<Link rel = "next" href = "http://site.net/catalog-page2.html">

З огляду на те, що це перша сторінка, додавати потрібно лише rel = "next". На всіх наступних сторінках додаємо і атрибут rel = "next", і rel = "prev", які будуть вказувати на попередній і наступний URL. Наприклад, на другій сторінці (http://site.net/catalog-page2) потрібно додати посилання:
<Link rel = "prev" href = "http://site.net/catalog-page1">
<Link rel = "next" href = "http://site.net/catalog-page3">

На завершальній сторінці (http://site.net/catalog-pageN), як і на першій, необхідно вказати тільки один атрибут. Важливо: в даному випадку він вказує на попередній URL:
<Link rel = "prev" href = "http://site.net/catalog-pageN-1">

Відзначимо:

rel = "prev" і rel = "next" не є для Google директивами, це лише допоміжні атрибути
важливо стежити за коректністю генерації тегів і дотримуватися чіткої послідовності між сторінками пагінації, щоб не створювати нескінченні ланцюжки

Метатег <meta name = "robots" content = "noindex, nofollow" і "meta name =" robots "content =" noindex, follow>

Метатег <meta name = "robots" content = "noindex, nofollow> вказує роботу не індексувати документ і не переходити за посиланнями. На відміну від robots.txt, цей метатег пряма команда і вона не буде ігноруватися пошуковими роботами.

Метатег <meta name = "robots" content = "noindex, follow> вказує роботу не індексувати документ, але при цьому переходити за посиланнями розміщеним в ньому.

Для використання методу, необхідно розмістити на дублюючих сторінках в блоці <head> один з метатегів:
<Meta name = "robots" content = "noindex, nofollow" />
або ж аналогічний:
<meta name = "robots" content = "none" />;
<Meta name = "robots" content = "noindex, follow" />.

Атрибут rel="canonical"

Використовуйте метод, коли видаляти сторінку не можна і її потрібно залишити відкритою для перегляду.

Тег для усунення дублів на сторінках фільтрів і сортувань, сторінках з get-параметрами і utm-мітками. Застосовується для друку, при використанні однакового інформаційного змісту на різних мовних версіях і на різних доменах.

Вказуючи канонічне посилання, ми вказуємо адресу сторінки, кращої для індексації. Наприклад, на сайті є категорія «Ноутбуки». У ній фільтри, які показують різні параметри вибору. А саме: бренд, колір, роздільна здатність екрану, матеріал корпусу і т.д. Якщо ці сторінки фільтрів не будуть просуватися, то для них канонічною вказуємо загальну сторінку категорії.

Як задати канонічну сторінку? У HTML-код поточної сторінки поміщаємо атрибут rel="canonical" між тегами <head> ... </head>. Наприклад, для сторінок:
http://site.net/index.php?example=10&product=25;
http://site.net/example?filtr1=%5b%25D0%,filtr2=%5b%25D0%259F%;
http://site.net/example/print.

Канонічної буде сторінка http://site.net/example.

В HTML коді це буде виглядати так: <link rel = "canonical" href="http://site.net/example" />.

Висновки

1. Дублі - окремі сторінки сайту, контент яких повністю або частково збігається.

2. Причини виникнення дублів на сайті: автоматична генерація, помилки, допущені веб-майстрами, зміна структури сайту.

3. До чого призводять дублі на сайті: індексація, в тому числі і мобільна, стає гіршою; зміни релевантної сторінки в пошуковій видачі; втрата природньої посилальної маси сторінок, які просуваються.

4. Методи пошуку дублів: використання пошукового оператора site; панелі для вебмайстрів Google Webmasters Tools.

5. Інструменти усунення дублів: відповідні команди у файлі robots.txt; атрибути rel="next" і rel="prev"; тег meta name="robots" content="noindex, nofollow"; тег rel="canonical"; 301 редірект.

Усунули дублюючий контент? Тепер необхідно перевірити сайт ще раз. Так ви побачите ефективність проведених дій, оцініть результативність обраного методу. Аналіз сайту на дублі рекомендуємо проводити регулярно. Тільки так можна вчасно визначити і усунути помилки.

Фото: flickr.com
Обробка: Vinci

Menu

Що таке внутрішні дублі сторінок і як з ними боротися