XML Sitemap: повне керівництво по використанню

XML Sitemap: повне керівництво по використанню

Sitemap

Файл sitemap.xml - це інструмент, який дозволяє веб-майстрам інформувати пошукові системи про сторінки сайту, доступні для індексації. Також, в XML мапі можна вказувати додаткові параметри сторінок: дата останнього оновлення, частота оновлень і пріоритет щодо інших сторінок. Інформація в sitemap.xml може впливати на поведінку пошукового краулера і, в цілому, на процес індексації нових документів. Sitemap містить в собі директиви включення сторінок в чергу на обхід і доповнює robots.txt, що містить директиви виключення сторінок.

У цьому керівництві ви знайдете відповіді на всі питання, що стосуються використання sitemap.xml.

Чи потрібен мені sitemap.xml

Пошукові системи використовують sitemap для пошуку нових документів на сайті (це можуть бути html-документи або медіа-контент), які недоступні через навігацію, але їх необхідно просканувати. Наявність посилання на документ в sitemap.xml не гарантує його сканування або індексацію, але частіше за все файл допомагає великим сайтам індексуватися краще. До того ж, дані з XML мапи використовуються при визначенні канонічних сторінок, якщо це спеціально не вказано в тезі rel=canonical.

Sitemap.xml важливий для сайтів, де:

  • Деякі розділи недоступні через навігаційне меню.
  • Є безліч ізольованих сторінок або погано пов'язаних між собою.
  • Використовуються технології, слабо підтримувані пошуковими системами (наприклад, Ajax, Flash або Silverlight).
  • Є дуже багато сторінок і є ймовірність, що пошуковий краулер пропустить новий контент.

Якщо це не ваші випадки, то скоріше за все sitemap.xml вам не потрібен. Для сайтів, де кожна важлива для індексації сторінка доступна в межах 2х кліків, де для відображення контенту не використовуються технології JavaScript або Flash, де при необхідності використовуються канонічні і регіональні теги, і свіжий контент з'являється не частіше, ніж на сайт заходить робот, в файлі sitemap.xml немає необхідності.

Для невеликих проектів при наявності проблеми лише великого рівня вкладеності документів, її легко вирішити за допомогою HTML мапи сайту, не вдаючись до використання XML мапи. Але якщо ви вирішили, що sitemap.xml вам все-таки потрібен, то прочитайте це керівництво повністю.

Технічна інформація

  • Sitemap.xml є текстовим файлом формату XML. Однак, пошукові системи також підтримують текстовий формат.
  • Кожен сайтмап може містити максимум 50 000 адрес і важити не більше 50 Мб.
  • Можна використовувати gzip-стиснення для зменшення розміру файлу sitemap.xml і збільшення швидкості його передачі. В такому випадку використовуйте розширення gz (sitemap.xml.gz). При цьому, обмеження по вазі залишаються для незтиснутих сайтмапів.
  • Місцезнаходження файлу Sitemap визначає набір URL-адрес, які можна включити в цей Sitemap. Мапа, яка містить адреси сторінок всього сайту, повинна розташовуватися в корені. Якщо сайтмап розташовується в папці, то і всі URL в цьому сайтмапі повинні розташовуватися в цій папці або глибше. Дивіться детальніше.
  • Адреси в sitemap.xml повинні бути абсолютними.
  • Максимальна довжина URL - 2048 символів.
  • Спецсимволи в URL (типу амперсанда "&" або лапок) повинні маскуватися в HTML-сутності.
  • Зазначені в мапі сторінки повинні віддавати 200 http-код статусу.
  • Перераховані в мапі адреси не повинні бути закриті в файлі robots.txt або в meta-robots.
  • Google sitemap не повинен бути закритий в robots.txt, інакше пошукова система його НЕ просканує. Сам файл може знаходитися в індексі, це нормально.

Формати XML мап

Пошукові системи підтримують простий текстовий формат мапи сайту, де просто списком перераховані URL-адреси сторінок без додаткових параметрів. В такому випадку файл повинен мати кодування UTF-8 і мати розширення .txt.

Формати XML мап

Також пошуковими системами підтримується стандартний XML-протокол. Google додатково підтримує сайтмапи для зображень, відео та новин.

Приклад файлу Sitemap, який містить лише одну адресу.

XML-теги

  • urlset (обов'язковий) - вказує стандарт поточного протоколу.
  • url (обов'язковий) - батьківський тег для кожної URL-адреси.
  • loc (обов'язковий) - URL-адреса документа, повинна бути абсолютною.
  • lastmod - дата останньої зміни документа в форматі Datetime.
  • changefreq - частота зміни сторінки (always, hourly, daily, weekly, monthly, yearly, never). Значення цього тега є рекомендацією пошуковим системам, а не командою.
  • priority - пріоритетність URL щодо інших адрес (від 0 до 1) для черговості сканування документів. Якщо не вказується, то за замовчуванням дорівнює 0.5.

XML мапа для зображень

Деякі оптимізатори вставляють в sitemap.xml посилання на зображення аналогічно посиланням на html-документи. Так можна робити, але краще для Google використовувати розширення стандартного протоколу і разом з урлами відправляти додаткову інформацію про зображення. Створювати XML мапи зображень корисно, якщо картинки необхідно сканувати та індексувати, і при цьому, вони безпосередньо не доступні боту (наприклад, використовується JavaScript).

Приклад мапи сайту, що містить одну сторінку і належне їй зображення

XML-теги

  • image:image (обов'язково) - інформація про одне зображення. Максимум може використовуватися 1000 зображень.
  • image:loc (обов'язково) - шлях до файлу зображення. Якщо використовується CDN, то допускається посилатися на інший домен, якщо він підтверджений в панелі для вебмайстрів.
  • image:caption - підпис до зображення (може міститися довгий текст).
  • image:title - назва зображення (зазвичай короткий текст).
  • image:geo_location - місце зйомки.
  • image:license - URL ліцензії зображення. Використовується при розширеному пошуку по картинках.
пошук  

Детальніше про файли Sitemap для зображень.

XML мапа для відео

Подібно мапі для зображень, Google також має розширення Google sitemap протоколу для відео, де можна вказувати детальну інформацію про відео-контент, що впливає на відображення в пошуку по відео. Відео-сайтмап необхідне, коли на сайті використовуються відео, які хостятся локально, і коли індексацію цих відео ускладнено через використовувані технології. Якщо ви на сайті впроваджуєте відео з YouTube, то video-sitemap тут не потрібен.

Детальніше про файли Sitemap для відео.

Файл Sitemap для новин

За наявності на сайті новинного контенту та участі в Google Новинах корисно використовувати Sitemap для новин, так Google буде швидше знаходити ваші свіжі матеріали і індексувати всі новинні статті. В цьому випадку Sitemap повинен містити тільки адреси сторінок, опублікованих за останні 2 дні і містити не більше 1000 урлів.

Детальніше про файли Sitemap для новин.

Використання декількох мап

За необхідності можна використовувати кілька мап сайтів, об'єднуючи їх в один індексний сайтмап. Кілька sitemap.xml використовуються у випадках, коли:

  • На сайті використовується кілька движків (CMS).
  • На сайті більше 50 000 сторінок.
  • Необхідно налаштувати зручне відстеження помилок в розділах.

В останньому випадку кожен великий розділ сайту має свій sitemap.xml і всі вони додаються в панель для вебмайстрів, де зручно спостерігати, в якому з розділів найбільше помилок.

Якщо у вас 2 і більше сайтмапа, їх необхідно об'єднати в індексний сайтмап, який виглядає так само як звичайний (за винятком наявності тегів sitemapindex і sitemap замість urlset і url), має аналогічні обмеження і може посилатися тільки на звичайні XML мапи (не на індексні).

Приклад Sitemap Index:

  • sitemapindex (обов'язковий) - вказує стандарт поточного протоколу.
  • sitemap (обов'язковий) - містить інформацію про окремий sitemap.
  • loc (обов'язковий) - місце розташування sitemap (в форматі xml, txt або rss для Google).
  • lastmod - час зміни сайтмапа. Дозволяє пошуковикам швидко виявляти нові URL на сайтах великих розмірів.

Як створити sitemap.xml

Методи створення XML Sitemap:

  • Внутрішні засоби CMS. Багато CMS вже підтримують створення мапи сайту. Щоб це з'ясувати, почитайте документацію до вашої CMS, подивіться пункти меню в адміністративній панелі або зверніться в техпідтримку движка. Завантажте на вашому сайті файл https://вашсайт.com/sitemap.xml, можливо він вже існує і динамічно формується.
  • Зовнішні плагіни. Якщо в CMS немає функціоналу генерації мапи сайту, і вона підтримує плагіни, погугліть, який з плагінів закриває питання sitemap.xml для вашого движка і встановіть його. У деяких випадках необхідно звернутися до програмістів, щоб вони написали вам подібний плагін.
  • Окремий скрипт на сайті. Знаючи протокол XML мапи і технічні обмеження, можна створити sitemap.xml самостійно, додавши скрипт генерації в CRON. Якщо ви не програміст, використовуйте інші пункти цього списку.
  • Генератори Sitemap. Існує безліч генераторів sitemap.xml, які сканують ваш сайт і дають скачати готову мапу. Недолік тут в тому, що при кожному оновленні сайту необхідно вручну генерувати сайтмап.
  • Парсери. Десктопні програми, призначені для технічного аналізу сайту, зазвичай надають можливість завантажити sitemap.xml, згенерований на основі просканованих сторінок. Працює аналогічно генераторам sitemap, тільки запускається локально на своїй машині.

Кириличні адреси в sitemap

Незважаючи на те, що sitemap протокол дозволяє використовувати тільки ASCII символи в URL, Google підтримує обидва формати для кириличних адрес, кодований і звичайний. Те ж саме з IDN-доменами, можна використовувати звичайний формат і Punycode. Однак, для сумісності вашого sitemap.xml з різними пошуковими системами і сервісами, рекомендується дотримуватися протоколу, кириличні домени кодувати в Punycode-формат (використовуйте цей конвертер), і використовувати маскування для кириличних адрес сторінок.

Punycode

Sitemap мультимовного і мультирегіонального сайту

Якщо ваш сайт є багатомовним або мультирегіональним, то Google підтримує розмітку hreflang безпосередньо в sitemap.xml. Для цього в мапі необхідно використовувати додаткові теги xhtml: link із зазначенням hreflang.

Приклад. Сайт використовує дві мови: англійську та українську. В такому випадку sitemap.xml для однієї зі сторінок буде виглядати наступним чином.

Як бачите, кожний мовний або регіональний URL повинен бути представлений в окремому тезі url. Чим більше мов на сайті, тим більше буде розростатися цей sitemap.

Якщо у сайту є безліч піддоменів, то кожен піддомен, як окремий сайт, повинен містити свій sitemap.xml. У цьому один з недоліків піддоменів структури сайту

Пошук помилок в мапі сайту

Під час створення XML мапи сайту, веб-майстрами часто допускаються такі помилки:

  • URL веде на сторінку, http-код статусу якої відмінний від 200 (наприклад, сторінки не існує або вона редірект на іншу сторінку). Необхідно залишити в sitemap.xml тільки існуючі сторінки.
  • URL веде на сторінку, яка закрита від індексації у файлі robots.txt. Тут необхідно розібратися, помилка в robots.txt або в sitemap.xml.
  • URL веде на сторінку, яка закрита тегом meta-robots noindex. Посилання в мапі сайту повинні вести тільки на сторінки, які доступні для індексації.
  • Помилки, що стосуються обмежень або невідповідностей стандартного протоколу.

Найпростіший спосіб перевірки сайтмапа - використовувати Screaming Frog в режимі списку (меню "Mode" - "List"). Завантажуєте sitemap і програма сама перевірить всі урли, в звітах буде видно, які віддаються коди статусів і закриті адреси від індексації.

брати маріо

Також можна використовувати Google Search Console. Тут корисно перевіряти свої мапи перед тим, як додати їх до панелі для вебмайстрів. А після додавання мапи до панелі, пошукові системи будуть повідомляти про наявність додаткових помилок вже після того, як просканує урли.

Рекомендований алгоритм перевірки на помилки:

  • Просканувати XML Sitemap за допомогою Screaming Frog, позбутися від усіх помилок.
  • Протестувати мапу сайту через Google Search Console.
  • Додати посилання на мапу в robots.txt і до панелі Google Search Console.
  • Періодично моніторити розділ в панелі з XML мапою.

Sitemap.xml при переході сайту на HTTPS

При переході сайту на HTTPS змінюється головне дзеркало і необхідно перевірити, що у вас дотримуються таких правил:

  • Новий sitemap.xml містить адреси з префіксом HTTPS.
  • Всі старі сайтмапи видалені з панелей для вебмайстрів та файлу robots.txt попередньої версії сайту.
  • Sitemap.xml на http-версії сайту редірект 301 кодом статусу на новий sitemap.xml на https-версії.
  • На сайті налаштований посторінковий 301 редірект на нову версію.

Різниця підтримки XML Sitemap в Google

Можливості Google
Максимальний розмір sitemap.xml 50 Мб
Максимальна довжина URL 2048 симв.
Підтримка Sitemap для зображень і відео є
Новинний Sitemap є
Використання кириличних урлів можна
Розмітка мовних версій сторінок є
Підтримка RSS/Atom фідів є
Фото: flickr.com
Обробка: Vinci
назад
далі