Какво е sitemap XML?

Sitemap XML е структуриран файл, който казва на търсачките кои страници на един уебсайт са налични за сканиране. Той следва протокол, дефиниран от Google, Bing, Yahoo и Ask.com на sitemaps.org, и използва стандартен XML формат със специално пространство от имена. Sitemap файловете помагат на търсачките да открият съдържание по-ефективно — особено за големи сайтове, нови страници или страници с малко входящи връзки.

Има два типа sitemap файлове: URL набор (<urlset>), който изброява отделни URL адреси, и sitemap индекс (<sitemapindex>), който групира множество sitemap файлове заедно. И двата трябва да отговарят на същото пространство от имена и структурни правила, за да бъдат разпознати от търсачките.

Описание на инструмента

Този инструмент валидира sitemap XML файлове директно от текстов вход. Поставете вашия sitemap XML и инструментът незабавно проверява дали отговаря на стандарта sitemaps.org. Той проверява XML структурата, коренния елемент, пространството от имена и всички дъщерни елементи — докладвайки всички проблеми с точни съобщения за грешки, включително номера на засегнатия URL.

Примери

Валиден urlset sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2024-01-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <changefreq>yearly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Резултат: Валиден — Тип: URL набор, брой URL адреси: 2


Невалиден sitemap (грешно пространство от имена):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.8">
  <url>
    <loc>https://example.com/</loc>
  </url>
</urlset>

Резултат: НевалиденНевалидно пространство от имена. Очаквано "http://www.sitemaps.org/schemas/sitemap/0.9", получено "http://www.sitemaps.org/schemas/sitemap/0.8"


Невалиден sitemap (лоша приоритетност):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <priority>1.5</priority>
  </url>
</urlset>

Резултат: НевалиденURL #1: невалидна <priority> — "1.5" (трябва да е 0.0–1.0)

Функции

  • Валидира както <urlset>, така и <sitemapindex> типове sitemap
  • Проверява XML синтаксис, име на коренния елемент и пространство от имена на sitemaps.org
  • Валидира всеки <loc> за наличие и добре оформен URL формат
  • Проверява <lastmod> спрямо W3C формати на дати, <changefreq> спрямо списъка на разрешени стойности и <priority> в диапазона 0.0–1.0
  • Докладва грешки за всеки URL запис с индексни номера за лесно намиране

Случаи на употреба

  • Преди подаване в Google Search Console: проверете дали вашият sitemap е правилно структуриран, така че да не бъде отхвърлен по време на индексиране.
  • Отстраняване на грешки в код за генериране на sitemap: хванете проблеми като липсващи <loc> елементи, грешни пространства от имена или стойности на приоритетност извън диапазона, произведени от CMS плъгини или персонализирани скриптове.
  • Валидиране на sitemap индекс файлове: потвърдете, че многоситемап конфигурацията правилно референцира дъщерни sitemap файлове с валидни URL адреси.

Как работи

Инструментът анализира поставения текст като XML, използвайки вградения DOMParser на браузъра. След това проверява:

  1. XML добре оформеност — всяка грешка при анализ се докладва дословно
  2. Коренен елемент — трябва да е <urlset> или <sitemapindex>
  3. Пространство от имена — трябва да е точно http://www.sitemaps.org/schemas/sitemap/0.9
  4. Правила за всеки запис (за всеки <url> или <sitemap>):
    • <loc>: задължителен, трябва да е анализируем URL
    • <lastmod>: незадължителен; ако присъства, трябва да отговаря на W3C формат на дата и час (например 2024-01-15 или 2024-01-15T10:00:00Z)
    • <changefreq>: незадължителен; трябва да е един от always, hourly, daily, weekly, monthly, yearly, never
    • <priority>: незадължителен; трябва да е число между 0.0 и 1.0

Ограничения

  • Валидирането работи изцяло в браузъра — не се правят външни HTTP заявки, така че URL адресите в <loc> се проверяват само за формат, не за достъпност.
  • Не валидира sitemap разширения (image sitemap, video sitemap, news sitemap) извън основното пространство от имена.
  • Максималният размер на входа е ограничен от паметта на браузъра; много големи sitemap файлове (100 000+ URL адреса) могат да бъдат бавни за обработка.

ЧЗВ

Този инструмент ли извлича моите URL адреси, за да провери дали работят? Не. Всяка валидация се извършва локално в вашия браузър. URL адресите се проверяват само за правилен формат, не за HTTP статус или съдържание.

Кои <lastmod> формати се приемат? Всеки W3C формат на дата и час: YYYY, YYYY-MM, YYYY-MM-DD, YYYY-MM-DDThh:mmTZD или YYYY-MM-DDThh:mm:ssTZD.

Моят sitemap използва image или video разширения — ще бъдат ли валидирани? Основната структура (пространство от имена, <loc> и т.н.) се валидира. Елементи от разширени пространства от имена (image, video, news) не се проверяват, но няма да причинят отказ при валидиране.