Что такое sitemap XML?

Sitemap XML — это структурированный файл, который сообщает поисковым системам, какие страницы веб-сайта доступны для сканирования. Он следует протоколу, определённому Google, Bing, Yahoo и Ask.com на sitemaps.org, и использует стандартный формат XML с определённым пространством имён. Карты сайта помогают поисковым системам более эффективно обнаруживать контент — особенно для больших сайтов, новых страниц или страниц с небольшим количеством входящих ссылок.

Существует два типа файлов карты сайта: набор URL (<urlset>), который перечисляет отдельные URL, и индекс карты сайта (<sitemapindex>), который группирует несколько файлов карты сайта вместе. Оба должны соответствовать одному и тому же пространству имён и структурным правилам, чтобы быть распознанными поисковыми системами.

Описание инструмента

Этот инструмент проверяет файлы sitemap XML непосредственно из текстового ввода. Вставьте вашу карту сайта XML, и инструмент мгновенно проверит, соответствует ли она стандарту sitemaps.org. Он проверяет структуру XML, корневой элемент, пространство имён и все дочерние элементы — сообщая о любых проблемах с точными сообщениями об ошибках, включая номер затронутого URL.

Примеры

Корректная карта сайта urlset:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2024-01-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <changefreq>yearly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Результат: Корректно — Тип: URL Set, количество URL: 2


Некорректная карта сайта (неправильное пространство имён):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.8">
  <url>
    <loc>https://example.com/</loc>
  </url>
</urlset>

Результат: НекорректноInvalid namespace. Expected "http://www.sitemaps.org/schemas/sitemap/0.9", got "http://www.sitemaps.org/schemas/sitemap/0.8"


Некорректная карта сайта (неправильный приоритет):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <priority>1.5</priority>
  </url>
</urlset>

Результат: НекорректноURL #1: invalid <priority> — "1.5" (must be 0.0–1.0)

Возможности

  • Проверяет оба типа карт сайта: <urlset> и <sitemapindex>
  • Проверяет синтаксис XML, имя корневого элемента и пространство имён sitemaps.org
  • Проверяет каждый <loc> на наличие и корректный формат URL
  • Проверяет <lastmod> по форматам дат W3C, <changefreq> по списку допустимых значений и <priority> в диапазоне 0.0–1.0
  • Сообщает об ошибках для каждой записи URL с номерами индексов для удобного поиска

Варианты использования

  • Перед отправкой в Google Search Console: проверьте, что ваша карта сайта правильно структурирована, чтобы она не была отклонена при индексировании.
  • Отладка кода генерации карты сайта: выявляйте проблемы, такие как отсутствующие элементы <loc>, неправильные пространства имён или значения приоритета вне диапазона, создаваемые плагинами CMS или пользовательскими скриптами.
  • Проверка файлов индекса карты сайта: убедитесь, что многоуровневая установка карты сайта правильно ссылается на дочерние карты сайта с корректными URL.

Как это работает

Инструмент анализирует вставленный текст как XML, используя встроенный в браузер DOMParser. Затем он проверяет:

  1. Корректность XML — любая ошибка анализа сообщается в полном объёме
  2. Корневой элемент — должен быть <urlset> или <sitemapindex>
  3. Пространство имён — должно быть точно http://www.sitemaps.org/schemas/sitemap/0.9
  4. Правила для каждой записи (для каждого <url> или <sitemap>):
    • <loc>: обязателен, должен быть анализируемым URL
    • <lastmod>: необязателен; если присутствует, должен соответствовать формату даты-времени W3C (например, 2024-01-15 или 2024-01-15T10:00:00Z)
    • <changefreq>: необязателен; должен быть одним из: always, hourly, daily, weekly, monthly, yearly, never
    • <priority>: необязателен; должен быть числом от 0.0 до 1.0

Ограничения

  • Проверка выполняется полностью в браузере — внешние HTTP-запросы не выполняются, поэтому URL в <loc> проверяются только по формату, а не по доступности.
  • Не проверяет расширения карты сайта (карта сайта изображений, карта сайта видео, карта сайта новостей) за пределами основного пространства имён.
  • Максимальный размер ввода ограничен памятью браузера; очень большие карты сайта (100 000+ URL) могут обрабатываться медленно.

Часто задаваемые вопросы

Этот инструмент загружает мои URL для проверки их работоспособности? Нет. Вся проверка выполняется локально в вашем браузере. URL проверяются только на правильность формата, а не на HTTP-статус или содержимое.

Какие форматы <lastmod> принимаются? Любой формат даты-времени W3C: YYYY, YYYY-MM, YYYY-MM-DD, YYYY-MM-DDThh:mmTZD или YYYY-MM-DDThh:mm:ssTZD.

Моя карта сайта использует расширения для изображений или видео — будут ли они проверены? Основная структура (пространство имён, <loc> и т. д.) проверяется. Элементы из пространств имён расширений (изображение, видео, новости) не проверяются, но не вызовут ошибку проверки.