Co to jest mapa witryny XML?

Mapa witryny XML to plik strukturalny, który informuje wyszukiwarki, które strony witryny są dostępne do przeszukiwania. Zgodna jest z protokołem zdefiniowanym przez Google, Bing, Yahoo i Ask.com na stronie sitemaps.org i wykorzystuje standardowy format XML z określoną przestrzenią nazw. Mapy witryny pomagają wyszukiwarkom odkrywać zawartość bardziej efektywnie — szczególnie dla dużych witryn, nowych stron lub stron z niewielką liczbą linków przychodzących.

Istnieją dwa typy plików mapy witryny: zestaw adresów URL (<urlset>), który zawiera listę poszczególnych adresów URL, oraz indeks mapy witryny (<sitemapindex>), który grupuje wiele plików mapy witryny. Oba muszą być zgodne z tą samą przestrzenią nazw i regułami strukturalnymi, aby być rozpoznane przez wyszukiwarki.

Opis narzędzia

To narzędzie weryfikuje pliki mapy witryny XML bezpośrednio z wejścia tekstowego. Wklej swoją mapę witryny XML, a narzędzie natychmiast sprawdzi, czy jest zgodna ze standardem sitemaps.org. Weryfikuje strukturę XML, element główny, przestrzeń nazw i wszystkie elementy podrzędne — zgłaszając wszelkie problemy z precyzyjnymi komunikatami o błędach, w tym numer dotkniętego adresu URL.

Przykłady

Prawidłowa mapa witryny urlset:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2024-01-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <changefreq>yearly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Wynik: Prawidłowa — Typ: Zestaw adresów URL, liczba adresów URL: 2


Nieprawidłowa mapa witryny (błędna przestrzeń nazw):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.8">
  <url>
    <loc>https://example.com/</loc>
  </url>
</urlset>

Wynik: NieprawidłowaNieprawidłowa przestrzeń nazw. Oczekiwano "http://www.sitemaps.org/schemas/sitemap/0.9", otrzymano "http://www.sitemaps.org/schemas/sitemap/0.8"


Nieprawidłowa mapa witryny (błędny priorytet):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <priority>1.5</priority>
  </url>
</urlset>

Wynik: NieprawidłowaAdres URL #1: nieprawidłowy <priority> — "1.5" (musi być 0.0–1.0)

Funkcje

  • Weryfikuje oba typy mapy witryny: <urlset> i <sitemapindex>
  • Sprawdza składnię XML, nazwę elementu głównego i przestrzeń nazw sitemaps.org
  • Weryfikuje każdy <loc> pod kątem obecności i prawidłowo sformułowanego formatu adresu URL
  • Weryfikuje <lastmod> względem formatów dat W3C, <changefreq> względem listy dozwolonych wartości i <priority> w zakresie 0.0–1.0
  • Zgłasza błędy dla każdego wpisu adresu URL z numerami indeksu ułatwiającymi lokalizację

Przypadki użycia

  • Przed przesłaniem do Google Search Console: sprawdź, czy mapa witryny jest prawidłowo strukturalna, aby nie została odrzucona podczas indeksowania.
  • Debugowanie kodu generującego mapę witryny: wyłapuj problemy, takie jak brakujące elementy <loc>, błędne przestrzenie nazw lub wartości priorytetu poza zakresem generowane przez wtyczki CMS lub skrypty niestandardowe.
  • Weryfikacja plików indeksu mapy witryny: potwierdź, że konfiguracja wielomapy prawidłowo odwołuje się do map witryny podrzędnych z prawidłowymi adresami URL.

Jak to działa

Narzędzie analizuje wklejony tekst jako XML przy użyciu wbudowanego DOMParser przeglądarki. Następnie sprawdza:

  1. Poprawność XML — każdy błąd analizy jest zgłaszany dosłownie
  2. Element główny — musi być <urlset> lub <sitemapindex>
  3. Przestrzeń nazw — musi być dokładnie http://www.sitemaps.org/schemas/sitemap/0.9
  4. Reguły dla każdego wpisu (dla każdego <url> lub <sitemap>):
    • <loc>: wymagany, musi być parsowaniem adresu URL
    • <lastmod>: opcjonalny; jeśli jest obecny, musi być zgodny z formatem daty i godziny W3C (np. 2024-01-15 lub 2024-01-15T10:00:00Z)
    • <changefreq>: opcjonalny; musi być jedną z wartości: always, hourly, daily, weekly, monthly, yearly, never
    • <priority>: opcjonalny; musi być liczbą między 0.0 a 1.0

Ograniczenia

  • Weryfikacja odbywa się całkowicie w przeglądarce — nie są wykonywane żadne zewnętrzne żądania HTTP, więc adresy URL <loc> są sprawdzane tylko pod względem formatu, a nie dostępności.
  • Nie weryfikuje rozszerzeń mapy witryny (mapa witryny obrazów, mapa witryny wideo, mapa witryny wiadomości) poza podstawową przestrzenią nazw.
  • Maksymalny rozmiar wejścia jest ograniczony pamięcią przeglądarki; bardzo duże mapy witryny (100 000+ adresów URL) mogą być wolne w przetwarzaniu.

Często zadawane pytania

Czy to narzędzie pobiera moje adresy URL, aby sprawdzić, czy działają? Nie. Cała weryfikacja odbywa się lokalnie w Twojej przeglądarce. Adresy URL są sprawdzane tylko pod względem prawidłowego formatu, a nie statusu HTTP ani zawartości.

Jakie formaty <lastmod> są akceptowane? Dowolny format daty i godziny W3C: YYYY, YYYY-MM, YYYY-MM-DD, YYYY-MM-DDThh:mmTZD lub YYYY-MM-DDThh:mm:ssTZD.

Moja mapa witryny używa rozszerzeń obrazów lub wideo — czy będą one weryfikowane? Struktura podstawowa (przestrzeń nazw, <loc> itp.) jest weryfikowana. Elementy z przestrzeni nazw rozszerzeń (obraz, wideo, wiadomości) nie są sprawdzane, ale nie spowodują niepowodzenia weryfikacji.