Mis on sitemap XML?

Sitemap XML on struktureeritud fail, mis ütleb otsingumootoritele, millised veebisaidi lehed on saadaval crawlimiseks. See järgib protokolli, mille on määratlenud Google, Bing, Yahoo ja Ask.com aadressil sitemaps.org, ja kasutab standardset XML-vormingut koos konkreetse nimeruumiga. Sitemapid aitavad otsingumootoritel sisu tõhusamalt avastada — eriti suurte saitide, uute lehtede või lehtede puhul, millel on vähe sissetulevaid linke.

Sitemapi faile on kahte tüüpi: URL-i komplekt (<urlset>), mis loetleb üksikuid URL-e, ja sitemap indeks (<sitemapindex>), mis rühmitab mitut sitemapi faili kokku. Mõlemad peavad vastama samale nimeruumile ja struktuurireeglitele, et otsingumootor neid tunnistaks.

Tööriista kirjeldus

See tööriist valideerib sitemap XML-faile otse tekstisisestuse põhjal. Kleepige oma sitemap XML ja tööriist kontrollib kohe, kas see vastab sitemaps.org standardile. See kontrollib XML-struktuuri, juurielementi, nimeruumi ja kõiki alamelemente — teatades probleemidest täpsete veateadetega, mis sisaldavad mõjutatud URL-i numbrit.

Näited

Kehtiv urlset sitemap:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2024-01-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <changefreq>yearly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Tulemus: Kehtiv — Tüüp: URL-i komplekt, URL-ide arv: 2


Kehtetu sitemap (vale nimeruumi):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.8">
  <url>
    <loc>https://example.com/</loc>
  </url>
</urlset>

Tulemus: KehtetuInvalid namespace. Expected "http://www.sitemaps.org/schemas/sitemap/0.9", got "http://www.sitemaps.org/schemas/sitemap/0.8"


Kehtetu sitemap (vale prioriteet):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <priority>1.5</priority>
  </url>
</urlset>

Tulemus: KehtetuURL #1: invalid <priority> — "1.5" (must be 0.0–1.0)

Funktsioonid

  • Valideerib nii <urlset> kui ka <sitemapindex> sitemapi tüüpe
  • Kontrollib XML-süntaksit, juurielemendi nime ja sitemaps.org nimeruumi
  • Valideerib iga <loc> olemasolu ja korrektselt vormindatud URL-i formaati
  • Kontrollib <lastmod> vastu W3C kuupäevavormingutele, <changefreq> vastu lubatud väärtuste loendile ja <priority> vahemikus 0,0–1,0
  • Teatab vigadest URL-i kirje kohta indeksinumbritega lihtsa asukoha määramise jaoks

Kasutusjuhud

  • Enne Google Search Consolesse esitamist: kontrollige, et teie sitemap on õigesti struktureeritud, et seda ei lükataks indexeerimise ajal tagasi.
  • Sitemap genereerimise koodi silumine: püükige kinni probleemid nagu puuduvad <loc> elemendid, valad nimeruumid või väljaspool vahemikku jäävad prioriteedi väärtused, mille on tekitanud CMS pistikud või kohandatud skriptid.
  • Sitemap indeksi failide valideerimine: kinnitage, et mitme sitemapi seadistus viitab õigesti alamsitemapidele kehtivate URL-idega.

Kuidas see toimib

Tööriist parsib kleebitud teksti XML-ina, kasutades brauseri sisseehitatud DOMParser. Seejärel kontrollib:

  1. XML korrektsus — kõik parsimise vead teatakse sõna-sõnalt
  2. Juurielement — peab olema <urlset> või <sitemapindex>
  3. Nimeruumi — peab olema täpselt http://www.sitemaps.org/schemas/sitemap/0.9
  4. Kirje kohta kehtivad reeglid (iga <url> või <sitemap> jaoks):
    • <loc>: nõutav, peab olema parseritav URL
    • <lastmod>: valikuline; kui see on olemas, peab vastama W3C kuupäeva-kellaaja vormingule (nt 2024-01-15 või 2024-01-15T10:00:00Z)
    • <changefreq>: valikuline; peab olema üks järgmistest: always, hourly, daily, weekly, monthly, yearly, never
    • <priority>: valikuline; peab olema arv vahemikus 0,0 kuni 1,0

Piirangud

  • Valideerimine käib täielikult brauseris — väliseid HTTP-päringuid ei tehta, seega <loc> URL-e kontrollitakse ainult vormingu järgi, mitte kättesaadavuse järgi.
  • Ei valideeri sitemap laiendusi (pildisitemap, videositemap, uudistesitemap) peamise nimeruumi ületamisel.
  • Maksimaalne sisestuse suurus on piiratud brauseri mäluga; väga suured sitemapid (100 000+ URL-i) võivad töötada aeglaselt.

KKK

Kas see tööriist toob minu URL-e, et kontrollida, kas need toimivad? Ei. Kogu valideerimine toimub teie brauseris kohalikult. URL-e kontrollitakse ainult õige vormingu järgi, mitte HTTP-staatuse või sisu järgi.

Millised <lastmod> vormingud on aktsepteeritud? Iga W3C kuupäeva-kellaaja vorming: YYYY, YYYY-MM, YYYY-MM-DD, YYYY-MM-DDThh:mmTZD või YYYY-MM-DDThh:mm:ssTZD.

Minu sitemap kasutab pildi- või videolaiendusi — kas neid valideeritakse? Peamine struktuur (nimeruumi, <loc> jne) valideeritakse. Laienduse nimeruumidest pärit elemente (pilt, video, uudised) ei kontrollita, kuid need ei põhjusta valideerimise ebaõnnestumist.