সাইটম্যাপ XML কী?

একটি সাইটম্যাপ XML হল একটি কাঠামোবদ্ধ ফাইল যা সার্চ ইঞ্জিনকে বলে যে একটি ওয়েবসাইটের কোন পৃষ্ঠাগুলি ক্রল করার জন্য উপলব্ধ। এটি Google, Bing, Yahoo এবং Ask.com দ্বারা sitemaps.org-এ সংজ্ঞায়িত একটি প্রোটোকল অনুসরণ করে এবং একটি নির্দিষ্ট namespace সহ একটি মান XML ফর্ম্যাট ব্যবহার করে। সাইটম্যাপগুলি সার্চ ইঞ্জিনকে কন্টেন্ট আরও দক্ষতার সাথে আবিষ্কার করতে সাহায্য করে — বিশেষত বড় সাইট, নতুন পৃষ্ঠা বা কম ইনবাউন্ড লিঙ্ক সহ পৃষ্ঠাগুলির জন্য।

দুটি ধরনের সাইটম্যাপ ফাইল রয়েছে: একটি URL সেট (<urlset>), যা পৃথক URL তালিকাভুক্ত করে, এবং একটি সাইটম্যাপ ইনডেক্স (<sitemapindex>), যা একাধিক সাইটম্যাপ ফাইলকে একসাথে গ্রুপ করে। উভয়কেই একই namespace এবং কাঠামোগত নিয়ম মেনে চলতে হবে যাতে সার্চ ইঞ্জিন দ্বারা স্বীকৃত হয়।

টুল বর্ণনা

এই টুলটি একটি টেক্সট ইনপুট থেকে সরাসরি সাইটম্যাপ XML ফাইলগুলি যাচাই করে। আপনার সাইটম্যাপ XML পেস্ট করুন এবং টুলটি তাৎক্ষণিকভাবে পরীক্ষা করে যে এটি sitemaps.org মান মেনে চলে কিনা। এটি XML কাঠামো, রুট উপাদান, namespace এবং সমস্ত চাইল্ড উপাদান যাচাই করে — প্রভাবিত URL সংখ্যা সহ নির্ভুল ত্রুটি বার্তা রিপোর্ট করে।

উদাহরণ

বৈধ urlset সাইটম্যাপ:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2024-01-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/about</loc>
    <changefreq>yearly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

ফলাফল: বৈধ — প্রকার: URL সেট, URL সংখ্যা: 2


অবৈধ সাইটম্যাপ (ভুল namespace):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.8">
  <url>
    <loc>https://example.com/</loc>
  </url>
</urlset>

ফলাফল: অবৈধঅবৈধ namespace। প্রত্যাশিত "http://www.sitemaps.org/schemas/sitemap/0.9", পেয়েছি "http://www.sitemaps.org/schemas/sitemap/0.8"


অবৈধ সাইটম্যাপ (খারাপ অগ্রাধিকার):

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/page</loc>
    <priority>1.5</priority>
  </url>
</urlset>

ফলাফল: অবৈধURL #1: অবৈধ <priority> — "1.5" (অবশ্যই 0.0–1.0 হতে হবে)

বৈশিষ্ট্য

  • <urlset> এবং <sitemapindex> উভয় সাইটম্যাপ প্রকার যাচাই করে
  • XML সিনট্যাক্স, রুট উপাদান নাম এবং sitemaps.org namespace পরীক্ষা করে
  • প্রতিটি <loc> উপস্থিতি এবং সুগঠিত URL ফর্ম্যাটের জন্য যাচাই করে
  • <lastmod> কে W3C তারিখ ফর্ম্যাটের বিপরীতে যাচাই করে, <changefreq> কে অনুমোদিত মান তালিকার বিপরীতে এবং <priority> কে 0.0–1.0 পরিসরের মধ্যে
  • সহজ অবস্থানের জন্য ইনডেক্স সংখ্যা সহ প্রতিটি URL এন্ট্রিতে ত্রুটি রিপোর্ট করে

ব্যবহারের ক্ষেত্র

  • Google Search Console-এ জমা দেওয়ার আগে: যাচাই করুন যে আপনার সাইটম্যাপ সঠিকভাবে কাঠামোবদ্ধ যাতে এটি ইনডেক্সিংয়ের সময় প্রত্যাখ্যান না হয়।
  • সাইটম্যাপ জেনারেশন কোড ডিবাগ করা: <loc> উপাদান অনুপস্থিত, ভুল namespace বা CMS প্লাগইন বা কাস্টম স্ক্রিপ্ট দ্বারা উত্পাদিত পরিসর বাইরের অগ্রাধিকার মান সহ সমস্যা ধরুন।
  • সাইটম্যাপ ইনডেক্স ফাইল যাচাই করা: নিশ্চিত করুন যে একটি মাল্টি-সাইটম্যাপ সেটআপ সঠিকভাবে বৈধ URL সহ চাইল্ড সাইটম্যাপগুলিকে রেফার করে।

এটি কীভাবে কাজ করে

টুলটি ব্রাউজারের বিল্ট-ইন DOMParser ব্যবহার করে পেস্ট করা টেক্সটকে XML হিসাবে পার্স করে। তারপর এটি পরীক্ষা করে:

  1. XML সুগঠিততা — যেকোনো পার্স ত্রুটি শব্দের জন্য শব্দ রিপোর্ট করা হয়
  2. রুট উপাদান — অবশ্যই <urlset> বা <sitemapindex> হতে হবে
  3. Namespace — অবশ্যই ঠিক http://www.sitemaps.org/schemas/sitemap/0.9 হতে হবে
  4. প্রতি-এন্ট্রি নিয়ম (প্রতিটি <url> বা <sitemap> এর জন্য):
    • <loc>: প্রয়োজনীয়, অবশ্যই একটি পার্সযোগ্য URL হতে হবে
    • <lastmod>: ঐচ্ছিক; যদি উপস্থিত থাকে, অবশ্যই W3C datetime ফর্ম্যাট মেলে (যেমন 2024-01-15 বা 2024-01-15T10:00:00Z)
    • <changefreq>: ঐচ্ছিক; অবশ্যই always, hourly, daily, weekly, monthly, yearly, never এর মধ্যে একটি হতে হবে
    • <priority>: ঐচ্ছিক; অবশ্যই 0.0 এবং 1.0 এর মধ্যে একটি সংখ্যা হতে হবে

সীমাবদ্ধতা

  • যাচাইকরণ সম্পূর্ণভাবে ব্রাউজারে চলে — কোন বাহ্যিক HTTP অনুরোধ করা হয় না, তাই <loc> URL গুলি শুধুমাত্র ফর্ম্যাটের জন্য পরীক্ষা করা হয়, পৌঁছানোর জন্য নয়।
  • কোর namespace এর বাইরে সাইটম্যাপ এক্সটেনশন (ইমেজ সাইটম্যাপ, ভিডিও সাইটম্যাপ, নিউজ সাইটম্যাপ) যাচাই করে না।
  • সর্বাধিক ইনপুট আকার ব্রাউজার মেমরি দ্বারা সীমাবদ্ধ; খুব বড় সাইটম্যাপ (100,000+ URL) প্রক্রিয়া করতে ধীর হতে পারে।

FAQ

এই টুলটি কি আমার URL গুলি ফেচ করে যাতে তারা কাজ করে কিনা তা পরীক্ষা করে? না। সমস্ত যাচাইকরণ আপনার ব্রাউজারে স্থানীয়ভাবে করা হয়। URL গুলি শুধুমাত্র সঠিক ফর্ম্যাটের জন্য পরীক্ষা করা হয়, HTTP স্ট্যাটাস বা কন্টেন্টের জন্য নয়।

কোন <lastmod> ফর্ম্যাট গ্রহণ করা হয়? যেকোনো W3C datetime ফর্ম্যাট: YYYY, YYYY-MM, YYYY-MM-DD, YYYY-MM-DDThh:mmTZD, বা YYYY-MM-DDThh:mm:ssTZD

আমার সাইটম্যাপ ইমেজ বা ভিডিও এক্সটেনশন ব্যবহার করে — সেগুলি যাচাই করা হবে? কোর কাঠামো (namespace, <loc>, ইত্যাদি) যাচাই করা হয়। এক্সটেনশন namespace থেকে উপাদান (ইমেজ, ভিডিও, নিউজ) পরীক্ষা করা হয় না কিন্তু যাচাইকরণ ব্যর্থতার কারণ হবে না।