Τι είναι το robots.txt;

Το robots.txt είναι ένα αρχείο κειμένου που τοποθετούν οι ιστοσελίδες στον ριζικό κατάλογό τους για να επικοινωνήσουν με web crawlers και bots μηχανών αναζήτησης. Λέει σε αυτούς τους αυτοματοποιημένους επισκέπτες ποιες σελίδες ή ενότητες ενός ιστότοπου μπορούν ή δεν μπορούν να προσπελάσουν. Αυτό το αρχείο ακολουθεί το Robots Exclusion Protocol, ένα πρότυπο που βοηθά τους ιδιοκτήτες ιστοσελίδων να ελέγχουν τον τρόπο με τον οποίο το περιεχόμενό τους ευρετηριάζεται από τις μηχανές αναζήτησης και προσπελάζεται από web scrapers.

Όταν ένα bot μηχανής αναζήτησης επισκέπτεται έναν ιστότοπο, ελέγχει πρώτα το αρχείο robots.txt. Με βάση τις οδηγίες σε αυτό το αρχείο, το bot γνωρίζει εάν του επιτρέπεται να κάνει crawl συγκεκριμένα URLs, ποια καθυστέρηση πρέπει να περιμένει μεταξύ των αιτημάτων και πού να βρει XML sitemaps για πιο αποτελεσματικό crawling.

Περιγραφή Εργαλείου

Το Robots.txt Validator είναι ένα διαδικτυακό εργαλείο που σας βοηθά να δοκιμάσετε και να επαληθεύσετε πώς ισχύουν οι κανόνες robots.txt σε συγκεκριμένα URLs. Αυτός ο robots txt parser σας επιτρέπει να επικολλήσετε περιεχόμενο robots.txt, να εισάγετε ένα URL που θέλετε να ελέγξετε και να καθορίσετε έναν user-agent (όπως Googlebot, Bingbot ή το wildcard "*" για όλα τα bots). Το εργαλείο robots txt validator θα σας πει αμέσως εάν αυτό το URL επιτρέπεται ή απαγορεύεται για τον καθορισμένο crawler, διευκολύνοντας τη δοκιμή του αρχείου robots txt σας πριν την ανάπτυξη στο production.

Χαρακτηριστικά

  • Επικύρωση URL: Ελέγξτε εάν ένα συγκεκριμένο URL είναι προσβάσιμο σε έναν συγκεκριμένο user-agent σύμφωνα με τους κανόνες robots.txt
  • Δοκιμή User-Agent: Δοκιμάστε διαφορετικούς user-agents (bots μηχανών αναζήτησης) έναντι του ίδιου URL
  • Διαδικτυακός Parser: Χρησιμοποιήστε αυτόν τον robots txt validator διαδικτυακά χωρίς εγκατάσταση ή εγγραφή