Cos'è robots.txt?

Robots.txt è un file di testo che i siti web posizionano nella loro directory principale per comunicare con i crawler web e i bot dei motori di ricerca. Indica a questi visitatori automatizzati quali pagine o sezioni di un sito possono o non possono accedere. Questo file segue il Robots Exclusion Protocol, uno standard che aiuta i proprietari di siti a controllare come il loro contenuto viene indicizzato dai motori di ricerca e acceduto dai web scraper.

Quando un bot di un motore di ricerca visita un sito web, controlla prima il file robots.txt. In base alle istruzioni in questo file, il bot sa se è autorizzato a scansionare URL specifici, quale ritardo deve attendere tra le richieste e dove trovare le sitemap XML per una scansione più efficiente.

Descrizione dello strumento

Il validatore Robots.txt è uno strumento che ti aiuta a testare e verificare come le regole robots.txt si applicano a URL specifici. Puoi incollare il contenuto robots.txt, inserire un URL che vuoi controllare e specificare un user-agent (come Googlebot, Bingbot o il carattere jolly "*" per tutti i bot). Lo strumento ti dirà immediatamente se quell'URL è consentito o vietato per il crawler specificato.

Funzionalità

  • Validazione URL: Verifica se un URL specifico è accessibile a un particolare user-agent secondo le regole robots.txt
  • Test user-agent: Testa diversi user-agent (bot di motori di ricerca) contro lo stesso URL
  • Rilevamento ritardo di scansione: Visualizza automaticamente le impostazioni di ritardo di scansione se specificate nel file robots.txt