O que é robots.txt?

Robots.txt é um arquivo de texto que os sites colocam em seu diretório raiz para se comunicar com rastreadores da web e bots de mecanismos de pesquisa. Ele informa a esses visitantes automatizados quais páginas ou seções de um site eles podem ou não podem acessar. Este arquivo segue o Protocolo de Exclusão de Robôs, um padrão que ajuda os proprietários de sites a controlar como seu conteúdo é indexado por mecanismos de pesquisa e acessado por web scrapers.

Quando um bot de mecanismo de pesquisa visita um site, ele primeiro verifica o arquivo robots.txt. Com base nas instruções deste arquivo, o bot sabe se tem permissão para rastrear URLs específicas, qual atraso deve esperar entre as solicitações e onde encontrar sitemaps XML para rastreamento mais eficiente.

Descrição da ferramenta

O validador Robots.txt é uma ferramenta que ajuda você a testar e verificar como as regras robots.txt se aplicam a URLs específicas. Você pode colar o conteúdo robots.txt, inserir uma URL que deseja verificar e especificar um user-agent (como Googlebot, Bingbot ou o curinga "*" para todos os bots). A ferramenta dirá instantaneamente se essa URL é permitida ou não para o rastreador especificado.

Recursos

  • Validação de URL: Verifique se uma URL específica está acessível para um user-agent específico de acordo com as regras robots.txt
  • Teste de user-agent: Teste diferentes user-agents (bots de mecanismos de pesquisa) contra a mesma URL
  • Detecção de atraso de rastreamento: Exibe automaticamente as configurações de atraso de rastreamento se especificadas no arquivo robots.txt