Robots.txt Validator
Validieren Sie URLs anhand der robots.txt-Regeln. Überprüfen Sie, ob eine URL für bestimmte User-Agents erlaubt oder nicht erlaubt ist, sehen Sie sich Crawl-Verzögerungen an und finden Sie Sitemap-Referenzen.
Eingabe
Ausgabe
Readme
Was ist robots.txt?
Robots.txt ist eine Textdatei, die Websites in ihrem Root-Verzeichnis platzieren, um mit Web-Crawlern und Suchmaschinen-Bots zu kommunizieren. Sie teilt diesen automatisierten Besuchern mit, auf welche Seiten oder Bereiche einer Website sie zugreifen können oder nicht. Diese Datei folgt dem Robots Exclusion Protocol, einem Standard, der Website-Betreibern hilft zu kontrollieren, wie ihre Inhalte von Suchmaschinen indexiert und von Web-Scrapern abgerufen werden.
Wenn ein Suchmaschinen-Bot eine Website besucht, prüft er zunächst die robots.txt-Datei. Basierend auf den Anweisungen in dieser Datei weiß der Bot, ob er bestimmte URLs crawlen darf, welche Verzögerung er zwischen Anfragen warten sollte und wo er XML-Sitemaps für effizienteres Crawling findet.
Tool-Beschreibung
Der Robots.txt Validator ist ein Online-Tool, das Ihnen hilft, robots txt zu testen und zu überprüfen, wie robots.txt-Regeln auf bestimmte URLs angewendet werden. Mit diesem Tool können Sie robots txt prüfen, indem Sie robots.txt-Inhalte einfügen, eine URL eingeben, die Sie überprüfen möchten, und einen User-Agent angeben (wie Googlebot, Bingbot oder das Wildcard-Zeichen "*" für alle Bots). Das Tool zeigt Ihnen sofort, ob diese URL für den angegebenen Crawler erlaubt oder nicht erlaubt ist, damit Sie Ihre robots.txt-Datei vor der Produktionsbereitstellung testen können.
Funktionen
- URL-Validierung: Überprüfen Sie, ob eine bestimmte URL für einen bestimmten User-Agent gemäß robots.txt-Regeln zugänglich ist
- User-Agent-Test: Testen Sie verschiedene User-Agents (Suchmaschinen-Bots) gegen dieselbe URL
- Online-Prüfung: Robots txt testen ohne Installation oder Registrierung