Deine robots.txt entscheidet direkt darüber, ob AI-Suchmaschinen wie ChatGPT, Perplexity und Claude dein Unternehmen überhaupt kennen. Eine falsch konfigurierte robots.txt blockiert AI-Crawler komplett – und damit verschwindest du aus allen AI-generierten Antworten. Die gute Nachricht: Die Konfiguration dauert keine 10 Minuten.
Warum deine robots.txt über AI-Sichtbarkeit entscheidet
Die robots.txt ist eine einfache Textdatei im Stammverzeichnis deiner Website. Sie sagt Suchmaschinen-Crawlern, welche Bereiche sie besuchen dürfen und welche nicht. Das Konzept existiert seit 1994 – aber 2026 hat es eine völlig neue Bedeutung bekommen.
Laut einer Analyse von Originality.ai blockieren über 35% der Top-1.000-Websites den GPTBot von OpenAI (Originality.ai, 2025). Bei News-Websites liegt die Blockierungsrate sogar bei über 50%. Das Problem: Viele Website-Betreiber wissen gar nicht, dass ihre robots.txt AI-Crawler blockiert.
Das Standard-Problem bei WordPress und Co.
Die meisten Content-Management-Systeme generieren eine Standard-robots.txt, die nur klassische Suchmaschinen-Bots berücksichtigt. Typische WordPress-Installationen erlauben Googlebot und Bingbot – aber erwähnen GPTBot, ClaudeBot oder PerplexityBot mit keinem Wort.
Was passiert, wenn AI-Crawler nicht explizit erlaubt werden? Das hängt vom Crawler ab. Einige AI-Bots interpretieren das Fehlen einer expliziten Regel als Erlaubnis, andere halten sich an restriktive Wildcard-Regeln wie Disallow: / für unbekannte User-Agents.
Laut einer Studie von Ahrefs crawlen AI-Bots im Durchschnitt 1.000-mal seltener als der Googlebot (Ahrefs, 2025). Jede Blockierung hat also massive Auswirkungen – denn wenn der AI-Crawler bei seinem seltenen Besuch abgewiesen wird, kann es Wochen dauern, bis er es erneut versucht.
Was eine Blockierung konkret bedeutet
Wenn du den GPTBot blockierst, kann ChatGPT deine Website-Inhalte nicht indexieren. Das bedeutet:
- ChatGPT kennt deine Produkte, Dienstleistungen und Expertise nicht
- Du wirst in keiner ChatGPT-Antwort empfohlen
- Deine AI-Sichtbarkeit sinkt auf null
Alle wichtigen AI-Crawler im Überblick
Bevor du deine robots.txt anpasst, musst du wissen, welche AI-Crawler es gibt. Die Landschaft hat sich 2025 und 2026 rasant entwickelt. Hier ist die vollständige Übersicht:
Haupt-Crawler für AI-Suche und Training
| Bot-Name | Unternehmen | User-Agent-String | Zweck |
|---|---|---|---|
| GPTBot | OpenAI | GPTBot | Training und Websuche für ChatGPT |
| ChatGPT-User | OpenAI | ChatGPT-User | Echtzeit-Websuche in ChatGPT |
| OAI-SearchBot | OpenAI | OAI-SearchBot | SearchGPT / ChatGPT Search |
| ClaudeBot | Anthropic | ClaudeBot | Training und Websuche für Claude |
| anthropic-ai | Anthropic | anthropic-ai | Älterer Crawler von Anthropic |
| PerplexityBot | Perplexity AI | PerplexityBot | Echtzeit-Websuche für Perplexity |
| Google-Extended | Google-Extended | Training für Gemini (nicht Google-Suche) | |
| Bytespider | ByteDance | Bytespider | Training und Suche für TikTok/Doubao |
| FacebookBot | Meta | FacebookBot | Training für Meta AI / Llama |
| Applebot-Extended | Apple | Applebot-Extended | Training für Apple Intelligence |
| cohere-ai | Cohere | cohere-ai | Training für Cohere-Modelle |
| Amazonbot | Amazon | Amazonbot | Training für Alexa / Amazon Q |
| YouBot | You.com | YouBot | Websuche für You.com |
Wichtige Unterscheidung: Suche vs. Training
Einige Unternehmen wie OpenAI nutzen mehrere Bots für verschiedene Zwecke. Das ist entscheidend für deine Strategie:
- GPTBot: Wird für das Training von GPT-Modellen und die allgemeine Wissensgrundlage verwendet
- ChatGPT-User: Wird nur bei aktiven Echtzeit-Suchen von ChatGPT-Nutzern eingesetzt
- OAI-SearchBot: Speziell für die SearchGPT-Funktion
Wenn du dich fragst, wie diese Crawler mit deinem Schema Markup interagieren: AI-Crawler lesen strukturierte Daten genau wie Googlebot. Je besser dein Markup, desto präziser die AI-Antworten über dein Unternehmen.
robots.txt prüfen – bist du blockiert?
Bevor du etwas änderst, prüfe den aktuellen Status. Das ist in 60 Sekunden erledigt.
Schritt 1: Deine aktuelle robots.txt aufrufen
Öffne deinen Browser und gib ein:
https://deine-domain.de/robots.txt
Du siehst eine Textdatei mit Regeln. Hier ein typisches Beispiel einer problematischen robots.txt:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://deine-domain.de/sitemap.xml
Schritt 2: Auf AI-Crawler-Regeln prüfen
Suche nach folgenden Einträgen:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot Disallow: /
User-agent: PerplexityBot Disallow: /
Wenn du solche Einträge findest, werden die jeweiligen AI-Crawler komplett blockiert.
Schritt 3: Wildcard-Regeln beachten
Besonders tückisch ist eine Wildcard-Regel wie:
User-agent: *
Disallow: /
Diese Regel blockiert alle Crawler, die nicht explizit eine Erlaubnis haben. Wenn darunter nur Googlebot und Bingbot erlaubt werden, sind alle AI-Crawler ausgesperrt.
Laut einer Analyse von Dark Visitors, einem Tracking-Dienst für AI-Crawler, haben 26% der Alexa-Top-10.000-Websites restriktive Wildcard-Regeln, die AI-Crawler unbeabsichtigt blockieren (Dark Visitors, 2025).
Schritt 4: Online-Tools nutzen
Für eine schnelle Prüfung kannst du folgende Tools verwenden:
| Tool | URL | Funktion |
|---|---|---|
| Dark Visitors | darkvisitors.com | Zeigt alle AI-Crawler und deren Status |
| Originality.ai Checker | originality.ai/ai-bot-blocker | Prüft robots.txt auf AI-Bot-Blockierung |
| Google Search Console | search.google.com/search-console | robots.txt-Tester (nur für Google-Bots) |
| Sichtbar GEO Audit | sichtbar.ai/audit | Prüft AI-Sichtbarkeit inkl. robots.txt |
Die optimale robots.txt für maximale AI-Sichtbarkeit
Hier ist das Copy-Paste-Template, das du direkt verwenden kannst. Es erlaubt alle relevanten AI-Crawler, schützt aber sensible Bereiche deiner Website.
Template: robots.txt für lokale Unternehmen
============================================
robots.txt – optimiert für AI-Sichtbarkeit
Generiert mit Sichtbar.ai
============================================
Alle Crawler standardmässig erlauben
User-agent: *
Allow: /
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /admin/
Disallow: /api/
Disallow: /checkout/
Disallow: /warenkorb/
Disallow: /mein-konto/
Disallow: /danke/
Disallow: /tmp/
Disallow: /private/
OpenAI Crawler explizit erlauben
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User Allow: /
User-agent: OAI-SearchBot Allow: /
Anthropic Crawler explizit erlauben
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai Allow: /
Perplexity Crawler erlauben
User-agent: PerplexityBot
Allow: /
Google Gemini Training erlauben
User-agent: Google-Extended
Allow: /
Apple Intelligence erlauben
User-agent: Applebot-Extended
Allow: /
Meta AI erlauben
User-agent: FacebookBot
Allow: /
Amazon Alexa erlauben
User-agent: Amazonbot
Allow: /
Sitemap angeben
Sitemap: https://deine-domain.de/sitemap.xml
Warum explizite Allow-Regeln?
Du fragst dich vielleicht, warum explizite Allow: /-Regeln nötig sind, wenn die Wildcard-Regel (User-agent: *) bereits alles erlaubt. Der Grund: Explizite Regeln haben Vorrang vor Wildcard-Regeln. Wenn ein anderes Plugin oder ein CMS-Update eine restriktive Wildcard-Regel hinzufügt, bleiben deine expliziten Erlaubnisse bestehen.
Laut der robots.txt-Spezifikation (RFC 9309, verabschiedet 2022) gilt immer die spezifischste Regel. Eine explizite Allow-Regel für GPTBot überstimmt eine allgemeine Disallow-Regel für *.
Ergänzung: llms.txt nicht vergessen
Neben der robots.txt solltest du auch eine llms.txt-Datei erstellen. Während die robots.txt regelt, ob AI-Crawler deine Seite besuchen dürfen, gibt die llms.txt den AI-Modellen strukturierte Informationen über dein Unternehmen – optimiert für maschinelles Verständnis.
Solltest du ALLE AI-Crawler erlauben?
Die Antwort ist nicht für jeden gleich. Es gibt berechtigte Gründe, bestimmte Crawler zu blockieren.
Vorteile: Alle AI-Crawler erlauben
- Maximale Sichtbarkeit: Dein Unternehmen erscheint in ChatGPT, Perplexity, Claude, Gemini und allen anderen AI-Antworten
- Mehr Reichweite: AI-Suchmaschinen generieren laut Datos/Semrush bereits 15-25% des Referral-Traffics bei Early Adopters (Semrush, 2025)
- Wettbewerbsvorteil: Solange Konkurrenten blockieren, bist du die einzige empfohlene Option
- Zukunftssicherheit: Neue AI-Dienste nutzen bestehende Crawler-Infrastruktur
Nachteile: Bedenken bei AI-Crawlern
- Content-Training: Deine Inhalte werden möglicherweise zum Training von AI-Modellen verwendet
- Urheberrecht: Rechtliche Grauzone bei der Nutzung urheberrechtlich geschützter Inhalte
- Server-Last: Aggressive Crawler wie Bytespider können erheblichen Traffic verursachen
- Kein Opt-out nachträglich: Einmal gecrawlte Inhalte sind in Trainingsdaten enthalten
Empfehlung nach Unternehmenstyp
| Unternehmenstyp | Empfehlung | Begründung |
|---|---|---|
| Lokale Dienstleister (Zahnarzt, Anwalt, Handwerker) | Alle AI-Crawler erlauben | Sichtbarkeit ist wichtiger als IP-Schutz. Inhalte sind ohnehin öffentlich. |
| Restaurants und Hotels | Alle AI-Crawler erlauben | AI-Empfehlungen sind der neue Mund-zu-Mund. |
| Zahnärzte und Ärzte | Alle AI-Crawler erlauben | Patienten fragen AI nach Empfehlungen. |
| Content-Publisher / Verlage | Differenzierter Ansatz | Suche-Bots erlauben, Training-Bots ggf. blockieren. |
| SaaS / Software-Unternehmen | Alle erlauben | Sichtbarkeit in AI-Antworten ist entscheidend für Discovery. |
| Premium-Content-Anbieter | Differenzierter Ansatz | ChatGPT-User/OAI-SearchBot erlauben, GPTBot ggf. blockieren. |
Differenzierter Ansatz für Publisher
Wenn du ein Content-Publisher bist und deine Inhalte nicht für das Training von AI-Modellen freigeben willst, aber trotzdem in AI-Suchergebnissen erscheinen möchtest, konfiguriere so:
Echtzeit-Suche erlauben
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot Allow: /
User-agent: PerplexityBot Allow: /
Training blockieren
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended Disallow: /
User-agent: Bytespider Disallow: /
Für die meisten lokalen Unternehmen im DACH-Raum ist die klare Empfehlung: Erlaube alle AI-Crawler. Dein Geschäftsmodell basiert auf lokaler Sichtbarkeit, nicht auf exklusivem Content. Je mehr AI-Systeme dein Unternehmen kennen, desto häufiger wirst du empfohlen.
robots.txt Änderungen umsetzen
Die Umsetzung hängt von deinem CMS ab. Hier sind die konkreten Schritte für die gängigsten Systeme.
WordPress
Option 1: Plugin (empfohlen für Anfänger)
- Installiere das Plugin „Yoast SEO" oder „Rank Math"
- Gehe zu SEO > Tools > robots.txt Editor
- Füge die AI-Crawler-Regeln aus dem Template oben ein
- Speichern
- Verbinde dich per FTP oder SSH mit deinem Server
- Navigiere zum Root-Verzeichnis (dort wo die
wp-config.phpliegt) - Öffne oder erstelle die Datei
robots.txt - Füge das Template ein
- Speichern und hochladen
Shopify
Bei Shopify hast du keinen direkten Zugriff auf die robots.txt. Nutze stattdessen die robots.txt.liquid-Datei:
- Gehe zu Online Store > Themes > Actions > Edit Code
- Erstelle oder bearbeite die Datei
robots.txt.liquidim Templates-Ordner - Füge deine Regeln ein
Andere CMS und statische Websites
Bei Systemen wie Webflow, Squarespace, Wix oder statischen Websites (Hugo, Next.js, Gatsby):
- Erstelle eine
robots.txt-Datei im öffentlichen Root-Verzeichnis - Bei Next.js: Datei in
/public/robots.txt - Bei Hugo: Datei in
/static/robots.txt - Bei Webflow: Unter SEO-Einstellungen konfigurierbar
Wann wirken die Änderungen?
Nach der Änderung deiner robots.txt ist Geduld gefragt:
| Crawler | Typische Aktualisierungszeit |
|---|---|
| Googlebot | 24-48 Stunden |
| GPTBot | 1-4 Wochen |
| ClaudeBot | 1-3 Wochen |
| PerplexityBot | 2-7 Tage |
| Bytespider | 1-2 Wochen |
So beschleunigst du den Prozess
- Sitemap einreichen: Stelle sicher, dass deine XML-Sitemap in der robots.txt verlinkt ist
- Google Search Console: Nutze die Funktion „URL-Prüfung" und „Indexierung beantragen"
- Content aktualisieren: Frische Inhalte ziehen Crawler an – veröffentliche einen neuen Blogbeitrag
- Backlinks generieren: Erwähnungen auf aktiven Plattformen wie Reddit signalisieren Crawlern, dass deine Seite relevant ist
FAQ: robots.txt und AI-Crawler
Kann ich sehen, welche AI-Crawler meine Website besucht haben?
Ja. Prüfe deine Server-Logfiles auf die User-Agent-Strings der AI-Crawler. In der Google Search Console findest du unter „Einstellungen > Crawling" grundlegende Crawl-Statistiken. Für detailliertere Analysen nutze Tools wie Cloudflare Analytics oder den Sichtbar GEO Audit.
Schadet es meiner Google-Platzierung, wenn ich AI-Crawler erlaube?
Nein. Die Erlaubnis für AI-Crawler hat keinen Einfluss auf dein Google-Ranking. Googlebot und Google-Extended sind separate Crawler. Du kannst Google-Extended blockieren, ohne dass dein Google-Ranking leidet.
Was passiert, wenn meine robots.txt Fehler enthält?
Syntaxfehler in der robots.txt können dazu führen, dass Crawler die gesamte Datei ignorieren und trotzdem alles crawlen – oder im schlimmsten Fall gar nichts crawlen. Nutze den robots.txt-Tester in der Google Search Console, um Fehler zu finden.
Muss ich meine robots.txt regelmässig aktualisieren?
Ja. Neue AI-Crawler erscheinen regelmässig. Prüfe mindestens alle 3 Monate, ob neue relevante Bots hinzugekommen sind. Dienste wie Dark Visitors veröffentlichen laufend aktualisierte Listen.
Reicht die robots.txt allein für AI-Sichtbarkeit?
Nein. Die robots.txt ist nur die Grundlage – sie öffnet die Tür. Für echte AI-Sichtbarkeit brauchst du zusätzlich guten Content, Schema Markup, eine llms.txt und externe Signale. Einen vollständigen Überblick findest du in unserem Leitfaden für AI-Sichtbarkeit 2026.
Können AI-Crawler die robots.txt ignorieren?
Technisch ja. Die robots.txt ist eine freiwillige Vereinbarung, kein technischer Schutz. Seriöse Unternehmen wie OpenAI, Anthropic und Google halten sich aber daran. Weniger bekannte Crawler halten sich möglicherweise nicht an die Regeln.
Nächster Schritt: Deine AI-Sichtbarkeit prüfen
Die robots.txt ist der erste und einfachste Schritt zu besserer AI-Sichtbarkeit. Aber sie ist nur ein Teil des Puzzles. Willst du wissen, wie sichtbar dein Unternehmen in ChatGPT, Perplexity und Gemini wirklich ist?
Jetzt kostenlosen GEO Audit starten – in 60 Sekunden weisst du, ob AI-Suchmaschinen dein Unternehmen kennen und empfehlen. Der Audit prüft deine robots.txt, Schema Markup, Content-Struktur und externe Signale. Komplett kostenlos.