So funktionieren KI-Zitate wirklich: die Mechanik dahinter

Matthias Meyer

Stell ChatGPT, Perplexity und Gemini dieselbe Frage, und bei mehr als einem Drittel der Anfragen bekommst du drei verschiedene Quellenlisten. Gleiches Web, gleiche Frage, drei getrennte Urteile darüber, wer zitierwürdig ist. Diese Divergenz ist das klarste Fenster, das wir auf die echte Funktionsweise von KI-Zitaten haben, und fast alles, was zu diesem Thema geschrieben wird, überspringt den Mechanismus und springt direkt zu Optimierungstipps. Hier geht es um den Mechanismus.

Ein KI-Zitat sieht nach einer Kleinigkeit aus. Eine hochgestellte Zahl, eine kleine Quellenkarte unter einem Absatz, ein Link mit utm_source=chatgpt.com hintendran. Hinter dieser Kleinigkeit sitzt eine Pipeline, die in der Sekunde zwischen deiner Frage und der Antwort läuft, und sie hat fast nichts damit gemein, wie Google in den letzten zwanzig Jahren Seiten gerankt hat. Sobald du die Pipeline siehst, hört das Thema auf, mystisch zu sein. Du kannst recht gut vorhersagen, warum ein Modell eine Seite zitiert und eine andere ignoriert hat, die objektiv besser geschrieben war.

Ein Zitat ist nicht das Modell, das dich kennt#

Es gibt zwei völlig verschiedene Wege, wie ein Sprachmodell einen Satz über dein Unternehmen produzieren kann. Der erste ist das parametrische Gedächtnis, also das Wissen, das während des Trainings in die Gewichte eingebrannt wurde. Wenn deine Firma in den Trainingsdaten war, kennt das Modell dich vielleicht, aber es kann nicht auf eine Quelle zeigen, weil es nie eine URL gespeichert hat, sondern nur einen statistischen Schleier aus Text, den es Monate früher aufgesogen hat. Der zweite Weg ist Echtzeit-Retrieval. Das System geht raus, holt sich Live-Dokumente und schreibt die Antwort mit diesen Dokumenten als Beleg. Ein Zitat ist immer nur das Zweite.

Das ist Retrieval-Augmented Generation, meistens als RAG abgekürzt, und es ist die Architektur unter fast jeder KI-Antwort, die Quellen zeigt. Das Modell holt sich zuerst relevante Dokumente, dann generiert es die Antwort darauf gestützt. Der Unterschied zwischen den beiden Pfaden ist der Unterschied zwischen "das Modell hat einen vagen Eindruck von dir" und "das Modell kann dich zitieren und auf dich verlinken". Eine Analyse hat 2026 mehr als 680 Millionen KI-Zitate unter die Lupe genommen, und das Muster gilt überall: die zitierten Antworten sind die gestützten, nicht die erinnerten.

Diese Unterscheidung stellt das ganze Problem auf den Kopf. In die Trainingsdaten zu kommen ist langsam, unscharf und liegt meistens nicht in deiner Hand. Abgerufen zu werden ist ein lebendiges, mechanisches Ereignis, das jedes Mal passiert, wenn jemand eine relevante Frage stellt, und es folgt Regeln, über die du tatsächlich nachdenken kannst.

Die Pipeline hinter einer einzigen Antwort#

Wenn du einem KI-Suchtool eine Frage stellst, passieren fünf Dinge in schneller Abfolge. Es lohnt sich, sie durchzugehen, denn jede Stufe filtert den Großteil des Webs heraus, bevor die nächste überhaupt anfängt.

Erstens die Interpretation der Anfrage. Deine chaotische menschliche Frage wird in eine oder mehrere kurze Retrieval-Anfragen umgeschrieben. Die heißen Grounding Queries, und es sind die buchstäblichen Begriffe, nach denen das System tatsächlich suchen wird. "Wer ist der beste Makler für ländliche Fincas bei Campos" könnte zu drei sauberen Anfragen über Regionen, Immobilientypen und Agenturen werden.

Zweitens das Retrieval. Das System lässt diese Anfragen gegen einen Index laufen, mit hybrider Suche, die altmodisches Keyword-Matching (BM25) mit dichten Vector Embeddings kombiniert, die Bedeutung statt exakter Wörter erfassen. Woher der Index kommt, ist von Engine zu Engine verschieden. Perplexity crawlt das offene Web fortlaufend. ChatGPT stützt sich stark auf den Index von Bing. Jede sucht eine andere Landkarte des Internets ab.

Drittens das Re-Ranking. Das Retrieval liefert viel zu viele Kandidaten zurück, also bewertet ein Re-Ranker sie und behält eine Handvoll. Bei Perplexity ist dokumentiert, dass dafür ein dreistufiger Re-Ranker läuft. Hunderte Seiten schrumpfen auf vielleicht fünf oder acht.

Viertens die Extraktion. Das ist die Stufe, die die meisten übersehen. Das System liest nicht deine ganze Seite. Es zieht die konkreten Passagen heraus, die die Unterfrage beantworten, die Chunks, und verwirft den Rest. Fünftens Synthese und die Zitat-Entscheidung: das Modell schreibt die Antwort, beschränkt durch diese Passagen, und hängt dann jede Quelle an die Textstellen, die ihre Passage gestützt hat.

Die Konsequenz aus Stufe vier ist der wichtigste Fakt über KI-Zitate überhaupt. Engines zitieren Passagen, nicht Seiten. Sie ranken deine Site nicht und beurteilen nicht ihre Gesamtqualität so, wie Google es tut. Sie heben den Absatz hervor, der eine enge Frage sauber beantwortet hat. Eine Seite kann auf Position eins bei Google stehen und nie zitiert werden, weil die Antwort über fünf Absätze verschmiert war und kein einzelner Chunk für sich allein stand. Die Zahlen belegen das: nur rund 44 Prozent der Seiten, die in Googles Top Ten ranken, tauchen überhaupt in KI-Zitaten auf. Es ist ein anderes Spiel mit einer anderen Anzeigetafel.

Grounding ist der Teil, der Zitate vertrauenswürdig macht#

Grounding ist der Mechanismus, der die Meinung eines Modells von seinem Beleg trennt. Nachdem die Antwort entworfen ist, fahren gute Systeme eine Span Level Verification. Jede Behauptung in der Antwort wird gegen die abgerufenen Passagen abgeglichen. Das System bestätigt entweder, dass die Passage die Aussage stützt, markiert die Aussage als unbelegt, oder fängt einen Widerspruch zwischen Aussage und Quelle ab. Es ist eine Faktencheck-Schicht, die zwischen der Generierung des Modells und deinem Bildschirm sitzt.

Darüber läuft die Korroboration. Die Engine gleicht eine Aussage mit anderen verlässlichen Quellen quer durchs Web ab. Wenn mehrere vertrauenswürdige Quellen denselben Fakt in ähnlicher Sprache nennen, behandelt die Engine ihn als verifiziert und zitiert ihn ohne Bedenken. Eine einsame Seite, die eine ungewöhnliche Behauptung aufstellt, die nichts anderes wiedergibt, ist ein schwacher und riskanter Zitat-Kandidat, selbst wenn die Behauptung zufällig stimmt.

Deshalb reduzieren Zitate Halluzinationen, statt sie zu verursachen. Die Antwort ist an Text gebunden, den das System wirklich gezogen und geprüft hat. Deshalb ist auch die Struktur deines Inhalts wichtiger als sein sprachlicher Feinschliff. Die Pipeline bewundert nicht deine Schreibe. Sie prüft, ob eine Passage eine konkrete Aussage stützt und ob der Rest des Webs sie bestätigt.

Vier Engines, vier verschiedene Köpfe#

Der Grund, warum drei Assistenten drei verschiedene Quellenlisten liefern, ist, dass sie unterschiedliche Retrieval-Strategien auf unterschiedlichen Indizes mit unterschiedlichen Vorlieben fahren. Die groben Umrisse sehen 2026 so aus.

Perplexity ist Retrieval-first. Es sucht bei fast jeder Anfrage, crawlt das Web fortlaufend und zitiert standardmäßig mit nummerierten Inline-Quellen. Es zieht knapp dreimal mehr Quellen pro Antwort als ChatGPT, lehnt sich ungewöhnlich stark an Reddit an (nahe 47 Prozent seiner Top-Zitate) und reagiert auf strukturelle Änderungen einer Seite innerhalb von zwei bis sieben Tagen, das schnellste im Feld. Schema-Markup bewegt es kaum.

ChatGPT ist standardmäßig parametrisch. Es antwortet aus dem Training, außer eine Anfrage löst sein Suchverhalten aus, woraufhin es über den Index von Bing abruft. Sein Training hat es in Richtung Konsens und enzyklopädischer Quellen verzerrt, weshalb Wikipedia in seinen Zitaten so groß dasteht. Es zitiert einen kleineren Anteil dessen, was es findet, und bei 800 Millionen wöchentlichen Nutzern ist dort unsichtbar zu sein die teuerste Art von unsichtbar. Seit Juni 2025 markiert es Zitat-Links mit utm_source=chatgpt.com, was den Traffic wenigstens messbar macht.

Claude ist der Konservative. Es stützt sich auf sein Training und ein bereitgestelltes Korpus und surft nur, wenn man ihm Werkzeuge gibt. Wenn es zitiert, belohnt es Tiefe und klare Struktur, rund 30 Prozent eher zitiert es eine gut gegliederte Seite mit Aufzählungspunkten, und es ist die strengste Engine bei Aktualität. Bei zeitkritischen Themen wertet es Inhalte ab, deren letztes Änderungsdatum mehr als ein Jahr zurückliegt. Gemini und Google AI Overviews sitzen auf Googles eigenem Suchindex, neigen zu Marken- und Entitätssignalen und zeigen ihre Quellen unter der Zusammenfassung statt inline.

Das praktische Fazit ist Divergenz. Quer über die drei Engines liefern irgendwo zwischen 35 und 40 Prozent der Anfragen Quellensätze, die sich kaum überschneiden. Bei ChatGPT und Perplexity wurde gemessen, dass sie nur rund 11 Prozent ihrer zitierten Domains teilen. Behandle KI-Sichtbarkeit als eine Sache, und du optimierst für eine Engine, während drei andere dich still ignorieren.

Warum manche Seiten reingezogen werden und die meisten nicht#

Sobald die Pipeline klar ist, hören die Gründe, warum bestimmte Seiten immer wieder zitiert werden, auf, nach SEO-Folklore auszusehen, und fangen an, nach Klempnerarbeit auszusehen.

Erreichbarkeit kommt zuerst, und sie ist der häufigste stille Fehler. Eine Engine kann keine Seite zitieren, die ihr Crawler nicht erreicht. Jede betreibt ihren eigenen Agenten: OAI-SearchBot für die ChatGPT-Suche, ClaudeBot und Claude-User für Anthropic, PerplexityBot, Google-Extended für Gemini. Sperr einen in deiner robots.txt, und diese Engine ist schlicht blind für dich, egal wie stark der Inhalt ist. Jede Menge exzellenter Seiten sind aus diesem einen langweiligen Grund nicht zitierbar.

Extrahierbarkeit kommt als Nächstes. Weil die Pipeline Passagen hervorhebt, wird Inhalt extrahiert, der eine Unterfrage sauber an einer einzigen Stelle beantwortet, und Inhalt, bei dem die Antwort über eine halbe Seite verteilt ist, wird es nicht. Das ist der eigentliche Grund, warum antwort-zuerst geschriebener Text, klare Ueberschriften, Tabellen und direkte Definitionen mit Zitaten korrelieren. Sie sind keine magischen Ranking-Signale. Sie sind mechanisch leichter zu chunken und herauszuheben.

Dann Korroboration und eigene Daten. Eine Aussage, die quer durchs Web in konsistenter Sprache widerhallt, ist sicher zu zitieren, weshalb Markenpräsenz auf Reddit, Wikipedia, Nachrichten- und Bewertungsseiten Zitate stärker bewegt als jede Optimierung auf der Seite selbst, besonders bei ChatGPT. Die Kehrseite ist genauso nützlich: veröffentliche eine Zahl, die sonst niemand hat, und du wirst zur einzig möglichen Quelle dafür. Eigene Forschung wurde mit rund 3,7-mal höherer Zitierwahrscheinlichkeit gemessen, strukturierte Daten mit etwa 2,1-mal. Aktualität schließt den Kreis, da manche Engines, allen voran Claude, veraltete Zeitstempel still abwerten.

Nichts davon ist ein Trick. Es ist die Form der Pipeline, die durchscheint. Die Maschine belohnt Inhalt, der erreichbar, herauslösbar, bestätigt und aktuell ist, weil genau das die vier Dinge sind, die die Pipeline buchstäblich prüft.

Die nächste Schicht: vom Lesen zum Handeln#

Bei Zitaten geht es darum, ob ein Modell dich lesen und referenzieren kann. Die Grenze, die sich durch 2026 verschiebt, ist die Frage, ob ein Agent etwas mit dir machen kann, und ein paar Standards bauen still diese Brücke.

Der leichteste ist llms.txt, eine Markdown-Datei im Stammverzeichnis deiner Site, die deine wichtigen Seiten mit kurzen Beschreibungen auflistet, eine Art Sitemap, geschrieben für Modelle statt für Crawler. Sie reduziert die Arbeit, die eine Engine leisten muss, um herauszufinden, was zählt, und sie ist bereits bei Cloudflare, Stripe und hunderttausenden anderen Sites im Einsatz. Du kannst die llms.txt Spezifikation in ein paar Minuten lesen. Schema.org-Markup erledigt eine verwandte Aufgabe auf Datenebene und reicht dem Parser strukturierte Fakten statt Prosa, die er erst interpretieren muss.

Die größere Verschiebung ist das Model Context Protocol, ein offener Standard von Anthropic, der eine KI-App direkt mit einer Live-Datenquelle oder einem Werkzeug verbindet, statt Text von einer Seite zu kratzen. Statt deine Preise aus einem zwischengespeicherten Absatz zu erraten, kann ein Modell sie direkt abfragen. Die gängige Kurzform ist "USB-C für KI". Einen Schritt weiter sitzt die Idee hinter WebMCP und agents.json, wo eine Site aufrufbare Werkzeuge veröffentlicht, einen Termin buchen, Verfügbarkeit prüfen, ein Angebot anfordern, die ein Agent direkt aufrufen kann. Die Seite hört auf, etwas zum Lesen zu sein, und wird etwas zum Bedienen.

Die Flugbahn ist geradlinig. Sie läuft von "ist mein Inhalt im Retrieval-Index" zu "kann ein Agent mit meinem Geschäft Geschäfte machen, ohne dass je ein Mensch die Site öffnet". Zitate sind die erste Sprosse auf dieser Leiter, und genau deshalb lohnt es sich, sie richtig zu verstehen, statt ihnen mit Checklisten hinterherzujagen.

Was das wirklich bedeutet#

Reduziere alles auf den Kern, und ein KI-Zitat ist das sichtbare Ende einer Retrieval und Grounding Pipeline mit Verifikation. Es ist kein Beweis, dass das Modell dich kennt, und es hat erstaunlich wenig damit zu tun, wie du bei Google rankst. Die Seiten, die zitiert werden, sind die, welche die Pipeline erreichen, sauber herausheben, gegen den Rest des Webs bestätigen und als aktuell vertrauen kann.

Meine Vorhersage ist, dass die Lücke zwischen "rankt gut bei Google" und "wird von KI zitiert" weiter wächst, weil die beiden wirklich verschiedene Dinge messen, und eine Menge Unternehmen werden bald entdecken, dass ihr hart erkämpftes SEO nicht so überträgt, wie sie angenommen haben. Die, welche KI-Sichtbarkeit als eigene Disziplin behandeln, mit eigener Mechanik und eigener Messung, ziehen davon, während alle anderen darauf warten, dass die Zitate von selbst auftauchen. Diese Disziplin hat einen Namen, Generative Engine Optimization, und die erste Hälfte davon, sie gut zu machen, ist schlicht, die Pipeline zu verstehen, für die du optimierst.