AI Agent Traps: Wie Websites KI-Agenten erkennen und manipulieren

Matthias Meyer

Google DeepMind hat die erste systematische Untersuchung veröffentlicht, die zeigt, wie Websites KI-Agenten erkennen und gezielt manipulieren können. Das Paper "AI Agent Traps" beschreibt sechs Angriffskategorien — und eine davon betrifft jedes Unternehmen, das KI-Tools für die tägliche Arbeit nutzt.

Was sind AI Agent Traps?

AI Agent Traps sind manipulierte Inhalte auf Websites, die speziell darauf ausgelegt sind, KI-Agenten zu täuschen. Während ein Mensch eine ganz normale Website sieht, liest ein KI-Agent versteckte Anweisungen, die sein Verhalten verändern.

Der Unterschied zu klassischem Hacking: Der Angreifer bricht nicht in ein System ein. Er wartet darauf, dass das System zu ihm kommt.

Die 6 Angriffskategorien im Überblick

1. Content Injection (Versteckte Anweisungen) Ein Websitebetreiber versteckt Anweisungen in HTML-Kommentaren, unsichtbaren CSS-Elementen oder Bild-Metadaten. Menschen sehen nichts davon — KI-Agenten lesen und befolgen die Anweisungen. Erfolgsrate in Tests: 86 Prozent.

2. Dynamic Cloaking (Zwei Versionen einer Website) Der Webserver erkennt anhand von Browser-Eigenschaften und Automatisierungs-Artefakten, ob der Besucher ein KI-Agent ist. Wenn ja, liefert er eine komplett andere Version der Seite — visuell identisch, aber mit eingebetteten Manipulations-Befehlen.

3. Semantic Manipulation (Subtile Beeinflussung) Statt direkter Befehle setzt diese Technik auf Framing und autoritär klingende Formulierungen. Die KI wird nicht angewiesen, sie wird subtil in eine Richtung gelenkt. Das ist besonders gefährlich, weil es kaum zu erkennen ist.

4. Cognitive State Traps (Gedächtnis-Vergiftung) Falsche Informationen werden in die Wissensdatenbanken eingeschleust, aus denen KI-Agenten lernen. Mit weniger als 0,1 Prozent vergifteter Daten erreichten die Forscher eine Erfolgsrate von über 80 Prozent.

5. Behavioral Control (Verhaltens-Übernahme) Der Agent wird direkt übernommen — er soll Daten exfiltrieren, Transaktionen ausführen oder seine Sicherheitsrichtlinien deaktivieren. In einem Test mit Microsoft 365 Copilot gelang die Datenexfiltration in 10 von 10 Versuchen.

6. Human-in-the-Loop Traps (Den Menschen täuschen) Der kompromittierte Agent liefert seinem menschlichen Auftraggeber manipulierte, aber glaubwürdig aussehende Ergebnisse. In einem dokumentierten Fall wurden Ransomware-Installationsanweisungen als "Troubleshooting-Schritte" präsentiert.

Was bedeutet das für KMU?

Jedes Unternehmen, das KI-Tools einsetzt, ist potenziell betroffen:

Microsoft Copilot, ChatGPT oder ähnliche Tools durchsuchen im Hintergrund Websites. Wenn diese Websites manipuliert sind, bekommen deine Mitarbeiter verfälschte Zusammenfassungen, falsche Empfehlungen oder im schlimmsten Fall werden vertrauliche Daten weitergegeben.

KI-gestützte Chatbots auf der eigenen Website verarbeiten Nutzereingaben. Ein Angreifer kann über präparierte Nachrichten den Bot manipulieren.

Automatisierte Recherche mit KI-Agenten, die eigenständig Websites besuchen und Informationen sammeln, ist direkt im Fadenkreuz dieser Angriffe.

Die Verbindung zu GEO und KI-Sichtbarkeit

Hier wird es für Website-Betreiber besonders relevant: Die Techniken, die AI Agent Traps nutzen, sind technisch identisch mit Generative Engine Optimization (GEO).

GEO optimiert Websites, damit KI-Systeme sie korrekt zitieren — über Structured Data, Schema.org, Citation Blocks und maschinenlesbare Formate. AI Agent Traps nutzen genau diese Kanäle, um KI-Systeme zu manipulieren.

Der entscheidende Unterschied: Format-Optimierung vs. Content-Manipulation.

Legitimes GEO liefert Maschinen denselben Inhalt in einem besser lesbaren Format. Manipulatives Cloaking liefert Maschinen anderen Inhalt als Menschen.

Google kennt diesen Unterschied seit 20 Jahren aus der SEO-Welt. Cloaking war schon immer verboten. Die neue Dimension: Jetzt sind KI-Agenten das Ziel, nicht Suchmaschinen-Crawler.

3 Maßnahmen, die du jetzt ergreifen solltest

1. KI-Werkzeuge mit minimalen Rechten ausstatten Dein KI-Agent braucht Lesezugriff auf E-Mails? Dann gib ihm nur Lesezugriff — nicht Schreib- und Löschrechte. Das Prinzip der minimalen Berechtigung begrenzt den Schaden, wenn ein Agent manipuliert wird.

2. Ergebnisse prüfen, bevor du handelst Wenn ein KI-Agent Informationen von externen Websites zusammenfasst, behandle das Ergebnis wie eine ungeprüfte Quelle. Besonders bei geschäftskritischen Entscheidungen: Gegenprüfung ist Pflicht.

3. Die eigene Website auf versteckte Injections prüfen Manchmal werden Websites kompromittiert, ohne dass der Betreiber es merkt. Ein Audit der HTML-Kommentare, Meta-Tags und unsichtbaren Elemente deckt potenzielle Injection-Payloads auf.

Was OpenAI und Google dazu sagen

OpenAI hat im Dezember 2025 öffentlich eingeräumt, dass Prompt Injection "wahrscheinlich nie vollständig gelöst" wird. Google arbeitet mit dem neuen "Google-Agent" User-Agent und Web Bot Auth an einem Authentifizierungssystem für KI-Agenten — aber das ist noch in der Entwicklung.

Die Realität: Es gibt aktuell keine technische Lösung, die alle sechs Angriffskategorien vollständig abwehrt. Die beste Verteidigung ist Awareness und das Prinzip der minimalen Berechtigung.

Fazit

Das DeepMind-Paper ist kein theoretisches Gedankenexperiment. Die beschriebenen Angriffe funktionieren heute, mit bestehenden Technologien, gegen reale Produkte. Wer KI-Agenten im Geschäftsalltag einsetzt, navigiert durch ein Minenfeld an manipulierten Inhalten — Inhalten, die menschliche Aufseher niemals sehen.

Die gute Nachricht: Die Angriffsvektoren sind bekannt, die Verteidigungsmechanismen sind klar. Wer jetzt handelt, ist vorbereitet.