Die wenigsten KI-Agenten laufen in Produktion. Was wirklich klappt.

Matthias Meyer

Eine viel geteilte Umfrage sagt, 42 Prozent der Unternehmen betreiben bereits KI-Agenten in Produktion. Die rigoroseste Quelle im Feld, Stanfords AI Index 2026, sagt, echte autonome Agenten-Nutzung liegt über fast alle Geschäftsfunktionen hinweg im einstelligen Bereich. Beide Zahlen wurden dieses Jahr veröffentlicht, beide sind vertretbar, und im Abstand zwischen ihnen wird gerade fast jede schlechte Entscheidung über KI-Agenten getroffen. Wenn du dir Mitte 2026 nur eine Sache über Agenten merkst, dann diese: die Technik ist weit fähiger, als die Deployment-Zahlen vermuten lassen, und die Lücke kommt nicht von der Intelligenz. Sie kommt von Vertrauen, vom Umfang und davon, ob irgendjemand merkt, wenn der Agent falsch liegt.

Ich baue Agenten-Systeme beruflich, und ich verbringe mindestens so viel Zeit damit, Kunden von Agenten-Projekten abzuraten, wie sie hineinzureden. Nicht weil die Werkzeuge schlecht wären. Sondern weil die ehrliche Antwort auf "sollen wir hier einen autonomen Agenten draufsetzen" meistens lautet "auf genau diese Scheibe ja, auf den Rest noch nicht". Der Markt ist laut, zwischen Hype und Gegenreaktion, und die Wahrheit ist weniger befriedigend als beides. Hier die Version, die ich wirklich glaube, mit den Zahlen, die sie stützen.

Die Zahl hängt komplett davon ab, wen du fragst

Der größte Fehler beim Lesen von Agenten-Adoptions-Daten ist, "deployen", "in Produktion", "skalieren" und "Wert liefern" als dasselbe Wort zu behandeln. Sie werden von verschiedenen Leuten gemessen, auf verschiedenen Gruppen, mit Definitionen, die still die meiste Arbeit machen.

Die Schlagzeilen-42-Prozent kommen von Mayfield, einer Risikokapitalfirma, die im Januar 266 leitende Technologie-Manager im eigenen Netzwerk befragte. Es ist ein echtes Signal, aber eine schmeichelnde Runde, die eine großzügige Frage beantwortet. Geh zu den härteren Methoden und der Boden fällt weg. McKinseys State of AI von Ende 2025 fand, dass etwa 23 Prozent der Organisationen irgendwo ein agentisches System skalieren, aber weniger als 10 Prozent es bis zu greifbarem Wert skalieren. Stanfords AI Index, über 400 Seiten und die am wenigsten befangene Quelle, die ich kenne, sieht echte autonome Agenten-Nutzung über fast alle Funktionen im einstelligen Bereich. Der wiederkehrende Branchenbegriff für den Raum zwischen Pilot und Produktion ist "Pilot-Fegefeuer", und die meisten Firmen sitzen darin.

Versöhne das ehrlich und du bekommst ein Bild, das du gegen einen Skeptiker verteidigen kannst. Unter größeren Firmen experimentiert eine klare Mehrheit, irgendwo zwischen 10 und 30 Prozent haben mindestens einen Agenten echt in Produktion, und deutlich unter 15 Prozent betreiben Agenten in dem Umfang, in dem sie aufs Ergebnis durchschlagen. Sogar die optimistischen Mayfield-Daten tragen den verräterischen Hinweis: 84 Prozent dieser Manager nennen Sicherheit und Compliance nicht verhandelbar, doch 60 Prozent geben zu, dass sie eine frühe oder gar keine formale KI-Governance haben, und sie nennen Datenreife, nicht Modellqualität, als Blocker Nummer eins. Die Agenten sind bereit, bevor die Organisationen es sind.

Agenten schaffen etwa ein Drittel echter Büroarbeit

Wenn man Agenten an realistischer Arbeit statt an sauberen Benchmarks misst, wird die Fähigkeitslücke konkret. Carnegie Mellon baute TheAgentCompany, eine simulierte Firma mit 175 mehrstufigen Aufgaben quer durch Software, Finanzen, HR und Verwaltung, verdrahtet mit den echten Werkzeugen, die ein Unternehmen nutzt. Das beste Spitzenmodell erledigte etwa 30 Prozent der Aufgaben vollständig, knapp unter 40 Prozent mit Teilpunkten, zu rund vier Dollar pro Aufgabe. Den Rest machte es falsch, brach ab oder, am verräterischsten, täuschte es vor. Die Forscher sahen Agenten "falsche Abkürzungen erschaffen, die den schweren Teil der Aufgabe weglassen", was der eine Fehlermodus ist, den ein Unternehmen am meisten fürchten sollte, weil er wie Erfolg aussieht, bis er es nicht ist.

Die Fähigkeit ist auch auf Weisen ungleichmäßig, die der Intuition trotzen. Dasselbe Modell, das bei einer Mathematik-Olympiade eine Goldmedaille holt, liest eine analoge Uhr etwa halb so oft richtig. Halluzination ist kein gelöstes Problem mit einer einzelnen Rate, was immer du gelesen hast: über 26 Spitzenmodelle in einer Auswertung von 2026 reichte die Halluzination je nach Test von 22 bis 94 Prozent, und die Genauigkeit bricht ein, wenn eine Frage so gerahmt ist, dass sie einer falschen Annahme schmeichelt. Es gibt inzwischen eine verfolgte Datenbank von mehr als 1.400 Gerichtsfällen mit KI-erfundenen Rechtszitaten. Nichts davon heißt, Agenten seien nutzlos. Es heißt, ihre Fehler landen dort, wo Menschen sie nicht erwarten, und genau deshalb geht unbeaufsichtigtes Deployment schief.

Das Urteil in Klartext ist nützlicher als jeder Benchmark. Agenten sind heute zuverlässig bei begrenzten, werkzeugförmigen Aufgaben, deren Arbeit am Ende geprüft werden kann. Sie sind unzuverlässig bei offenem Urteilsvermögen, unordentlichen Realwelt-Eingaben wie einem gemischten Stapel fotografierter Rechnungen, und bei langlaufenden Zielen ohne Kontrollpunkte. Das Können 2026 ist nicht, das klügste Modell zu wählen. Es ist, diese zwei Arten von Arbeit auseinanderzuhalten.

Warum mehr als 40 Prozent der Agenten-Projekte gecancelt werden

Gartner befragte mehr als 3.400 Unternehmensführer und sagt voraus, dass über 40 Prozent der agentischen KI-Projekte bis Ende 2027 gecancelt werden. Der interessante Teil ist die Ursache, denn sie ist fast nie "das Modell war nicht klug genug". Die genannten Gründe sind eskalierende Kosten, die niemand eingeplant hat, ein Geschäftswert zu vage, um ihn zu verteidigen, wenn die Führung nach der Rendite fragt, Risiko-Kontrollen zu schwach, um einen Agenten an Kundendaten zu lassen, und eine großzügige Menge "Agent-Washing", Gartners eigener Begriff für einen Chatbot im Agenten-Kostüm. Die Fehlschläge sind Fehler bei der Auswahl des Anwendungsfalls, nicht Technik-Versagen.

Kosten sind hier der leiseste Killer, und sie verstärken sich mit einer Design-Mode. Der Instinkt bei schweren Problemen ist, einen Schwarm Agenten draufzuwerfen, aber Princeton-Forscher fanden, dass ein einzelner Agent bei 64 Prozent der Aufgaben mit den gleichen Werkzeugen genauso gut oder besser war, während die Multi-Agenten-Variante grob das Zwei- bis Dreifache an Tokens für etwa zwei Punkte mehr Genauigkeit verbrannte. Agentische Systeme feuern ohnehin zehn bis zwanzig Modell-Calls pro Aufgabe, und genau das ist die Dynamik hinter dem KI-Kostenparadox: der Preis pro Token fällt weiter, während die Rechnung steigt, weil jeder zusätzliche Agent in der Schleife die Ersparnis ausgibt. Eine Multi-Agenten-Architektur, die du der Eleganz wegen genommen hast, kann still zu dem Posten werden, der das ganze Projekt cancelt.

Der Engpass ist Vertrauen, nicht Intelligenz

Der klarste Beleg, dass nicht die Fähigkeit der Engpass ist, kommt aus der einen Kategorie, in der Agenten unbestreitbar funktionieren: Code schreiben. Anthropics Claude Code erreichte bis Februar einen annualisierten Run-Rate über 2,5 Milliarden Dollar, mehr als verdoppelt seit Jahresanfang, mit Enterprise jetzt über der Hälfte des Umsatzes. Cursor überschritt im Februar zwei Milliarden Jahresumsatz und rund drei Milliarden bis April. OpenAIs Codex passierte etwa vier Millionen Wochenentwickler. Das sind keine Piloten. Es ist die am schnellsten wachsende Software-Kategorie, die ich je beobachtet habe, und sie funktioniert aus einem langweiligen Grund: Code hat Tests. Die Prüfung am Ende ist eingebaut, also ist Delegieren sicher.

Und doch hinkt selbst hier das Vertrauen der Fähigkeit hinterher. Anthropics eigene Analyse von 2026, wie Entwickler arbeiten, fand, dass sie KI inzwischen in rund 60 Prozent ihrer Aufgaben nutzen, aber nur null bis zwanzig Prozent voll delegieren. Ein Beobachter brachte es perfekt auf den Punkt: Entwickler nutzen diese Werkzeuge aggressiver denn je und vertrauen ihnen dabei weniger. Die Antwort, die funktionierte, war kein klügeres Modell, sondern ein Governance-Feature. Claude Code lieferte einen "Auto-Modus", der ein separates Klassifizierer-Modell nutzt, um sichere Aktionen wie Dateien schreiben und Tests laufen automatisch freizugeben, während es destruktive wie Massenlöschung blockt. Das ist die ganze Lehre von Mitte 2026 in einer Produktentscheidung: der Agent musste nicht klüger werden, um in Produktion vertraut zu werden, er brauchte eine Grenze, die er ohne einen Menschen nicht überschreiten kann, explizit in der Architektur gemacht.

Was du jetzt wirklich automatisieren solltest

Wenn du ein Unternehmen führst und die praktische Fassung willst, hier die Entscheidungsregel, die ich nutze. Eine agentische Aufgabe ist ein guter Kandidat, wenn sie begrenzt, werkzeugförmig und billig prüfbar ist: die Eingaben sind vorhersehbar, der Agent handelt über definierte Werkzeuge statt über offenes Urteil, und es gibt am Ende eine klare Prüfung, die dir sagt, ob es geklappt hat. Triage und Routing von Support-Tickets, das Entwerfen von Antworten, die ein Mensch freigibt, das Abgleichen strukturierter Datensätze, Screening und Terminierung, das Ziehen und Zusammenfassen aus Systemen, die du kontrollierst: das sind die Gewinne, die in Produktion gehen. Sie sind unspektakulär, eng, und sie zahlen sich aus.

Die Arbeit, die du keinem unbeaufsichtigten Agenten geben solltest, ist das Spiegelbild: alles, was offenes Urteilsvermögen, unordentliche oder gemischte Eingaben, unumkehrbare Aktionen oder einen langen Horizont ohne Kontrollpunkte verlangt. Genau dorthin zielten auch die meisten gecancelten Projekte in den Gartner-Daten, und dort wohnen die häufigsten Agenten-Fallen. Die falsche Aufgabe zu wählen ist der Fehler, nicht das falsche Modell.

Wenn die Aufgabe passt, ist das Drehbuch, das die überlebenden Projekte von den 40 Prozent trennt, die es nicht tun, quer durch jede ernsthafte Quelle konsistent. Bilde den Prozess zuerst als manuelles Runbook ab, und wenn du keine Schritte schreiben kannst, denen ein neuer Mitarbeiter ohne Rückfragen folgen könnte, bist du nicht bereit, ihn zu automatisieren. Verenge den Umfang auf einen wertvollen Workflow und höchstens zwei oder drei Agenten. Mach den Menschen in der Schleife zu einer Design-Eigenschaft, nicht zu einer Entschuldigung: der Agent erledigt die klaren Fälle und leitet die mehrdeutigen, unsicheren und risikoreichen in eine Ein-Klick-Prüfschlange. Halte den Zustand des Agenten, sein Gedächtnis davon, was wahr und was noch offen ist, in einer Datenbank, die dir gehört, nicht in seinem Context Window. Das ist dieselbe Disziplin hinter jeder echten KI-Automatisierung, die in Produktion hält, und sie ist absichtlich langweilig.

Was das bedeutet

Die Bereinigung, die Gartner prognostiziert, ist nicht das Platzen der Blase, es ist das Erwachsenwerden der Kategorie. Die Projekte, die sterben, zielten meist auf die falsche Arbeit, wurden auf eine vage Rendite verkauft oder ohne eine Grenze gebaut, die der Agent nicht überschreiten konnte. Die, die überleben, werden neben den Demos unscheinbar aussehen: ein einzelner Agent, der einen klar definierten Workflow besitzt, mit einem Menschen an jedem risikoreichen Tor und einer Zahl, die zeigt, dass er etwas bewegt hat. So sieht "in Produktion" wirklich aus, und deshalb ist die echte Adoptions-Zahl einstellig, während die Fähigkeit alles andere als das ist.

Meine Vorhersage ist, dass die wertvollste Frage in jedem KI-Agenten-Gespräch im nächsten Jahr nicht "wie klug ist das Modell" sein wird. Sie wird sein "was kann dieser Agent nicht, und wo genau steht ein Mensch, wenn er an diese Wand stößt". Beantworte das gut und du bist in der kleinen Gruppe, die echten Wert bekommt. Überspring es und du finanzierst einen Piloten, den ein Gartner-Analyst schon als gecancelt gezählt hat. Die Agenten sind bereit für mehr, als die meisten Firmen mit ihnen tun, und für weit weniger, als die lautesten Leute verkaufen. Die Arbeit ist, zu lernen, welches von beidem es ist.