Der Betrieb eines leistungsfähigen KI-Modells wurde in zwei Jahren rund 280-mal billiger. Im selben Zeitraum stieg die durchschnittliche KI-Rechnung eines Unternehmens, statt zu fallen. Beide Zahlen sind echt, beide kommen aus glaubwürdiger Forschung, und der Abstand zwischen ihnen ist das Nützlichste, was man über KI-Ökonomie 2026 verstehen kann. Er erklärt, warum "die Modelle werden immer billiger" und "unsere KI-Ausgaben laufen aus dem Ruder" im selben Meeting gesagt werden, von denselben Leuten, über dieselben Systeme.
Ich sehe das in Kundenprojekten jeden Monat. Jemand liest, dass die Token-Preise kollabiert sind, geht davon aus, dass die eigenen Kosten gleich abstürzen, und öffnet dann eine Rechnung, die das Gegenteil getan hat. Diese Verwirrung ist kein Buchungsfehler. Sie ist ein strukturelles Merkmal dessen, wie KI heute gebaut wird, und sobald du den Mechanismus siehst, kannst du planen statt dich überraschen zu lassen.
Die Zahl, die deine Rechnung hätte senken müssen
Fang mit dem Kollaps an, denn er ist wirklich beeindruckend. Stanfords AI Index 2026 beziffert den Preis für GPT-3.5-Niveau zwischen November 2022 und Oktober 2024 auf rund 280-mal billiger, ein Sturz von etwa 20 Dollar pro Million Token auf rund 7 Cent. Das ist kein Tippfehler und kein Einzelfall. Epoch AI misst einen Rückgang von im Median fast 50-mal pro Jahr bei gleicher Leistung. Die Risikokapitalfirma a16z rechnet konservativer mit etwa 10-mal pro Jahr, und das ist immer noch schneller, als Rechenleistung in der PC-Ära oder Bandbreite während des Dotcom-Aufbaus fielen.
Die Spitze tat dasselbe in aller Öffentlichkeit. Als Anthropic im November 2025 Claude Opus 4.5 auslieferte, senkte es den Flaggschiff-Preis von 15 und 75 Dollar pro Million Input- und Output-Token auf 5 und 25, eine Reduktion von 67 Prozent in einem einzigen Release. Was danach passierte, ist der Teil, den die meisten übersehen. Anthropic hielt diesen Preis von 5 und 25 dann über Opus 4.6, 4.7 und 4.8 konstant, während das Modell immer besser wurde. Der Preis pro Token hörte auf zu fallen, und die Leistung stieg weiter, was eine eigene Art von Preissenkung ist.
Der Auslöser für vieles davon war Konkurrenz von unten. DeepSeek R1 landete im Januar 2025 bei 55 Cent pro Million Token und erreichte dabei rund 95 Prozent von OpenAIs o1, und die großen Labore reagierten mit Notpreis-Schritten. Mitte 2026 ist der Boden bemerkenswert. OpenAIs GPT-5.4-nano läuft bei 20 Cent Input und 1,25 Dollar Output pro Million. DeepSeek V4 Pro, ein Open-Weights-Modell, das du selbst hosten kannst, liegt nahe 44 Cent Input. Googles Gemini 3.5 Flash schlägt das Pro-Modell der Vorgeneration auf Agenten-Benchmarks bei 1,50 und 9 Dollar. Auf dem Papier war Intelligenz noch nie so billig zu mieten.
Warum die Rechnung stattdessen stieg
Hier das Paradox in klaren Worten. Die Preise pro Token fielen um einen Faktor in den Hunderten, und nach einer Schätzung stieg die durchschnittliche Unternehmens-KI-Rechnung im selben Zeitfenster trotzdem um mehr als 300 Prozent. Die genaue Höhe dieser Ausgabenzahl behandle ich als Richtwert, nicht als Evangelium, weil sie aus einer Sekundäranalyse stammt, aber die Richtung ist überall bestätigt und der Grund ist strukturell, nicht zufällig.
Billige Token werden ausgegeben, nicht gespart. Das, was du kaufst, hat seine Form verändert. 2023 war eine typische Interaktion ein Prompt und eine Antwort, ein paar tausend Token, ein Modell-Call. 2026 läuft dasselbe geschäftliche Ergebnis durch einen Agenten, der für eine einzige Nutzer-Aufgabe zwischen 10 und 20 Modell-Calls abfeuert. Er plant, ruft ein Tool auf, liest das Ergebnis, plant neu, prüft seine eigene Arbeit, schreibt eine Commit-Nachricht. Retrieval-Augmented Generation bläht den Kontext jedes dieser Calls auf, indem es drei- bis fünfmal mehr Referenztext hineinpackt. Und der Agent geht nachts nicht nach Hause. Monitoring-Agenten und Always-on-Assistenten rechnen rund um die Uhr ab, ob jemand zusieht oder nicht.
Also wurde die Einheit 280-mal billiger und die Zahl der Einheiten pro Aufgabe stieg um mehr als das. Das ist genau das Muster, dem jeder Effizienzgewinn in der Informatik gefolgt ist. Billiger Speicher hat keine Rechenzentren geschrumpft, er hat uns Video überall gegeben. Billigere Bandbreite hat nicht die Internetrechnung des Durchschnittsmenschen gesenkt, sie hat uns Streaming gegeben. Billigere Intelligenz senkt nicht die KI-Ausgaben, sie macht Agenten wirtschaftlich möglich, und Agenten sind hungrig. Für jeden, der ein Produkt auf einer API betreibt, ist das die entscheidende Zeile: eine Aufgabe, die gestern einen Cent kostete, ist heute eine Schleife, die fünfzehn Cent kostet, und die Schleife ist das, was das Produkt gut macht.
Die Flatrate-Ära ist gerade zu Ende gegangen
Wenn du ein einzelnes Ereignis willst, das die Wende markiert, dann ist es GitHub Copilot. Am ersten Juni 2026 stellte GitHub jeden Copilot-Plan auf nutzungsbasierte Abrechnung um. Premium-Request-Einheiten wurden durch AI Credits zu einem Cent pro Stück ersetzt, abgerechnet gegen Input, Output und gecachte Token zum jeweils veröffentlichten Modellpreis. Das billigere Ausweichmodell, das früher Überlauf abfing, ist weg. Wenn deine Credits aufgebraucht sind, setzt du entweder ein Budget oder du hörst auf.
Der Grund, den GitHub nannte, ist der klarste Satz, den jemand über diese ganze Verschiebung geschrieben hat. Mit Agenten und Subagenten im Spiel, sagte das Unternehmen, "ist es jetzt üblich, dass eine Handvoll Anfragen Kosten verursacht, die den Planpreis übersteigen". Lies das noch einmal mit deinem eigenen Produkt im Kopf. Ein flaches Monatsabo setzt eine grob vorhersehbare Menge Arbeit pro Nutzer voraus. Agentische Software bricht diese Annahme, denn ein motivierter Nutzer, der einen Agenten auf ein schweres Problem ansetzt, kann an einem Nachmittag eine Monatsmarge verbrennen.
Jeder, der auf diesen APIs baut, lebt jetzt in der Welt, die GitHub gerade formalisiert hat. Anbieter teilen die Preise in Tarife für kurzen und langen Kontext. Sie verrechnen pro Tool-Call für Suche und Computer-Use. Sie verkaufen Priority-Spuren zum 2,5-Fachen des Basispreises und bieten Rabatte von bis zu 90 Prozent auf gecachten Input, um Architekturen zu belohnen, die Prompts wiederverwenden. Der flache All-you-can-eat-Plan war ein Produkt einer Zeit, in der ein Call ein Call war. Diese Zeit geht zu Ende, und dein eigenes KI-Produkt so zu bepreisen, als wäre sie es nicht, ist der Weg, an dem du aufwachst und deine schwersten Nutzer subventionierst.
Open Weights haben aufgeholt, und das ändert die Rechnung
Die zweite Kraft, die die Ökonomie umformt, ist, dass die billige Option wirklich gut geworden ist. Die meiste Zeit der letzten drei Jahre hieß "Open Weights" so viel wie "fast so gut, wenn man die Augen zusammenkneift". Das stimmt an der Spitze nicht mehr. Auf dem Intelligenz-Benchmark von Artificial Analysis im April 2026 erreichten die besten offenen Modelle rund 54 gegenüber 60 für das stärkste geschlossene Flaggschiff, ein Abstand von wenigen Punkten statt einer Generation. Neun der dreizehn Modelle auf der Intelligenz-zu-Preis-Front sind Open Weights. Stanfords selber Index beziffert den Abstand zwischen dem besten US- und dem besten chinesischen Modell per März 2026 auf 2,7 Prozent, herunter von 17 bis 31 Punkten im Jahr 2023.
In der Praxis heißt das: du wählst nicht mehr zwischen einem teuren Modell, das funktioniert, und einem kostenlosen, das es nicht tut. Du wählst entlang einer Kurve, und der Großteil dieser Kurve ist jetzt brauchbar. Ein Modell wie DeepSeek V4 kommt mit einer Million Token Kontext, läuft zu einem Bruchteil der Spitzenpreise und lässt sich in deiner eigenen Infrastruktur hosten. Die strategische Frage war nicht mehr "können wir uns ein gutes Modell leisten", sondern "welches gute Modell passt zu dieser konkreten Aufgabe, bei diesem Volumen, unter diesen Datenschutz-Regeln".
Dieser letzte Halbsatz wiegt hier schwerer als anderswo. Für ein Unternehmen in der EU, das Kundendaten verarbeitet, ist die Möglichkeit, ein kompetentes Modell auf dem eigenen Server oder in einer privaten Cloud laufen zu lassen, nicht nur eine Kostenentscheidung, sondern eine Compliance-Entscheidung. Die Kostenrechnung für einen eigenen KI-Server sieht ganz anders aus, wenn die Alternative ist, regulierte Daten an eine fremde API zu schicken, und die Modelle, die das tragfähig machen, sind jetzt gut genug, dass der Kompromiss real ist statt theoretisch.
Der richtige Move ist das richtige Modell pro Aufgabe
Bring die zwei Kräfte zusammen, billigere aber hungrigere Token und eine tiefe Bank brauchbarer Modelle, und die Gewinnerstrategie ist keine einzelne Wahl mehr, sondern eine Architektur. Das Muster, auf das Praktiker immer wieder zulaufen, ist die Kaskade, und sie ist einfach zu beschreiben. Schick die hochvolumigen, vorhersehbaren 80 bis 90 Prozent der Arbeit an ein kleines, offenes oder On-Device-Modell. Reserviere das teure Spitzenmodell für den schweren Rest, der es wirklich braucht. Gut gemacht fängt das den Großteil der Ersparnis ein und hält die Spitzen-Reasoning-Leistung für die Fälle bereit, die sie rechtfertigen.
Die Trennlinie ist nicht Glanz, sie ist Aufgabenform. Klassifikation, Extraktion, Routing und kurze Zusammenfassungen sind genau das, was kleine Modelle heute gut können. Microsofts Phi-4-mini erreicht die Qualität eines weit größeren Modells bei strukturierter Extraktion und läuft dabei in 8 Gigabyte Speicher. Googles Gemma-4-Edge-Varianten sind multimodal und laufen auf einem Smartphone. Das sind keine Spielzeuge, das ist das richtige Werkzeug für die 80 Prozent. Das Spitzenmodell verdient seinen Preis bei mehrstufigem Reasoning, der Synthese langer Dokumente und offener Agentenarbeit, wo die Eingaben breit und unvorhersehbar sind und 80 Prozent Genauigkeit nicht reichen.
Deshalb bin ich auch skeptisch bei zwei verbreiteten Reaktionen auf die Kosten-Nachrichten. Die erste ist "warten, bis die Preise weiter fallen", was das Paradox komplett missversteht, denn deine Rechnung wird davon getrieben, wie viele Calls dein Design macht, nicht vom Preis eines einzelnen Calls. Die zweite ist "einfach für alles das teuerste Modell nehmen, um sicherzugehen", was im großen Maßstab aus einer 2-Cent-Aufgabe eine 20-Cent-Aufgabe macht, ohne Qualitätsgewinn. Die Disziplin ist, Modell zu Aufgabe zu passen, und es ist derselbe Instinkt, der dahinter steht, Modellwahl als Resilienz-Entscheidung zu behandeln statt als Markentreue. Die Agentur, die für jeden Schritt das richtige Modell wählt und Metering und Routing von Anfang an einbaut, landet bei niedrigeren Kosten und einem System, das nicht umkippt, wenn ein Anbieter seine Bedingungen ändert.
Was das wirklich bedeutet
Die Kosten für Intelligenz werden weiter fallen, und deine KI-Rechnung wird ein echter Posten bleiben, und beides wird gleichzeitig wahr sein. Das ist kein Widerspruch, den man auflösen muss, es ist die Betriebsbedingung, für die man baut. Die Teams, die das verinnerlichen, bauen agentische Produkte mit Budget-Grenzen, Kaskaden-Routing und einem klaren Blick darauf, welches Modell auf welchen Schritt gehört. Die Teams, die warten, bis die Technik billig genug ist, um nicht mehr über Kosten nachdenken zu müssen, werden weiter von ihren Rechnungen überrascht, denn die Technik ist schon billig geworden, und die Überraschung ist strukturell.
Meine Vorhersage für die zweite Hälfte 2026 ist, dass "Modellstrategie" ein normaler Teil jedes ernsthaften KI-Baus wird, so wie "Datenbankwahl" es heute ist, und dass die Debatte um die Wrapper-Marge laut wird. Wenn ein Kunde sehen kann, dass ihn sein Token-Anteil dich 2 Dollar kostet, sieht ein flacher 24-Dollar-Plan plötzlich nach Aufschlag aus, und die Produkte, die überleben, werden die sein, die den Wert, den sie hinzufügen, von der Inferenz trennen, die sie durchreichen. Die Ära der billigen Modelle hat Kosten nicht irrelevant gemacht. Sie hat Kosten von einem Preis, den man nachschlägt, zu einer Entscheidung gemacht, die man baut, und das ist ein besseres Problem, solange man es tatsächlich als eins behandelt.
