Claude Fable 5 sind zwei Modelle mit einem Namen

Matthias Meyer

Am 9. Juni 2026 hat Anthropic das stärkste Modell veröffentlicht, das die Firma je für die Allgemeinheit freigegeben hat. Das Interessanteste daran ist der Teil, der dir manchmal die Antwort verweigert.

Claude Fable 5 ist das erste Modell aus der sogenannten Mythos-Klasse, einer Stufe, die jetzt über Opus liegt. Es kam als Paar. Fable 5 ist die öffentliche Variante. Claude Mythos 5 ist dasselbe Modell mit gelockerten Schutzmechanismen, und es ist für die meisten von uns nicht zu haben. Es geht nur an geprüfte Cyberverteidiger und Infrastrukturbetreiber über ein Programm namens Project Glasswing, in Zusammenarbeit mit der US-Regierung. Zwei Namen, ein Gehirn. Was sie trennt, ist eine Reihe von Klassifikatoren.

Dieses Detail ist die eigentliche Geschichte, und fast jeder Launch-Artikel hat es unter dem Benchmark-Diagramm begraben. Also fange ich genau dort an.

Ein Modell, zwei Namen, ein Klassifikator dazwischen#

Fable 5 läuft mit drei Klassifikatoren an der Seite. Sie achten auf Anfragen zu offensiver Cybersicherheit, auf Biologie und Chemie nahe an Waffen, und auf Distillation, also den Versuch, mit dem Modell ein Konkurrenzmodell zu trainieren. Schlägt ein Klassifikator an, antwortet Fable 5 nicht. Die Anfrage geht an Claude Opus 4.8, das bis zu diesem Morgen die Spitze des öffentlichen Stacks war, und Opus antwortet an Fables Stelle.

Für alle, die auf der API bauen, ist das keine abstrakte Sicherheitsgeschichte. Es ist eine Response-Form, die du behandeln musst. Eine abgelehnte Anfrage kommt als stop_reason: "refusal" mit einem normalen HTTP 200 zurück, nicht als Fehler, und sie nennt dir den Klassifikator, der ausgelöst hat. Du kannst die API über einen fallbacks-Parameter auf einem anderen Modell wiederholen lassen, oder es clientseitig über die SDK-Middleware machen. Für eine Anfrage, die vor der Ausgabe abgelehnt wird, zahlst du nichts.

{
  "stop_reason": "refusal",
  "stop_sequence": null,
  "content": []
}

Anthropic sagt, das sei selten. Die frühen Zahlen nennen mindestens 95 Prozent der Fable-Sitzungen, die komplett auf Fables eigenen Antworten laufen. Für allgemeine Arbeit glaube ich das. Aber "selten im Schnitt" und "selten für deine Arbeit" sind zwei verschiedene Aussagen. Wer Security-Werkzeuge baut, Exploit-Berichte liest oder Biochemie macht, lebt näher an der Auslöseschwelle als der Durchschnitt, und sein echtes Erlebnis ist ein leiseres, billigeres Modell mit einer teureren Rechnung. Gut zu wissen, bevor du eine Produktiv-Pipeline darauf richtest.

Der Benchmark-Vorsprung ist echt und schmaler als er aussieht#

Die Schlagzeilen-Zahl stimmt. Auf SWE-bench Pro, dem harten Benchmark für agentisches Coding, erreicht Fable 5 80,3 Prozent. Opus 4.8 liegt bei 69,2, GPT-5.5 bei 58,6, Gemini 3.1 Pro bei 54,2. Das sind elf Punkte Vorsprung vor Anthropics eigenem bisherigen Bestwert und mehr als zwanzig vor dem stärksten Allzweckmodell von OpenAI. Auf Cognitions FrontierCode Diamond verdoppelt es Opus fast. Das sind keine Rundungsfehler. Für lange, mehrstufige Coding-Arbeit ist das der größte Abstand zwischen Spitzenmodellen, den ich in einer einzigen Generation gesehen habe.

Dann schau auf die zweite Zahl, die Anthropic veröffentlicht hat und die fast niemand zitiert hat. Auf SWE-bench Verified erreicht Fable 5 95,0 und Mythos 5 95,5. Dasselbe Modell, ein halber Punkt Unterschied. Der Abstand ist keine Fähigkeitslücke. Es ist Fables Sicherheits-Fallback, der gelegentlich eine Coding-Aufgabe an Opus abgibt. Dieser halbe Punkt ist der Preis der Schutzmechanismen, gemessen.

Der Vorsprung ist also echt, aber er konzentriert sich. Agentisches Coding, Tool Use, Reasoning über lange Kontexte, Finanzen, Vision. Anthropic meldet den ersten Wert über 90 Prozent auf Hex' Analytics-Suite und die Bestnote auf Hebbias Finanz-Benchmark. Als Kundenbeleg führt es Stripe an, das Fable 5 über eine 50 Millionen Zeilen große Ruby-Codebasis laufen ließ und eine Migration an einem Tag abschloss, die ein Team von Hand auf über zwei Monate geschätzt hatte. Beeindruckend, und zugleich genau die Art Einzelkunden-Zahl, bei der du deinen eigenen Test fahren willst, bevor du sie für deine Codebasis glaubst.

Was es kostet, und der Haken am 22. Juni#

Fable 5 kostet 10 Dollar pro Million Input-Token und 50 pro Million Output-Token. Das ist exakt das Doppelte von Opus 4.8, das bei 5 und 25 liegt. Es ist zugleich weniger als die Hälfte dessen, was das gesperrte Mythos Preview Anfang des Jahres kostete, der Preis ist also auf seinen eigenen Maßstab gesunken. Es bringt ein Context Window von 1M Token und bis zu 128k Output-Token mit, und es ist ein Covered Model, was eine Aufbewahrungspflicht von 30 Tagen bedeutet und keine Option auf Zero Retention. Wenn dein Vertrag Zero Retention voraussetzt, passt dieses Modell nicht hinein.

Es gibt einen Kalender-Haken, der mehr zählt als der Listenpreis. Vom Launch bis zum 22. Juni ist Fable 5 ohne Aufpreis in den Plänen Pro, Max, Team und Enterprise enthalten. Ab dem 23. Juni zieht die Nutzung in diesen Plänen von Usage Credits ab. Anthropic nennt das eine Kapazitätsmaßnahme und sagt, man wolle Fable später wieder in das feste Abo aufnehmen, ohne Datum. Die kostenlosen zwei Wochen sind also ein echtes Testfenster, und die Dauer-Kosten sind ein Credit-Zähler. Plane entsprechend, statt dein tägliches Arbeitstier daran zu hängen und in zwei Wochen überrascht zu werden.

Der Schutzmechanismus ist die eigentliche Produktentscheidung#

Hier ist der Teil, zu dem ich immer wieder zurückkomme. Der Klassifikator ist keine Fußnote zu einem starken Modell. Er ist das Produkt. Anthropic hat ein Modell gebaut und in zwei Haltungen ausgeliefert, und die ganze öffentliche Freigabe existiert nur, weil die Schutzmechanismen es der Firma erlauben, so viel Leistung an alle zu geben. Das Benchmark-Diagramm ist das Marketing. Die Maschinerie aus Ablehnung und Fallback ist der eigentliche Launch.

Diese Sichtweise erklärt auch das Timing, auf das mehrere Medien gezeigt haben. Fünf Tage vor dieser Freigabe, am 4. Juni, veröffentlichte Anthropic einen Text mit dem Titel "When AI Builds Itself", der davor warnt, dass Modelle sich der rekursiven Selbstverbesserung nähern könnten, und einen koordinierten Mechanismus vorschlägt, mit dem die Branche die Frontier-Entwicklung verlangsamen oder pausieren könnte. Reuters, Scientific American und andere berichteten darüber. Dann, am 9. Juni, lieferte dieselbe Firma das stärkste Modell aus, das die Allgemeinheit je anfassen durfte. Kritiker lesen das als Strategie, als Weg, Regulierung auf eine Bahn zu lenken, auf der Anthropic vorne liegt. Vielleicht. Die nüchternere Lesart ist, dass beide Ereignisse dieselbe Aussage sind. Der Verlangsamungs-Essay und die klassifikatorgesperrte Freigabe sind beide Anthropic, das sagt: Die Leistung ist jetzt jenseits des Punktes, an dem man sie roh ausliefert. Du kannst das überzeugend oder eigennützig finden. So oder so ist der Schutzmechanismus keine Hülle mehr um das Produkt. Er ist die Form des Produkts.

Warum das Modell selten dein Engpass war#

Jetzt der unbeliebte Teil. Für die meisten Systeme, die Leute wirklich betreiben, wird ein Wechsel zu Fable 5 weniger ändern, als der Benchmark-Abstand vermuten lässt.

Anfang des Jahres machte eine Single-Blind-Studie die Runde, in der das Modell hinter einem Assistenten ausgetauscht wurde, ohne dass die Nutzer es bemerkten, und der gemessene Unterschied im Ergebnis war statistisch nicht signifikant. Das deckt sich mit dem, was wir beim Bauen echter Systeme sehen. Sobald du jenseits einer fähigen Basis bist, und Opus 4.8 und Sonnet 4.6 sind weit jenseits davon, entscheidet selten die Modellstufe darüber, ob dein Assistent gut ist. Es entscheidet, ob er den richtigen Kontext vor sich hat. Was er über Sitzungen hinweg behält. Wie gut er das richtige Dokument findet. Ob die Werkzeuge, die er aufruft, saubere Daten zurückgeben. Die KI-Gedächtnissysteme, die wir bauen bewegen bei solchen Systemen weit mehr als ein Modell-Upgrade, weil das Modell die falsche Frage gut beantwortet hat, nicht die richtige Frage schlecht.

Das ist kein Argument gegen Fable 5. Es ist ein Argument darüber, wo man investiert. Wenn dein Agent den Kunden zwischen zwei Schritten vergisst, dann vergisst ihn ein Modell, das elf Punkte besser auf SWE-bench ist, eben elf Punkte eloquenter. Bring zuerst den Kontext in Ordnung. Dann greif bei den wirklich harten Reasoning-Aufgaben, bei denen du diese Arbeit schon erledigt hast, zum stärkeren Modell und spür den Unterschied. Ich habe einen längeren Wegweiser durch die gesamte Claude-Familie geschrieben, falls du die Karte willst, welches Modell zu welcher Aufgabe passt.

Wann du zu Fable 5, Opus 4.8 oder Sonnet greifst#

Der ehrliche Entscheidungsbaum ist kurz.

Greif zu Fable 5 bei der harten agentischen Arbeit, bei der sein Vorsprung echt ist und die Aufgabe die doppelte Token-Rechnung wert. Große Refactors über eine große Codebasis, lange autonome Tool-Ketten, dichtes Dokument- und Finanz-Reasoning, alles, wo eine etwas bessere Antwort sich über viele Schritte aufsummiert. Teste es kostenlos vor dem 23. Juni, dann behandle es als das Werkzeug, das du für die harten Fälle herausholst, nicht als das, das jede Anfrage bearbeitet.

Bleib bei Opus 4.8 als täglichem Arbeitstier für agentische und Coding-Arbeit. Es ist halb so teuer, es ist ohnehin das, worauf Fable zurückfällt, und bei den meisten Aufgaben ist der Unterschied klein. Wenn deine Arbeit security-lastig ist, ist Opus auch die berechenbarere Wahl, weil Fable dich sowieso mitten in der Aufgabe dorthin leitet und dir den Umweg berechnet.

Bleib bei Sonnet 4.6 für die hochvolumige, latenzkritische oder klassifikationsartige Arbeit, bei der Frontier-Reasoning verschwendet ist. Die meisten Aufrufe in einem gut gebauten System sind von dieser Art. Routing, Zusammenfassen, Extrahieren, Ranking. Dafür Frontier-Preise zu zahlen ist eine verbreitete und teure Gewohnheit.

Mythos 5 ist für fast alle, die das hier lesen, keine Option. Es ist auf Glasswing-Partner beschränkt. Der realistische Schritt ist, das Trusted-Access-Programm zu beobachten, statt darauf zu warten.

Der Launch, der hier zählt, ist nicht, dass Anthropic eine weitere Benchmark-Marke geknackt hat. Es ist, dass die Frontier jetzt mit einem Schiedsrichter zwischen dir und dem Modell ausgeliefert wird, der in Echtzeit entscheidet, mit welchem Claude du überhaupt sprechen darfst. Das ist eine neue Voreinstellung, und sie wird die normale Form jedes starken Modells von hier an sein. Die Teams, die das nächste Jahr gewinnen, sind nicht die, die zur höchsten Zahl im Diagramm gewechselt sind. Es sind die, die schon alles in Ordnung gebracht haben, was das Modell ohnehin nie für sie lösen würde.