Claude Fable 5 son dos modelos con un solo nombre

Matthias Meyer

El 9 de junio de 2026, Anthropic lanzó el modelo más capaz que jamás ha puesto a disposición del público. Lo más interesante de él es la parte que a veces se niega a responderte.

Claude Fable 5 es el primer modelo de lo que Anthropic llama su clase Mythos, un nivel que ahora se sitúa por encima de Opus. Llegó como pareja. Fable 5 es la versión pública. Claude Mythos 5 es el mismo modelo con sus salvaguardas relajadas, y no está a la venta para la mayoría de nosotros. Solo va a defensores de ciberseguridad y proveedores de infraestructura verificados, a través de un programa llamado Project Glasswing, en colaboración con el gobierno de Estados Unidos. Dos nombres, un cerebro. Lo que los separa es un conjunto de clasificadores.

Ese detalle es la historia de verdad, y casi todos los artículos del día del lanzamiento lo enterraron bajo el gráfico de benchmarks. Así que empiezo justo por ahí.

Un modelo, dos nombres, un clasificador en medio#

Fable 5 funciona con tres clasificadores a su lado. Vigilan las peticiones sobre ciberseguridad ofensiva, sobre biología y química cercanas a las armas, y sobre distillation, es decir, usar el modelo para entrenar a un competidor. Cuando un clasificador salta, Fable 5 no responde. La petición pasa a Claude Opus 4.8, el modelo que era la cima del stack público hasta esa mañana, y Opus responde en lugar de Fable.

Para quien construye sobre la API, esto no es una historia abstracta de seguridad. Es una forma de respuesta que tienes que manejar. Una petición rechazada vuelve como stop_reason: "refusal" con un HTTP 200 normal, no como un error, y te dice qué clasificador se activó. Puedes hacer que la API reintente en otro modelo con un parámetro fallbacks, o hacerlo del lado del cliente con el SDK middleware. No se te cobra por una petición que se rechaza antes de generar salida.

{
  "stop_reason": "refusal",
  "stop_sequence": null,
  "content": []
}

Anthropic dice que esto es raro. Sus primeras cifras hablan de al menos un 95 por ciento de las sesiones de Fable funcionando enteramente con las respuestas del propio Fable. Para trabajo general me lo creo. Pero "raro de media" y "raro para tu carga de trabajo" son afirmaciones distintas. Quien construye herramientas de seguridad, analiza informes de exploits o hace bioquímica vive más cerca del umbral del clasificador que el usuario medio, y su experiencia real es un modelo más callado y barato con una factura más cara. Conviene saberlo antes de apuntar una pipeline de producción hacia él.

La ventaja en benchmarks es real y más estrecha de lo que parece#

La cifra del titular es cierta. En SWE-bench Pro, el duro benchmark de coding agéntico, Fable 5 logra un 80,3 por ciento. Opus 4.8 se queda en 69,2, GPT-5.5 en 58,6 y Gemini 3.1 Pro en 54,2. Son once puntos de ventaja sobre el mejor registro anterior de la propia Anthropic y más de veinte sobre el modelo general más fuerte de OpenAI. En FrontierCode Diamond, de Cognition, casi duplica a Opus. No son errores de redondeo. Para trabajo de coding largo y de varios pasos, es la mayor distancia entre modelos de frontera que he visto en una sola generación.

Ahora mira la segunda cifra que publicó Anthropic y que casi nadie citó. En SWE-bench Verified, Fable 5 logra 95,0 y Mythos 5 logra 95,5. El mismo modelo, medio punto de diferencia. La distancia no es de capacidad. Es el fallback de seguridad de Fable, que de vez en cuando pasa una tarea de coding a Opus. Ese medio punto es el precio de las salvaguardas, medido.

Así que la ventaja es real, pero se concentra. Coding agéntico, uso de herramientas, razonamiento sobre contextos largos, finanzas, visión. Anthropic informa de la primera puntuación por encima del 90 por ciento en la suite de analítica de Hex y de la nota más alta en el benchmark de finanzas de Hebbia. Como prueba de cliente cita a Stripe, que pasó Fable 5 por una base de código Ruby de 50 millones de líneas y completó en un día una migración que había estimado en más de dos meses a mano. Impresionante, y a la vez exactamente el tipo de cifra de un solo cliente que hace que quieras hacer tu propia prueba antes de creerla para tu base de código.

Lo que cuesta, y la trampa del 22 de junio#

Fable 5 cuesta 10 dólares por millón de tokens de entrada y 50 por millón de salida. Es exactamente el doble de Opus 4.8, que está en 5 y 25. También es menos de la mitad de lo que costaba el restringido Mythos Preview a principios de año, así que en sus propios términos el precio bajó. Trae una ventana de contexto de 1M tokens y hasta 128k tokens de salida, y es un Covered Model, lo que implica una retención de datos obligatoria de 30 días y ninguna opción de zero retention. Si tu contrato da por hecho zero retention, este modelo no encaja en él.

Hay una trampa de calendario que pesa más que el precio de lista. Desde el lanzamiento hasta el 22 de junio, Fable 5 está incluido sin coste extra en los planes Pro, Max, Team y Enterprise. Desde el 23 de junio, usarlo en esos planes consume usage credits. Anthropic lo presenta como una medida de capacidad y dice que pretende devolver Fable a la suscripción fija más adelante, sin fecha. Así que las dos semanas gratis son una ventana real para probar, y el coste estable es un contador de créditos. Planifica en consecuencia, en lugar de enganchar tu caballo de batalla diario a él y llevarte una sorpresa en dos semanas.

La salvaguarda es la verdadera decisión de producto#

Aquí está la parte a la que vuelvo una y otra vez. El clasificador no es una nota al pie de un modelo potente. Es el producto. Anthropic construyó un modelo y lo lanzó en dos posturas, y todo el lanzamiento público existe solo porque las salvaguardas le permiten sentirse cómoda dando tanta capacidad a todo el mundo. El gráfico de benchmarks es el marketing. La maquinaria de rechazo y fallback es el lanzamiento de verdad.

Ese encuadre también explica el timing que varios medios señalaron. Cinco días antes de este lanzamiento, el 4 de junio, Anthropic publicó un texto titulado "When AI Builds Itself", que advierte de que los modelos podrían estar acercándose a la automejora recursiva y propone un mecanismo coordinado para que la industria frene o pause el desarrollo de frontera. Reuters, Scientific American y otros lo cubrieron. Luego, el 9 de junio, la misma empresa lanzó el modelo más potente que el público ha podido tocar jamás. Los críticos lo leen como estrategia, una forma de atraer la regulación hacia una vía en la que Anthropic va por delante. Quizá. La lectura más sobria es que ambos hechos son la misma afirmación. El ensayo sobre la desaceleración y el lanzamiento con clasificadores son los dos Anthropic diciendo que la capacidad está ya más allá del punto en el que se entrega en crudo. Puedes encontrarlo convincente o interesado. En cualquier caso, la salvaguarda ya no es una funda alrededor del producto. Es la forma del producto.

Por qué el modelo rara vez era tu cuello de botella#

Ahora la parte impopular. Para la mayoría de los sistemas que la gente realmente opera, cambiar a Fable 5 cambiará menos de lo que sugiere la distancia en benchmarks.

A principios de año circuló un estudio a ciego simple en el que se cambió el modelo detrás de un asistente sin que los usuarios lo notaran, y la diferencia medida en los resultados no fue estadísticamente significativa. Eso coincide con lo que vemos al construir sistemas reales. Una vez que estás más allá de una base capaz, y Opus 4.8 y Sonnet 4.6 lo están de sobra, rara vez es el nivel del modelo lo que decide si tu asistente es bueno. Lo decide si tiene el contexto correcto delante. Qué recuerda entre sesiones. Cómo de bien recupera el documento adecuado. Si las herramientas que llama devuelven datos limpios. Los sistemas de memoria de IA que construimos mueven la aguja en esos sistemas mucho más que una actualización de modelo, porque el modelo respondía bien a la pregunta equivocada, no mal a la pregunta correcta.

Esto no es un argumento contra Fable 5. Es un argumento sobre dónde invertir. Si tu agente olvida al cliente entre turnos, un modelo once puntos mejor en SWE-bench lo olvidará once puntos más elocuentemente. Arregla primero el contexto. Luego, en las tareas de razonamiento de verdad difíciles donde ya has hecho ese trabajo, echa mano del modelo más fuerte y nota la diferencia. Escribí una guía más larga por toda la familia Claude por si quieres el mapa de qué modelo encaja con cada tarea.

Cuándo echar mano de Fable 5, Opus 4.8 o Sonnet#

El árbol de decisión honesto es corto.

Echa mano de Fable 5 en el trabajo agéntico duro donde su ventaja es real y la tarea merece el doble de factura de tokens. Refactors grandes sobre una base de código grande, cadenas de herramientas autónomas largas, razonamiento denso sobre documentos y finanzas, todo aquello donde una respuesta algo mejor se acumula a lo largo de muchos pasos. Pruébalo gratis antes del 23 de junio, y luego trátalo como la herramienta que sacas para los casos difíciles, no la que atiende cada petición.

Quédate con Opus 4.8 como caballo de batalla diario para el trabajo agéntico y de coding. Cuesta la mitad, es a lo que Fable recurre de todos modos, y en la mayoría de las tareas la diferencia es pequeña. Si tu trabajo es de corte security, Opus es además la opción más predecible, porque Fable te llevará allí a mitad de tarea de todas formas y te cobrará el desvío.

Quédate con Sonnet 4.6 para el trabajo de alto volumen, sensible a la latencia o con forma de clasificación, donde el razonamiento de frontera se desperdicia. La mayoría de las llamadas dentro de un sistema bien construido son de este tipo. Enrutar, resumir, extraer, ordenar. Pagar precios de frontera por ellas es un hábito común y caro.

Mythos 5, para casi todos los que leen esto, no es una opción. Está restringido a los socios de Glasswing. El movimiento realista es vigilar el programa de acceso de confianza en lugar de esperarlo.

El lanzamiento que importa aquí no es que Anthropic haya superado otra marca de benchmark. Es que la frontera ahora se entrega con un árbitro entre tú y el modelo, que decide en tiempo real con qué Claude se te permite hablar. Es un valor por defecto nuevo, y será la forma normal de todo modelo potente a partir de ahora. Los equipos que ganen el próximo año no serán los que se pasaron a la cifra más alta del gráfico. Serán los que ya arreglaron todo lo que el modelo nunca iba a resolver por ellos.