La paradoja del coste de la IA: 280x más barata, facturas al alza

Matthias Meyer

Operar un modelo de IA competente se volvió unas 280 veces más barato en dos años. En ese mismo periodo, la factura media de IA de una empresa subió, en lugar de bajar. Ambas cifras son reales, ambas provienen de investigación creíble, y el espacio entre ellas es lo más útil que un operador puede entender sobre la economía de la IA en 2026. Explica por qué "los modelos son cada vez más baratos" y "nuestro gasto en IA está fuera de control" se dicen en la misma reunión, por las mismas personas, sobre los mismos sistemas.

Lo veo en proyectos de clientes cada mes. Alguien lee que los precios de los tokens se desplomaron, asume que sus costes están a punto de caer en picado, y entonces abre una factura que hizo lo contrario. Esa confusión no es un error de facturación. Es una característica estructural de cómo se construye la IA hoy, y en cuanto ves el mecanismo, puedes planificar en lugar de llevarte sorpresas.

La cifra que debería haber bajado tu factura

Empieza por el desplome, porque es realmente asombroso. El AI Index 2026 de Stanford sitúa el precio del rendimiento a nivel de GPT-3.5 entre noviembre de 2022 y octubre de 2024 en unas 280 veces más barato, una caída de unos 20 dólares por millón de tokens a unos 7 céntimos. No es una errata ni un caso aislado. Epoch AI mide un descenso mediano de casi 50 veces al año para igual capacidad. La firma de capital riesgo a16z lo calcula de forma más conservadora en torno a 10 veces al año, y eso sigue siendo más rápido de lo que cayó la computación en la era del PC o el ancho de banda durante la expansión de las puntocom.

La frontera hizo lo mismo en público. Cuando Anthropic lanzó Claude Opus 4.5 en noviembre de 2025, recortó el precio del modelo insignia de 15 y 75 dólares por millón de tokens de entrada y salida a 5 y 25, una reducción del 67 por ciento en un solo lanzamiento. Lo que pasó después es la parte que la mayoría pasa por alto. Anthropic mantuvo ese precio de 5 y 25 a lo largo de Opus 4.6, 4.7 y 4.8 mientras el modelo seguía mejorando. El precio por token dejó de caer y la capacidad siguió subiendo, lo cual es su propio tipo de recorte de precio.

El detonante de gran parte de esto fue la competencia desde abajo. DeepSeek R1 aterrizó en enero de 2025 a 55 céntimos por millón de tokens alcanzando alrededor del 95 por ciento del o1 de OpenAI, y los grandes laboratorios respondieron con movimientos de precio de emergencia. A mediados de 2026 el suelo es notable. El GPT-5.4-nano de OpenAI funciona a 20 céntimos de entrada y 1,25 dólares de salida por millón. DeepSeek V4 Pro, un modelo de pesos abiertos que puedes alojar tú mismo, ronda los 44 céntimos de entrada. El Gemini 3.5 Flash de Google supera al modelo Pro de la generación anterior en pruebas de agentes a 1,50 y 9 dólares. Sobre el papel, la inteligencia nunca había sido tan barata de alquilar.

Por qué la factura subió en su lugar

Aquí está la paradoja en palabras claras. Los precios por token cayeron por un factor de cientos, y según una estimación la factura media de IA de las empresas subió aun así más de un 300 por ciento en la misma ventana. La magnitud exacta de esa cifra de gasto la trato como un valor orientativo, no como un evangelio, porque proviene de un análisis secundario, pero la dirección está confirmada en todas partes y la razón es estructural, no accidental.

Los tokens baratos se gastan, no se ahorran. Lo que compras cambió de forma. En 2023 una interacción típica era un prompt y una respuesta, unos pocos miles de tokens, una llamada al modelo. En 2026 el mismo resultado de negocio pasa por un agente que dispara entre 10 y 20 llamadas al modelo para una sola tarea de usuario. Planifica, llama a una herramienta, lee el resultado, replanifica, revisa su propio trabajo, escribe un mensaje de commit. La generación aumentada por recuperación infla el contexto de cada una de esas llamadas metiendo de tres a cinco veces más texto de referencia. Y el agente no se va a casa por la noche. Los agentes de monitorización y los asistentes siempre activos facturan las veinticuatro horas, mire alguien o no.

Así que la unidad se volvió 280 veces más barata y el número de unidades por tarea subió más que eso. Es exactamente el patrón que ha seguido cada ganancia de eficiencia en la informática. El almacenamiento barato no encogió los centros de datos, nos dio vídeo en todas partes. El ancho de banda más barato no bajó la factura de internet de la persona media, nos dio streaming. La inteligencia más barata no baja el gasto en IA, hace que los agentes sean económicamente posibles, y los agentes tienen hambre. Para cualquiera que opere un producto sobre una API, esa es la línea que importa: una tarea que ayer costaba un céntimo es hoy un bucle que cuesta quince céntimos, y el bucle es lo que hace bueno al producto.

La era de la tarifa plana acaba de terminar

Si quieres un único evento que marque el giro, es GitHub Copilot. El primero de junio de 2026, GitHub pasó cada plan de Copilot a facturación por uso. Las unidades de petición premium fueron reemplazadas por AI Credits a un céntimo cada uno, facturados contra entrada, salida y tokens en caché al precio publicado de cada modelo. El modelo de reserva más barato que antes absorbía el exceso ya no está. Cuando se acaban tus créditos, o fijas un presupuesto o paras.

La razón que dio GitHub es la frase más clara que alguien ha escrito sobre todo este cambio. Con agentes y subagentes en juego, dijo la empresa, "ahora es habitual que un puñado de peticiones genere costes que superan el precio del plan". Léelo otra vez pensando en tu propio producto. Una suscripción mensual plana asume una cantidad de trabajo más o menos predecible por usuario. El software agéntico rompe esa suposición, porque un usuario motivado que apunta un agente a un problema difícil puede quemar un mes de margen en una tarde.

Cualquiera que construya sobre estas APIs vive ahora en el mundo que GitHub acaba de formalizar. Los proveedores dividen los precios en tramos de contexto corto y largo. Cobran por llamada a herramienta para búsqueda y uso del ordenador. Venden carriles prioritarios a 2,5 veces el precio base y ofrecen descuentos de hasta el 90 por ciento sobre la entrada en caché, para premiar arquitecturas que reutilizan prompts. El plan plano de barra libre fue producto de una época en la que una llamada era una llamada. Esa época se acaba, y poner precio a tu propio producto de IA como si no fuera así es la forma de despertarte subvencionando a tus usuarios más pesados.

Los pesos abiertos alcanzaron, y eso cambia las cuentas

La segunda fuerza que reconfigura la economía es que la opción barata se volvió realmente buena. Durante la mayor parte de los últimos tres años, "pesos abiertos" significaba "casi tan bueno, si entornas los ojos". Eso ya no es cierto en la cima. En la prueba de inteligencia de Artificial Analysis de abril de 2026, los mejores modelos abiertos sacaron alrededor de 54 frente a 60 del modelo cerrado más fuerte, una distancia de unos pocos puntos en vez de una generación. Nueve de los trece modelos en la frontera de inteligencia frente a precio son de pesos abiertos. El mismo índice de Stanford sitúa la distancia entre el mejor modelo estadounidense y el mejor chino en un 2,7 por ciento a marzo de 2026, frente a los 17 a 31 puntos de 2023.

En la práctica esto significa que ya no eliges entre un modelo caro que funciona y uno gratis que no. Eliges a lo largo de una curva, y la mayor parte de esa curva ahora es utilizable. Un modelo como DeepSeek V4 viene con un millón de tokens de contexto, funciona a una fracción de los precios de frontera y puede alojarse dentro de tu propia infraestructura. La pregunta estratégica dejó de ser "podemos permitirnos un buen modelo" y pasó a ser "qué buen modelo encaja con esta tarea concreta, a este volumen, bajo estas reglas de privacidad".

Esa última frase pesa más aquí que en casi cualquier otro sitio. Para una empresa en la UE que maneja datos de clientes, la posibilidad de ejecutar un modelo competente en su propio servidor o dentro de una nube privada no es solo una decisión de coste, es una decisión de cumplimiento. Las cuentas de un servidor de IA propio se ven muy distintas cuando la alternativa es enviar datos regulados a una API de terceros, y los modelos que lo hacen viable ahora son lo bastante buenos como para que el compromiso sea real en vez de teórico.

La jugada es el modelo correcto para cada tarea

Junta las dos fuerzas, tokens más baratos pero más hambrientos y un banquillo profundo de modelos utilizables, y la estrategia ganadora deja de ser una elección única y se convierte en una arquitectura. El patrón al que los profesionales convergen una y otra vez es la cascada, y es sencillo de enunciar. Manda el 80 a 90 por ciento de trabajo de alto volumen y predecible a un modelo pequeño, abierto o en el dispositivo. Reserva el caro modelo de frontera para la cola difícil que de verdad lo necesita. Bien hecho, esto captura la mayor parte del ahorro y mantiene disponible el razonamiento de frontera para los casos que lo justifican.

La línea divisoria no es el brillo, es la forma de la tarea. Clasificación, extracción, enrutamiento y resúmenes cortos son exactamente lo que los modelos pequeños hacen bien ahora. El Phi-4-mini de Microsoft iguala la calidad de un modelo mucho mayor en extracción estructurada mientras funciona en 8 gigabytes de memoria. Las variantes Gemma 4 de Google para el borde son multimodales y corren en un teléfono. No son juguetes, son la herramienta correcta para el 80 por ciento. El modelo de frontera gana su precio en razonamiento de varios pasos, síntesis de documentos largos y trabajo de agentes abierto, donde las entradas son amplias e impredecibles y un 80 por ciento de precisión no basta.

Por eso también desconfío de dos reacciones comunes a la noticia del coste. La primera es "esperar a que los precios bajen más", que malinterpreta el paradoja por completo, porque tu factura la impulsa cuántas llamadas hace tu diseño, no el precio de una sola llamada. La segunda es "usar el modelo más caro para todo, por si acaso", que a escala convierte una tarea de 2 céntimos en una de 20 sin ganancia de calidad. La disciplina es ajustar modelo a tarea, y es el mismo instinto detrás de tratar la elección de modelo como una decisión de resiliencia en lugar de lealtad de marca. La agencia que elige el modelo correcto para cada paso, y construye medición y enrutamiento desde el principio, acaba con costes más bajos y un sistema que no se cae cuando un proveedor cambia sus condiciones.

Lo que esto significa de verdad

El coste de la inteligencia seguirá cayendo, y tu factura de IA seguirá siendo una partida real, y ambas cosas serán ciertas a la vez. Eso no es una contradicción que resolver, es la condición de operación para la que hay que diseñar. Los equipos que lo interioricen construirán productos agénticos con topes de presupuesto, enrutamiento en cascada y una visión clara de qué modelo va en qué paso. Los equipos que esperen a que la tecnología sea lo bastante barata para dejar de pensar en el coste seguirán sorprendiéndose con sus facturas, porque la tecnología ya se abarató y la sorpresa es estructural.

Mi predicción para la segunda mitad de 2026 es que la "estrategia de modelos" se vuelve una parte normal de cualquier construcción seria de IA, igual que lo es hoy la "elección de base de datos", y que la conversación sobre el margen del envoltorio se pone ruidosa. Cuando un cliente puede ver que su porción de tokens te cuesta 2 dólares, un plan plano de 24 dólares empieza a parecer un recargo, y los productos que sobrevivan serán los que separen el valor que añaden de la inferencia que dejan pasar. La era del modelo barato no volvió el coste irrelevante. Movió el coste de un precio que se consulta a una decisión que se diseña, y ese es un problema mejor de tener, siempre que de verdad lo trates como tal.