Casi ningún agente de IA está en producción. Qué sí funciona.

Matthias Meyer

Una encuesta muy compartida dice que el 42 por ciento de las empresas ya tiene agentes de IA en producción. La fuente más rigurosa del campo, el AI Index 2026 de Stanford, dice que el despliegue real de agentes autónomos sigue en un solo dígito en casi todas las funciones de negocio. Ambas cifras se publicaron este año, ambas son defendibles, y en la distancia entre ellas se está tomando ahora mismo casi cada mala decisión sobre agentes de IA. Si solo recuerdas una cosa sobre los agentes a mediados de 2026, que sea esta: la tecnología es mucho más capaz de lo que sugieren las cifras de despliegue, y la brecha no viene de la inteligencia. Viene de la confianza, del alcance y de si alguien se entera cuando el agente se equivoca.

Construyo sistemas de agentes para vivir, y paso al menos tanto tiempo disuadiendo a clientes de proyectos de agentes como animándolos. No porque las herramientas sean malas. Sino porque la respuesta honesta a "¿deberíamos poner un agente autónomo aquí?" suele ser "en esta porción concreta sí, en el resto todavía no". El mercado es ruidoso, entre el bombo y la reacción, y la verdad es menos satisfactoria que ambos. Aquí está la versión que de verdad creo, con las cifras que la respaldan.

La cifra depende por completo de a quién preguntes

El mayor error al leer datos de adopción de agentes es tratar "desplegar", "en producción", "escalar" y "entregar valor" como la misma palabra. Las miden personas distintas, sobre grupos distintos, con definiciones que en silencio hacen casi todo el trabajo.

El titular del 42 por ciento viene de Mayfield, una firma de capital riesgo, que en enero encuestó a 266 altos ejecutivos de tecnología de su propia red. Es una señal real, pero una multitud aduladora respondiendo a una pregunta generosa. Pasa a las metodologías más duras y el suelo desaparece. El State of AI de McKinsey de finales de 2025 encontró que alrededor del 23 por ciento de las organizaciones escala un sistema agéntico en algún sitio, pero menos del 10 por ciento lo escala hasta un valor tangible. El AI Index de Stanford, más de 400 páginas y la fuente menos sesgada que conozco, sitúa el despliegue real de agentes autónomos en un solo dígito en casi todas las funciones. El término recurrente del sector para el espacio entre un piloto y la producción es "purgatorio de pilotos", y la mayoría de las empresas está sentada en él.

Reconcilia eso con honestidad y obtienes un cuadro que puedes defender ante un escéptico. Entre las empresas grandes, una clara mayoría experimenta, entre el 10 y el 30 por ciento tiene al menos un agente de verdad en producción, y bastante por debajo del 15 por ciento opera agentes a la escala en la que mueven la cuenta de resultados. Hasta los optimistas datos de Mayfield llevan la pista delatora: el 84 por ciento de esos ejecutivos llama a la seguridad y al cumplimiento innegociables, pero el 60 por ciento admite que tiene una gobernanza de IA incipiente o nula, y nombran la madurez de los datos, no la calidad del modelo, como el bloqueo número uno. Los agentes están listos antes que las organizaciones.

Los agentes terminan alrededor de un tercio del trabajo de oficina real

Cuando mides los agentes con trabajo realista en vez de con benchmarks limpios, la brecha de capacidad se vuelve concreta. Carnegie Mellon construyó TheAgentCompany, una empresa simulada con 175 tareas de varios pasos a través de software, finanzas, RR. HH. y administración, conectada con las herramientas reales que usa una empresa. El mejor modelo de frontera terminó alrededor del 30 por ciento de las tareas del todo, algo menos del 40 por ciento con crédito parcial, a unos cuatro dólares por tarea. El resto lo hizo mal, lo abandonó o, lo más revelador, lo fingió. Los investigadores vieron a los agentes "crear atajos falsos que omiten la parte difícil de la tarea", que es el único modo de fallo que un negocio debería temer más, porque parece éxito hasta que no lo es.

La capacidad también es irregular de formas que desafían la intuición. El mismo modelo que se lleva una medalla de oro en una olimpiada de matemáticas lee un reloj analógico correctamente más o menos la mitad de las veces. La alucinación no es un problema resuelto con una sola tasa, leas lo que leas: a través de 26 modelos de frontera en una evaluación de 2026, la alucinación fue del 22 al 94 por ciento según la prueba, y la precisión se hunde cuando una pregunta se plantea para halagar una suposición falsa. Ya existe una base de datos rastreada de más de 1.400 casos judiciales con citas legales inventadas por IA. Nada de esto significa que los agentes sean inútiles. Significa que sus fallos caen donde los humanos no los esperan, y por eso justamente el despliegue sin supervisión sale mal.

El veredicto en lenguaje llano es más útil que cualquier benchmark. Los agentes hoy son fiables en tareas acotadas y con forma de herramienta, cuyo trabajo se puede comprobar al final. Son poco fiables en el juicio abierto, las entradas desordenadas del mundo real como un montón mixto de facturas fotografiadas, y los objetivos de largo recorrido sin puntos de control. La habilidad en 2026 no es elegir el modelo más listo. Es distinguir esas dos clases de trabajo.

Por qué más del 40 por ciento de los proyectos de agentes se cancelarán

Gartner encuestó a más de 3.400 líderes empresariales y predice que más del 40 por ciento de los proyectos de IA agéntica se cancelarán para finales de 2027. La parte interesante es la causa, porque casi nunca es "el modelo no era lo bastante listo". Las razones citadas son costes crecientes que nadie presupuestó, un valor de negocio demasiado vago para defenderlo cuando la dirección pregunta por el retorno, controles de riesgo demasiado débiles para dejar a un agente cerca de los datos de clientes, y una cantidad generosa de "lavado de agentes", el propio término de Gartner para un chatbot disfrazado de agente. Los fracasos son errores de elección del caso de uso, no fallos de la tecnología.

El coste es aquí el asesino más silencioso, y se agrava con una moda de diseño. El instinto ante los problemas difíciles es lanzarles un enjambre de agentes, pero investigadores de Princeton encontraron que un solo agente igualaba o superaba a las configuraciones multiagente en el 64 por ciento de las tareas con las mismas herramientas, mientras que la versión multiagente quemaba unas dos o tres veces los tokens por unos dos puntos de precisión extra. Los sistemas agénticos ya disparan de diez a veinte llamadas al modelo por tarea, y esa es exactamente la dinámica detrás de la paradoja del coste de la IA: el precio por token sigue cayendo mientras la factura sube, porque cada agente extra en el bucle se gasta el ahorro. Una arquitectura multiagente que adoptaste por elegancia puede convertirse en silencio en la partida que cancela todo el proyecto.

El cuello de botella es la confianza, no la inteligencia

La prueba más clara de que la capacidad no es la restricción viene de la única categoría donde los agentes funcionan sin discusión: escribir código. Claude Code de Anthropic alcanzó en febrero un ritmo de ingresos anualizado por encima de los 2.500 millones de dólares, más que duplicado desde principios de año, con el segmento empresa ya por encima de la mitad de los ingresos. Cursor cruzó los dos mil millones de ingresos anuales en febrero y unos tres mil millones para abril. El Codex de OpenAI pasó de unos cuatro millones de desarrolladores semanales. No son pilotos. Es la categoría de software de más rápido crecimiento que he visto nunca, y funciona por una razón aburrida: el código tiene pruebas. La comprobación al final está incorporada, así que delegar es seguro.

Y sin embargo, incluso aquí, la confianza va por detrás de la capacidad. El propio análisis de Anthropic de 2026 sobre cómo trabajan los desarrolladores encontró que ahora usan IA en torno al 60 por ciento de sus tareas, pero solo delegan del todo entre el cero y el veinte por ciento. Un observador lo resumió perfecto: los desarrolladores usan estas herramientas más agresivamente que nunca y a la vez confían en ellas menos. La respuesta que funcionó no fue un modelo más listo, sino una función de gobernanza. Claude Code lanzó un "modo automático" que usa un modelo clasificador separado para auto-aprobar acciones seguras como escribir archivos y ejecutar pruebas, mientras bloquea las destructivas como el borrado masivo. Esa es toda la lección de mediados de 2026 en una decisión de producto: el agente no necesitaba ser más listo para que se confiara en él en producción, necesitaba un límite que no pudiera cruzar sin un humano, hecho explícito en la arquitectura.

Qué automatizar de verdad ahora

Si llevas un negocio y quieres la versión práctica, aquí está la regla de decisión que uso. Una tarea agéntica es buena candidata cuando es acotada, con forma de herramienta y barata de verificar: las entradas son predecibles, el agente actúa a través de herramientas definidas en vez de juicio abierto, y hay al final una comprobación clara que te dice si funcionó. Clasificar y enrutar tickets de soporte, redactar respuestas que un humano aprueba, conciliar registros estructurados, cribar y agendar, extraer y resumir de sistemas que controlas: esas son las victorias que llegan a producción. Son poco vistosas, estrechas, y rinden.

El trabajo que no debes entregar a un agente sin supervisión es la imagen especular: cualquier cosa que requiera juicio abierto, entradas desordenadas o mixtas, acciones irreversibles, o un horizonte largo sin puntos de control. Ahí apuntaban también la mayoría de los proyectos cancelados en los datos de Gartner, y ahí viven las trampas más comunes de los agentes. Elegir la tarea equivocada es el error, no elegir el modelo equivocado.

Cuando la tarea encaja, el guion que separa a los proyectos que sobreviven del 40 por ciento que no lo hace es consistente en toda fuente seria. Traza el proceso primero como un manual paso a paso, y si no puedes escribir pasos que un empleado nuevo pueda seguir sin hacer preguntas, no estás listo para automatizarlo. Estrecha el alcance a un flujo de trabajo de alto valor y como mucho dos o tres agentes. Haz del humano en el bucle una propiedad de diseño, no una disculpa: el agente maneja los casos claros y enruta los ambiguos, de baja confianza y de alto riesgo a una cola de revisión de un clic. Mantén el estado del agente, su memoria de qué es cierto y qué sigue abierto, en una base de datos que sea tuya, no en su ventana de contexto. Esta es la misma disciplina detrás de cualquier automatización con IA que aguanta en producción, y es aburrida a propósito.

Lo que esto significa

La criba que Gartner pronostica no es el estallido de la burbuja, es la categoría madurando. Los proyectos que mueren apuntaban en su mayoría al trabajo equivocado, se vendieron sobre un retorno vago, o se construyeron sin un límite que el agente no pudiera cruzar. Los que sobreviven se verán poco impresionantes al lado de las demos: un solo agente dueño de un flujo de trabajo bien definido, con un humano en cada puerta de alto riesgo y un número que muestra que movió algo. Así es como se ve "en producción" de verdad, y por eso la cifra real de adopción es de un solo dígito mientras la capacidad es cualquier cosa menos eso.

Mi predicción es que la pregunta más valiosa en cualquier conversación sobre agentes de IA durante el próximo año no será "qué de listo es el modelo". Será "qué no puede hacer este agente, y dónde exactamente se planta un humano cuando choca con esa pared". Respóndela bien y estarás en el pequeño grupo que obtiene valor real. Sáltatela y estarás financiando un piloto que un analista de Gartner ya contó como cancelado. Los agentes están listos para más de lo que la mayoría de las empresas hace con ellos, y para mucho menos de lo que vende la gente más ruidosa. El trabajo es aprender a distinguir cuál de las dos cosas es.