Memoria de IA explicada: Qué cambia de verdad (y cuándo CLAUDE.md es suficiente)

Matthias Meyer

Pasaste una hora ayer depurando un bug con Claude. Hoy abres una sesión nueva y preguntas por ello. Claude no sabe nada.

Eso es la memoria. O más exacto, la ausencia de memoria.

Cualquiera que lleve unos meses trabajando con asistentes de IA conoce la sensación. Explicaste, confirmaste, documentaste algo. Próximo login, desaparecido. Vuelves a empezar de cero.

Hay ya casi una docena de sistemas que prometen resolver el problema. Algunos cuestan cero euros, otros 475 al mes. Algunos corren en local como ficheros markdown, otros como servicios cloud con knowledge graph. Lo que de verdad hacen y lo que es solo marketing no es tan fácil de ver como suena.

Este artículo repasa las opciones principales. Qué hacen, qué no hacen, y cuándo merece la pena el esfuerzo.

La memoria no es una cosa, son tres

Antes de hablar de herramientas, conviene aclarar de qué hablamos. En el mercado hay tres capas que se venden todas como "memoria" pero no son lo mismo.

Capa 1. Notas estáticas. Un fichero markdown como CLAUDE.md o AGENTS.md. Escribes ahí "usamos TypeScript en modo strict" y Claude lo lee en cada sesión. Esta es la memoria en su forma más simple. Sin algoritmos, sin embeddings, sin cloud. Solo un fichero que siempre se carga.

Capa 2. Notas que se acumulan. Esto es lo que Claude Code hace desde marzo 2026 con Auto-Memory. La IA escribe notas mientras trabaja, en el mismo fichero markdown. A lo largo de semanas el fichero crece. Auto-Dream limpia una vez al día, fusiona duplicados, sustituye "ayer" por una fecha concreta. ChatGPT Memory funciona en esencia igual, solo que no ves lo que OpenAI guarda ahí.

Capa 3. Memoria estructurada con knowledge graph. Aquí viven Mem0, Zep, Letta y nuestro propio sistema. La memoria no se guarda como texto sino como un grafo de entidades y relaciones. Pasquale es socio de negocio. Pasquale trabaja en empresa X. Empresa X está en sector Y. Más búsqueda semántica, decay de confianza, bi-temporalidad, es decir qué fue verdad en qué momento.

Las tres capas resuelven problemas distintos. Eso importa enseguida.

Capa 1, por qué CLAUDE.md basta para el 80 por ciento

He pasado los últimos meses construyendo mi propio sistema de memoria. Una cosa que aparece una y otra vez en la investigación, y que tengo que confirmar, es que la mayoría de los desarrolladores no necesitan un sistema de memoria. Necesitan un fichero markdown bien mantenido.

CLAUDE.md para Claude Code y AGENTS.md para OpenAI Codex y otras herramientas son ficheros estáticos en el proyecto. Se cargan en el contexto en cada sesión. Escribes ahí lo que tendrías que explicar una y otra vez, y nunca tienes que volver a explicarlo.

Lo que típicamente se mete:

Idioma, framework, convenciones
Dónde viven los ficheros, qué comandos importan
Qué errores ya pasaron en este proyecto y no deben volver a pasar
Estilo personal. Sé directo, no demasiado amable.

Las ventajas son enormes. Lo ves todo. Lo editas todo. Está en el repo de git, tienes histórico, puedes compartirlo con compañeros. No cuesta nada, no hay vendor lock-in, no hay OAuth, no hay cloud, no hay suscripción. Si borras el proyecto, la memoria se va, que normalmente es exactamente lo que quieres.

También hay desventajas reales. CLAUDE.md no se acumula sola. Tienes que mantenerla. Si no lo haces, el fichero se vuelve viejo y falso. Y es estática, lo que significa que todo lo que está dentro se carga siempre, aunque no encaje con la pregunta actual. Eso come tokens de contexto.

Además, es por proyecto. Lo que aprendes en un proyecto no aterriza automáticamente en otro. Si tienes cinco proyectos y descubres en uno que prisma db push es peligroso, tendrías que copiar eso en los cinco CLAUDE.md.

Aun así, para un proyecto único con un conjunto manejable de convenciones, CLAUDE.md es completamente suficiente. Quien intente venderte más que eso, está exagerando.

Capa 2, qué hace Auto-Memory de verdad

Desde marzo 2026, Claude Code tiene una función llamada Auto-Memory. Por defecto está activada. Mientras trabajas, Claude escribe notas en segundo plano en un fichero local de memoria. Comandos de build, decisiones de arquitectura, tus preferencias. Se acumulan a lo largo de las sesiones.

Además existe Auto-Dream. Un subagente de fondo que corre una vez al día por todos los ficheros de memoria y los consolida. Fuera duplicados. Fuera info caducada. Fechas relativas como "ayer" se reescriben como fechas absolutas para que el fichero no lea confuso seis meses después. Anthropic lo vende como el cerebro nocturno de la IA.

Suena bien. Es útil. Tiene tres limitaciones que se mencionan poco.

Primera, es local y solo funciona dentro de Claude Code. Si también usas Cursor, o Codex, o pruebas otra herramienta, ninguna ve lo que Claude Code guardó. Cross-tool no existe.

Segunda, es markdown-file-based. Sin knowledge graph, sin retrieval semántico, sin score de confianza, sin modelo bi-temporal. Si preguntas qué decidimos la semana pasada sobre la arquitectura de auth, Claude tiene que escanear el fichero entero. Funciona mientras el fichero se mantenga pequeño. En cuanto crece más allá de unos cientos de líneas, el modelo empieza a perderse cosas.

Tercera, la fea. Auto-Memory puede colisionar con sistemas de memoria externos. Si tienes tu propio sistema de memoria que también escribe en el directorio de Claude, lo que mucha gente hace, Auto-Dream puede consolidar o desordenar tus propios ficheros por la noche. Lo vivimos en carne propia y al final desactivamos Auto-Memory y Auto-Dream explícitamente.

Si solo usas Claude Code y no tienes otras herramientas de memoria, Auto-Memory es un buen valor por defecto. Si haces más, es una fuente de problemas.

ChatGPT Memory, la caja negra

ChatGPT tiene una función de memoria desde principios de 2024. Le cuentas algo y lo recuerda. La próxima vez aparece de algún modo.

El problema con ChatGPT Memory es que no ves lo que sabe. Hay una pestañita de settings donde ves una lista reducida, pero no todo lo que de verdad está en tus embeddings. No puedes exportar. No puedes mudarte a otra herramienta. Si OpenAI cambia o quita la función mañana, la memoria se va.

No es por mala fe, es como funcionan muchas funciones SaaS. Solo que es importante saber que ChatGPT Memory no te pertenece. Pertenece a OpenAI. Tú la usas.

Para charla privada, vale. Para memoria de trabajo que quieras consultar dentro de un año, herramienta equivocada.

Capa 3, los servidores de memoria estructurada

Aquí se pone interesante. Mem0, Zep, Letta, Memobase, Cognee, Supermemory, y otros han levantado mucho dinero en los últimos 18 meses para resolver el problema de la memoria. Cada uno con un enfoque ligeramente distinto.

Mem0 es el más conocido. 21 integraciones de framework, gran comunidad en GitHub, Apache 2.0 para el cliente. Suena genial al principio. Si miras de cerca, hay dos problemas. El knowledge graph, la cosa que de verdad hace que la memoria sea estructurada, está bloqueado tras el plan Pro a partir de 249 dólares al mes. Free y Starter son pura búsqueda vectorial. Y en benchmarks independientes, sobre todo LongMemEval, el estándar para precisión de memoria, Mem0 alcanza solo el 49 por ciento. Bastante por debajo de lo que logra la competencia.

Zep con el framework Graphiti por debajo es la alternativa técnica directa. Bi-temporal, latencia sub-200ms, SOC 2 Type II, HIPAA. En LongMemEval Zep aterriza entre 63 y 71 por ciento según el setup. Pricing basado en créditos, empieza a 25 dólares al mes pero escala con volumen. El framework open-source Graphiti puedes auto-hospedarlo si quieres, pero entonces necesitas Neo4j como graph DB y algo de saber hacer en infraestructura.

Letta, antes MemGPT, es la opción académica. Apache 2.0, OS-inspired tiered memory con Core, Archival y Recall. Auto-hospedable, gratis, con opciones de API a partir de 20 al mes. Letta apunta a gente que construye sistemas de agentes desde cero. Como bolt-on para una setup existente es pesado.

Memobase, Cognee, Supermemory, Hindsight. Varios newcomers con varios pricings, 19 a 399 al mes, y varias arquitecturas. Hindsight es research-grade, alcanza 91 por ciento en LongMemEval pero no es un SaaS pulido. Mastra Observational Memory alcanza 94 por ciento pero tampoco tiene canal de producto típico.

Lo que comparten todos:

Almacenamiento cloud en su propia infraestructura, US por defecto en la mayoría
Cumplimiento RGPD es doloroso salvo en muy pocos
Knowledge graph suele ser el feature premium caro
Cross-tool solo funciona si todas las herramientas hablan MCP
Tienes que mantener tus datos o se vuelven viejos

Qué no puede hacer la memoria, y por qué importa

Mientras investigaba este artículo puse a un agente crítico a destrozar la idea desde el otro lado. Salió una cosa que no tenía tan clara antes.

La memoria amplifica la sycophancy.

Sycophancy es el comportamiento documentado de los modelos de lenguaje de adaptarse a la opinión del usuario. Si le dices a la IA al principio, me encanta Tailwind, la IA tenderá a argumentar pro-Tailwind durante el resto de la conversación, aunque sin esa señal inicial habría sido más neutral. Es medible, está publicado, es un problema conocido.

La memoria lo empeora. Si le dices a la IA cada día que te encanta Tailwind, y la IA lo escribe en su knowledge graph con confianza 0.95, muy pronto tienes un sistema de memoria que confirma tu entusiasmo por Tailwind para siempre. Aunque tu proyecto esté gritando por un cambio a CSS Modules.

Ningún proveedor de memoria aborda esto actualmente. Hay decay de confianza, hay detección de contradicciones, pero no hay un detector de bullshit que note que estás hablándote a ti mismo en tu propia cámara de eco.

Hay otros problemas que cada proveedor de memoria oficialmente aborda pero rara vez resuelve bien.

Hechos caducos. Le dices a la IA en febrero que vives en Hamburgo. En abril te mudas a Mallorca. ¿Le dijiste a la IA explícitamente? Probablemente no. Mencionas algo como, hoy estuve en la playa. Ahora la IA tiene dos hechos contradictorios. ¿Cuál gana? Depende del sistema. Algunos auto-detectan contradicciones (el nuestro lo hace, Mem0 desde Pro), otros no. Si el sistema no lo coge, tienes una fuente de alucinaciones.

Privacy drift. Le cuentas a la IA algo personal en una charla privada. La próxima vez estás en un workflow de code review y de pronto la IA saca ese detalle personal. Esta es la diferencia entre memoria y memoria selectiva con conciencia de contexto. Pocos sistemas tienen lo segundo hoy.

Polución de contexto. Cuando tu memoria sabe demasiado, cada prompt nuevo se alimenta con una montaña de contexto supuestamente relevante. La IA se pierde en detalles, se le escapa lo importante, alucina porque intenta integrarlo todo. Esto pasa especialmente con memorias basadas en markdown que se cargan completas en lugar de consultarse selectivamente.

Deuda de mantenimiento. La memoria sin cuidado se degrada. Si no archivas regularmente cosas viejas, invalidas cosas falsas, enlazas conexiones nuevas, tu memoria se vuelve inutilizable en meses. Como un escritorio desordenado.

Cuándo merece la pena qué

Esa es la pregunta que ningún marketing quiere contestar. Aquí va mi intento honesto.

No necesitas nada si usas IA esporádicamente, en side projects, en sesiones desconectadas. Uso clásico de ChatGPT. Algo de código, algo de brainstorm. La memoria sería más esfuerzo que beneficio.

Necesitas CLAUDE.md o AGENTS.md en cuanto trabajes en un proyecto más de dos semanas. Como muy tarde. Escribe lo que de otro modo tendrías que explicar cada sesión. Mantenlo bajo 500 líneas o se come el contexto. Actualízalo semanalmente. Ese es el umbral donde el esfuerzo empieza a compensar.

Necesitas Auto-Memory de Claude Code si usas exclusivamente Claude Code y no llevas ya tu propio sistema de memoria. Déjalo activado por defecto, revisa semanalmente lo que se escribió, desactívalo un día si acumula tonterías. Pero ojo si corres otros sistemas de memoria en paralelo, mejor desactiva.

Necesitas un servidor de memoria estructurada si se acumulan tres condiciones. Una, el proyecto dura más de seis meses. Dos, trabajas en él varios días por semana. Tres, varias personas o varias herramientas tienen que acceder a la misma memoria. Si solo se cumple una, el esfuerzo casi nunca compensa. Si se cumplen las tres, compensa muchísimo.

Necesitas memoria enterprise con SOC 2, HIPAA, hosting dedicado, si trabajas en una industria que lo exige. Punto. Entonces Zep es el candidato obvio, o Letta auto-hospedado más tu propio equipo de compliance.

Qué construimos nosotros, y por qué

Llevamos desde febrero 2026 construyendo nuestro propio sistema de memoria. Se llama StudioMeyer Memory, corre sobre el protocolo MCP, tiene actualmente 53 herramientas y un knowledge graph que internamente ha crecido a 2000 entidades y 1500 learnings.

No lo construimos porque los demás sean malos. Lo construimos porque queríamos algunas cosas distintas.

Knowledge graph desde el tier gratuito en lugar de Mem0 a partir de 249 al mes. Cross-platform import, sueltas tus conversaciones de ChatGPT, Claude, Gemini, Copilot, Perplexity y obtienes una memoria inicial. Hosting en la UE en Frankfurt, RGPD listo de fábrica. Decay de confianza, detección automática de contradicciones, separación episódico-y-semántico. 90 por ciento en LongMemEval, lo que nos coloca bien por delante de Mem0 (49) y Zep (63) y solo justo por detrás de los sistemas research-grade Hindsight (91) y Mastra OM (95).

Eso son detalles técnicos. Lo que importa como encuadre honesto, no como pitch: la memoria es una herramienta, no un producto. Tiene que encajar en tu flujo de trabajo o se vuelve molesta. Si CLAUDE.md te funciona, úsala. Si un servidor hospedado con OAuth es demasiado complicado para tu único proyecto, entonces es demasiado complicado.

Lo que de verdad creemos es que la memoria se convertirá en una capa estándar en los próximos uno o dos años, parecido a las bases de datos. Elegirás un motor de memoria como hoy eliges una variante de Postgres. Una que sea RGPD-ready, que encaje con tu stack de herramientas, que vayas a poder seguir usando dentro de cinco años porque puedes exportar los datos.

El check rápido para tu situación

Pregúntate por orden.

Uno, ¿estoy trabajando en este proyecto más de dos semanas? Si no, no necesitas memoria.

Dos, ¿hay convenciones que sigo re-explicando a la IA? Si sí, escribe una CLAUDE.md.

Tres, ¿el proyecto dura más de seis meses y lo uso varios días por semana? Si sí, una memoria estructurada compensa.

Cuatro, ¿necesito la memoria en más de una herramienta, o por más de una persona? Si sí, necesitas una solución cloud con MCP o un protocolo similar.

Cinco, ¿es el cumplimiento un tema, es decir HIPAA, SOC 2, hosting en la UE? Si sí, busca específicamente proveedores que lo soporten.

Seis, ¿quiero esta memoria también dentro de cinco años? Si sí, mira las funciones de export y la propiedad de los datos. Memoria caja negra está en tu contra.

Si todas las respuestas son no, déjalo. Si las dos primeras son sí, CLAUDE.md. Si las primeras cuatro son sí, servidor de memoria basado en MCP. Cuál exactamente depende de tu stack y presupuesto.

Qué viene a continuación

Estamos convirtiendo este artículo en un pequeño itinerario de aprendizaje en nuestra academy. Una lesson sobre higiene de CLAUDE.md. Otra sobre Auto-Memory y Auto-Dream. Otra sobre knowledge graphs como concepto. Otra sobre sycophancy y cómo protegerte.

Si tienes preguntas o experiencias con un sistema que no he mencionado aquí, escríbeme. La memoria es un mercado que se mueve rápido y ningún artículo único lo cubrirá entero. Pero la lógica subyacente no cambia. La memoria ayuda cuando la necesitas, estorba cuando no. El truco está en saber cuándo es qué.