AI Memory erklärt: Was es wirklich verändert (und wann CLAUDE.md reicht)

Matthias Meyer

Du arbeitest gestern eine Stunde an einem Bug in Claude. Heute öffnest du eine neue Session und fragst nach. Claude weiss nichts mehr davon.

Das ist Memory. Oder genauer, das ist die Abwesenheit von Memory.

Jeder der seit ein paar Monaten mit AI-Assistenten arbeitet kennt das Gefühl. Du hast etwas erklärt, bestätigt, dokumentiert. Beim nächsten Login ist es weg. Du fängst wieder bei null an.

Es gibt mittlerweile ein knappes Dutzend Systeme die das Problem lösen wollen. Manche kosten 0 Euro, manche 475 pro Monat. Manche laufen lokal als Markdown-Dateien, manche als Cloud-Service mit Knowledge Graph. Was sie wirklich können und was nur Marketing ist, ist nicht so einfach zu sagen wie es klingt.

Dieser Artikel geht durch die wichtigsten Optionen. Was sie tun, was sie nicht tun, und wann sich der Aufwand lohnt.

Memory ist nicht eine Sache, sondern drei

Bevor wir über die Tools reden, müssen wir kurz klären worüber wir reden. Im Markt gibt es drei Schichten die alle als "Memory" verkauft werden, aber unterschiedlich sind.

Schicht 1. Statische Notizen. Eine Markdown-Datei wie CLAUDE.md oder AGENTS.md. Du schreibst rein "Wir nutzen TypeScript strict mode" und Claude liest das bei jeder Session. Das ist Memory in seiner einfachsten Form. Kein Algorithmus, keine Embeddings, keine Cloud. Nur eine Datei die immer mitgeladen wird.

Schicht 2. Akkumulierende Notizen. Das ist was Claude Code seit März 2026 mit Auto-Memory macht. Die KI schreibt während der Arbeit selbst Notizen mit, in dieselbe Markdown-Datei. Über Wochen wird die Datei länger. Auto-Dream räumt einmal pro Tag auf, mergt Duplikate, ersetzt "gestern" durch ein konkretes Datum. ChatGPT Memory ist im Prinzip dasselbe, nur dass du nicht siehst was OpenAI da reinschreibt.

Schicht 3. Strukturiertes Memory mit Knowledge Graph. Das ist Mem0, Zep, Letta, und unser eigenes Ding. Hier wird Memory nicht als Text gespeichert sondern als Graph aus Entitäten und Beziehungen. Pasquale ist Geschäftspartner. Pasquale arbeitet bei Firma X. Firma X ist im Sektor Y. Plus semantische Suche, Confidence Decay, Bi-Temporalität, also was war wann gültig.

Die drei Schichten lösen verschiedene Probleme. Das wird gleich wichtig.

Schicht 1, warum CLAUDE.md für 80 Prozent reicht

Ich habe in den letzten Monaten viel Zeit damit verbracht ein eigenes Memory-System zu bauen. Eine Sache die in der Recherche immer wieder hochkommt, und die ich bestätigen muss, ist dass die meisten Entwickler kein Memory-System brauchen. Sie brauchen eine gut gepflegte Markdown-Datei.

CLAUDE.md für Claude Code und AGENTS.md für OpenAI Codex und ein paar andere Tools sind statische Dateien im Projekt. Sie werden bei jeder Session in den Context geladen. Du schreibst rein was du der KI immer wieder erzählen müsstest, und musst es nie wieder erzählen.

Was reinkommt typischerweise:

Welche Sprache, welches Framework, welche Konventionen
Wo welche Files liegen, welche Befehle wichtig sind
Welche Fehler bei diesem Projekt schon mal passiert sind und nicht wieder passieren sollen
Persönlicher Stil. Schreib direkt, nicht überfreundlich.

Vorteile sind massiv. Du siehst alles. Du editierst alles. Es ist im Git-Repo, du kannst die History sehen, du kannst das File mit Kollegen teilen. Es kostet nichts, hat keinen Vendor-Lock, kein OAuth, keine Cloud, keine Subscription. Wenn du das Projekt löschst ist die Memory weg, was meistens auch genau das ist was du willst.

Nachteile gibt es auch. CLAUDE.md akkumuliert nicht von selber. Du musst aktiv pflegen. Wenn du das nicht tust, wird die Datei alt und falsch. Und sie ist statisch, das heisst alles was reinsteht wird IMMER mitgeladen, egal ob es zur aktuellen Frage passt oder nicht. Das frisst Context-Tokens.

Plus, sie ist per Projekt. Was du in einem Projekt lernst landet nicht automatisch in einem anderen. Wenn du fünf Projekte hast und in einem rauskriegst dass Prisma db push gefährlich ist, müsstest du das in alle fünf CLAUDE.md kopieren.

Trotzdem, für ein einzelnes Projekt mit einer überschaubaren Anzahl Konventionen, ist CLAUDE.md völlig ausreichend. Wer mehr verkauft als das, übertreibt.

Schicht 2, was Auto-Memory wirklich tut

Seit März 2026 hat Claude Code ein Feature das sich Auto-Memory nennt. Default ist es eingeschaltet. Während du arbeitest schreibt Claude im Hintergrund Notizen in eine lokale Memory-Datei. Build-Befehle, Architektur-Entscheidungen, deine Vorlieben. Über Sessions akkumulieren die.

Plus gibt es Auto-Dream. Das ist ein Background-Subagent der einmal pro Tag durch alle Memory-Files läuft und sie konsolidiert. Duplikate raus. Veraltete Info raus. Relative Daten wie "gestern" werden in absolute Daten umgewandelt damit das File nicht in einem halben Jahr verwirrt liest. Anthropic vermarktet das als das nächtliche Gehirn der KI.

Klingt gut. Ist auch nützlich. Hat aber drei Limitierungen die selten erwähnt werden.

Erstens, es ist lokal und Claude-Code-only. Wenn du auch Cursor benutzt, oder Codex, oder mal ein anderes Tool ausprobierst, sehen die nichts von dem was Claude Code da gespeichert hat. Cross-Tool gibt es nicht.

Zweitens, es ist Markdown-File-basiert. Kein Knowledge Graph, kein semantisches Retrieval, kein Confidence-Score, kein Bi-Temporal-Modell. Wenn du fragst was haben wir letzte Woche zur Auth-Architektur entschieden, muss Claude das ganze File durchsehen. Das funktioniert solange das File klein bleibt. Sobald es länger als ein paar hundert Zeilen wird, fängt das Modell an Sachen zu übersehen.

Drittens, und das ist die fiese, Auto-Memory kann mit externen Memory-Systemen kollidieren. Wenn du selber ein Memory-System hast das auch in den Claude-Verzeichnis-Pfad schreibt, was viele machen, kann Auto-Dream nachts deine eigenen Files konsolidieren oder durcheinander bringen. Wir haben das selber erlebt und am Ende Auto-Memory und Auto-Dream explizit deaktiviert.

Wenn du nur mit Claude Code arbeitest und keine anderen Memory-Tools nutzt, ist Auto-Memory ein gutes Default. Wenn du mehr machst, ist es eine Gefahrenquelle.

ChatGPT Memory, die Black Box

ChatGPT hat seit Anfang 2024 ein Memory-Feature. Du erzählst etwas und die KI merkt es sich. Beim nächsten Mal taucht es wieder auf, irgendwie.

Das Problem mit ChatGPT Memory ist dass du nicht siehst was es weiss. Es gibt einen kleinen Settings-Tab wo du eine reduzierte Liste siehst, aber nicht alles was tatsächlich in deinen Embeddings drinsteht. Du kannst nicht exportieren. Du kannst nicht zu einem anderen Tool umziehen. Wenn OpenAI morgen das Feature ändert oder löscht ist die Memory weg.

Das ist nicht böse gemeint, das ist wie SaaS-Features oft funktionieren. Es ist nur wichtig zu wissen dass ChatGPT Memory dir nicht gehört. Es gehört OpenAI. Du benutzt es.

Für privaten Smalltalk ist das fein. Für Arbeitsgedächtnis das du auch in einem Jahr noch durchsuchen willst, ist es nicht das richtige Werkzeug.

Schicht 3, die strukturierten Memory-Server

Hier wird es interessant. Mem0, Zep, Letta, Memobase, Cognee, Supermemory, und ein paar weitere haben in den letzten 18 Monaten viel Geld eingesammelt um das Memory-Problem zu lösen. Jeder mit einem etwas anderen Ansatz.

Mem0 ist der bekannteste. 21 Framework-Integrationen, grosse Community auf GitHub, Apache 2.0 für den Client. Klingt erst mal toll. Wenn man genauer hinschaut, gibt es zwei Probleme. Der Knowledge Graph, also das was Memory eigentlich strukturiert macht, ist erst ab dem Pro-Plan ab 249 Dollar pro Monat verfügbar. Free und Starter sind reine Vector-Search. Und in unabhängigen Benchmarks, vor allem LongMemEval, dem Standard für Memory-Genauigkeit, erreicht Mem0 nur 49 Prozent. Das ist deutlich unter dem was die Konkurrenz schafft.

Zep mit dem darunter liegenden Graphiti-Framework ist die direkte technische Alternative. Bi-temporal, sub-200ms Latenz, SOC 2 Type II, HIPAA. Auf LongMemEval kommt Zep auf 63 bis 71 Prozent je nach Setup. Pricing ist credit-basiert, startet bei 25 Dollar pro Monat aber skaliert mit Volumen. Das Open-Source-Framework Graphiti kannst du selber hosten wenn du willst, aber dann brauchst du Neo4j als Graph-DB und ein bisschen Infrastruktur-Wissen.

Letta, früher MemGPT, ist die akademische Variante. Apache 2.0, OS-inspired Tiered Memory mit Core, Archival und Recall. Self-hostbar, kostenlos, mit API-Optionen ab 20 Dollar pro Monat. Letta richtet sich eher an Leute die ein Greenfield-Agent-System bauen wollen. Als Bolt-on für eine bestehende Setup ist es schwerfällig.

Memobase, Cognee, Supermemory, Hindsight. Diverse Newcomer mit verschiedenen Pricings, 19 bis 399 pro Monat, und verschiedenen Architekturen. Hindsight ist research-grade, schafft 91 Prozent auf LongMemEval, ist aber kein produktreifer SaaS. Mastra Observational Memory schafft sogar 94 Prozent, hat aber ebenfalls keinen typischen Produkt-Kanal.

Was alle gemeinsam haben:

Sie speichern in einer eigenen Cloud, US-Default für die meisten
DSGVO-Compliance ist mühsam ausser bei sehr wenigen
Knowledge Graph ist meistens das teure Premium-Feature
Cross-Tool funktioniert nur wenn alle Tools MCP sprechen
Du musst die Daten selber pflegen, sonst veraltern sie

Was Memory nicht kann, und warum das wichtig ist

Bei der Recherche für diesen Text habe ich einen Kritiker-Agent darauf angesetzt einfach mal zu zerlegen warum man Memory nicht haben sollte. Eine Sache kam dabei raus die ich vorher nicht so klar auf dem Schirm hatte.

Memory amplifiziert Sycophancy.

Sycophancy ist das wissenschaftlich dokumentierte Verhalten von Sprachmodellen sich an die User-Meinung anzupassen. Wenn du der KI zu Beginn sagst, ich finde Tailwind super, dann wird die KI im Lauf der Konversation tendenziell pro-Tailwind argumentieren auch wenn sie ohne dieses Initial-Signal neutraler wäre. Das ist messbar, das ist publiziert, das ist ein bekanntes Problem.

Memory macht das schlimmer. Wenn du jeden Tag der KI sagst dass du Tailwind super findest, und die KI das in ihren Knowledge Graph schreibt mit Confidence 0.95, dann hast du sehr bald ein Memory-System das dich permanent in deiner Tailwind-Begeisterung bestätigt. Auch wenn dein Projekt eigentlich schreit nach einem Wechsel zu CSS Modules.

Kein einziger der Memory-Anbieter adressiert das aktuell. Es gibt Confidence-Decay, es gibt Contradiction-Detection, aber es gibt keinen Bullshit-Detector der erkennt dass du dich in deine eigene Echo-Kammer redest.

Daneben gibt es noch ein paar weitere Probleme die jeder Memory-Anbieter offiziell adressiert aber selten gut löst.

Stale Facts. Du sagst der KI im Februar dass du in Hamburg wohnst. Im April ziehst du nach Mallorca. Sagst du der KI Bescheid? Wahrscheinlich nicht direkt. Du sagst irgendwann nebenbei, ich war heute am Strand. Die KI hat jetzt zwei widersprüchliche Fakten. Welcher gewinnt? Das hängt vom System ab. Manche detecten Contradictions automatisch (unsers tut das, Mem0 ab Pro), manche nicht. Wenn das System es nicht detect, hast du eine Halluzinations-Quelle.

Privacy-Drift. Du erzählst der KI bei einem privaten Gespräch etwas Persönliches. Beim nächsten Mal arbeitest du an einem Code-Review-Workflow und auf einmal bringt die KI dieses persönliche Detail in den Context. Das ist der Unterschied zwischen Memory und Selektives Memory mit Kontext-Awareness. Letzteres haben aktuell nur sehr wenige Systeme.

Context-Pollution. Wenn dein Memory zu viel weiss, wird jeder neue Prompt mit einem Berg von vermeintlich relevantem Kontext gefüttert. Die KI verliert sich in den Details, übersieht das Eigentliche, halluziniert weil sie versucht alles zu integrieren. Das passiert besonders bei Markdown-basierten Memories die in voller Länge geladen werden statt selektiv abgefragt.

Maintenance-Last. Memory ohne Pflege degradiert. Wenn du nicht regelmässig durchgehst und alte Sachen archivierst, falsche Sachen invalidierst, neue Verbindungen herstellst, wird dein Memory innerhalb von Monaten unbrauchbar. Genau wie ein zugemüllter Schreibtisch.

Wann lohnt sich was eigentlich

Das ist die Frage die kein Marketing beantworten will. Hier ist mein ehrlicher Versuch.

Du brauchst nichts, wenn du sporadisch mit AI arbeitest, an Side-Projects, in unzusammenhängenden Sessions. Klassische ChatGPT-Nutzung. Ein bisschen Code, ein bisschen Brainstorm. Memory wäre dann mehr Aufwand als Nutzen.

Du brauchst CLAUDE.md oder AGENTS.md, sobald du an einem Projekt länger als zwei Wochen arbeitest. Spätestens. Schreib rein was du sonst jeder Session erklären müsstest. Halte es unter 500 Zeilen, sonst frisst es zu viel Context. Aktualisier es einmal pro Woche. Das ist die Schwelle wo der Aufwand sich rechnet.

Du brauchst Auto-Memory von Claude Code, wenn du ausschliesslich Claude Code benutzt und nicht eh schon ein eigenes Memory-System hast. Default-on lassen, einmal die Woche schauen was reingeschrieben wurde, eintägig wenn du merkst dass es Quatsch akkumuliert. Aber Achtung wenn du parallel andere Memory-Systeme nutzt, dann lieber abschalten.

Du brauchst einen strukturierten Memory-Server, wenn drei Bedingungen zusammenkommen. Erstens, das Projekt läuft länger als sechs Monate. Zweitens, du arbeitest an mehreren Tagen pro Woche damit. Drittens, mehrere Personen oder mehrere Tools sollen auf dasselbe Memory zugreifen. Wenn nur eine der Bedingungen erfüllt ist, lohnt sich der Aufwand fast nie. Wenn alle drei erfüllt sind, lohnt es sich extrem.

Du brauchst Enterprise-Memory mit SOC 2, HIPAA, dedicated Hosting, wenn du in einer Industrie arbeitest die das verlangt. Punkt. Dann ist Zep der naheliegende Kandidat, oder Self-Host von Letta plus eigene Compliance-Abteilung.

Was wir selber machen

Wir bauen seit Februar 2026 unser eigenes Memory-System. Heisst StudioMeyer Memory, läuft über das MCP-Protokoll, hat aktuell 53 Tools und einen Knowledge Graph der bei uns intern auf 2000 Entitäten plus 1500 Learnings angewachsen ist.

Wir bauen das nicht weil die anderen schlecht sind. Wir bauen das weil wir ein paar Sachen anders wollten.

Knowledge Graph ab Free-Tier statt bei Mem0 ab 249 pro Monat. Cross-Platform-Import, du wirfst deine ChatGPT-, Claude-, Gemini-, Copilot-, Perplexity-Conversations rein und kriegst einen ersten Memory-Stand. EU-Hosting auf Frankfurt, DSGVO out-of-the-box. Confidence Decay, automatische Widerspruchs-Erkennung, Episodic-und-Semantic-Trennung. 90 Prozent auf LongMemEval, was uns deutlich vor Mem0 (49) und Zep (63) und nur knapp hinter den research-grade Systemen Hindsight (91) und Mastra OM (95) platziert.

Das sind technische Details. Was uns wichtig ist als Realität, kein Verkaufsargument: Memory ist ein Werkzeug, kein Produkt. Es muss zu deinem Arbeitsstil passen, sonst nervt es. Wenn CLAUDE.md für dich reicht, dann reicht es. Wenn ein gehosteter Server mit OAuth zu kompliziert ist für dein einzelnes Projekt, dann ist es zu kompliziert.

Was wir wirklich glauben ist dass Memory in den nächsten ein bis zwei Jahren ein Standard-Layer wird, ähnlich wie Datenbanken. Du wählst dann eine Memory-Engine wie du heute eine Postgres-Variante wählst. Eine die DSGVO-ready ist, eine die zu deinem Tool-Stack passt, eine die du auch in fünf Jahren noch benutzen kannst weil du die Daten exportieren kannst.

Der Quick-Check für deine Situation

Frag dich der Reihe nach.

Eins, arbeite ich an diesem Projekt länger als zwei Wochen? Wenn nein, du brauchst kein Memory.

Zwei, gibt es Konventionen die ich der KI immer wieder erkläre? Wenn ja, schreib eine CLAUDE.md.

Drei, läuft das Projekt länger als sechs Monate und ich arbeite mehrere Tage pro Woche damit? Wenn ja, lohnt sich ein strukturiertes Memory.

Vier, brauche ich das Memory in mehr als einem Tool oder von mehreren Personen? Wenn ja, brauchst du eine cloud-basierte Lösung mit MCP oder einem entsprechenden Protocol.

Fünf, ist Compliance ein Thema, also HIPAA, SOC 2, EU-Hosting? Wenn ja, schau gezielt nach Anbietern die das supporten.

Sechs, willst du das Memory in fünf Jahren noch haben? Wenn ja, achte auf Export-Funktionen und Datenhoheit. Black-Box-Memory ist gegen dich.

Wenn alle Antworten nein sind, lass es. Wenn die ersten zwei ja sind, CLAUDE.md. Wenn die ersten vier ja sind, MCP-basierter Memory-Server. Welcher genau, hängt von deinem Stack und Budget ab.

Was als nächstes kommt

Wir bauen aus diesem Text einen kleinen Lern-Pfad in unserer Academy. Eine Lesson zu CLAUDE.md-Hygiene. Eine zu Auto-Memory und Auto-Dream. Eine zu Knowledge Graphs als Konzept. Eine zu Sycophancy und wie man sich davor schützt.

Wenn du Fragen hast oder Erfahrungen mit einem der Systeme die ich hier nicht erwähnt habe, schreib gern. Memory ist ein Markt der sich gerade sehr schnell entwickelt, und kein einzelner Text wird das vollständig abbilden. Aber die Grundlogik dahinter, die ändert sich nicht. Memory hilft wenn du es brauchst, und nervt wenn du es nicht brauchst. Der Trick ist zu wissen wann was.