KI-Gedächtnis: Was 550 Sessions über AI Memory Systeme zeigen

Matthias Meyer

KI-Assistenten vergessen alles nach dem Gespräch. Jede neue Session beginnt bei null -- kein Kontext, keine Erfahrung, keine Lernkurve. Für ein einmaliges Gespräch ist das akzeptabel. Für ein System, das eine Agentur mitbetreibt, ist es untragbar.

Deshalb haben wir ein eigenes Memory-System gebaut. Nach über 550 Sessions, 1.100 gespeicherten Learnings und 180 dokumentierten Entscheidungen teilen wir, was funktioniert hat -- und was nicht.

Das Problem: Vergessliche KI

Stellen Sie sich vor, Ihr wichtigster Mitarbeiter vergisst jeden Morgen alles. Jede Besprechung, jede Entscheidung, jede Erfahrung -- weg. Sie müssten jeden Tag von vorne anfangen.

Genau so funktionieren die meisten KI-Systeme. Egal wie brillant die Antwort war -- beim nächsten Gespräch ist die Erkenntnis verschwunden. Das macht den Einsatz in echten Geschäftsprozessen problematisch.

Unser Ansatz: Zwei Arten von Gedächtnis

Das menschliche Gehirn unterscheidet zwischen episodischem Gedächtnis (Erlebnisse, Fehler, konkrete Situationen) und semantischem Gedächtnis (Fakten, Konzepte, allgemeines Wissen). Wir haben das gleiche Prinzip auf unser KI-System übertragen.

Episodisches Gedächtnis

Fehler und deren Ursachen
Konkrete Incidents und wie sie gelöst wurden
Entscheidungen und deren Kontext
Patterns, die in bestimmten Situationen auftraten

Semantisches Gedächtnis

Architektur-Wissen (wie ist das System aufgebaut)
Infrastruktur-Fakten (welcher Server macht was)
Technologie-Einschätzungen (welches Tool eignet sich wofür)
Geschäftsregeln und Prozesse

Die Auto-Klassifikation passiert beim Speichern: Ein gemeldeter Fehler wird automatisch als episodisch klassifiziert, eine Architektur-Erkenntnis als semantisch. Beim Abrufen wird gefiltert -- ein Research-Agent bekommt semantische Fakten, ein Critic-Agent bekommt episodische Fehler.

Die Architektur

Das System basiert auf PostgreSQL mit drei Such-Schichten:

Vektor-Suche -- 512-dimensionale Embeddings für semantische Ähnlichkeit. Findet verwandte Konzepte auch bei unterschiedlicher Formulierung.
Trigram-Suche -- Fuzzy Matching für ungenaue Anfragen. Findet "das Ding mit SSL" auch wenn es als "Certbot Renewal" gespeichert ist.
Volltext-Suche -- Klassische Stichwortsuche für deutsche und englische Inhalte.

Alle drei Schichten werden kombiniert und mit Reciprocal Rank Fusion zusammengeführt. Das Ergebnis: Eine Suchqualität, die sowohl präzise Anfragen als auch vage Erinnerungen zuverlässig beantwortet.

22 Tabellen für strukturiertes Wissen

Das Gedächtnis ist nicht eine große Textsammlung, sondern ein strukturiertes System:

Sessions -- Wann wurde gearbeitet, an welchem Projekt, was war das Ergebnis
Decisions -- Welche Entscheidungen wurden getroffen, mit welcher Begründung, welchen Alternativen
Learnings -- Was wurde gelernt, in welcher Kategorie, wie oft wurde es abgerufen
Knowledge Graph -- Entitäten (Projekte, Server, Personen, Tools) mit Beobachtungen und Beziehungen
Skills -- Welche Fähigkeiten wurden entwickelt, wie oft erfolgreich angewandt
Synthesen -- KI-generierte Zusammenfassungen aus Learning-Clustern

Der Knowledge Graph

Neben dem linearen Gedächtnis pflegen wir einen Knowledge Graph mit über 150 Entitäten, 1.300 Beobachtungen und 180 Beziehungen. Jede Entität hat einen Typ (Projekt, Server, Person, Tool) und beliebig viele Beobachtungen mit Zeitstempeln und Konfidenzwerten.

Das ermöglicht Fragen wie: "Welche Server nutzt Projekt X?" oder "Wann wurde Tool Y zuletzt aktualisiert?" -- ohne dass diese Information explizit in einem Dokument steht.

Fünf Funktionen, die den Unterschied machen

1. Admission Control

Nicht jede Information verdient einen Platz im Gedächtnis. Unser Admission-Control-System bewertet jedes neue Learning mit fünf Faktoren:

Neuheit -- Existiert diese Erkenntnis bereits in ähnlicher Form?
Spezifität -- Ist die Information konkret genug, um nützlich zu sein?
Quellenzuverlässigkeit -- Kommt die Information aus einer vertrauenswürdigen Quelle?
Konsistenz -- Widerspricht sie bestehendem Wissen?
Relevanz -- Passt sie zum aktuellen Projektkontext?

Informationen mit einem Score unter 0.3 werden abgelehnt. Das klingt streng, verhindert aber die schleichende Verschlechterung der Gedächtnisqualität, die bei unkontrolliertem Speichern unvermeidlich ist.

2. Importance-Adaptive Decay

Nicht alle Erinnerungen sind gleich wichtig. Unser System berechnet einen Importance Score aus fünf Faktoren: Abrufhäufigkeit, Aktualität, Vernetzung mit anderen Learnings, Nutzerfeedback und propagierte Wichtigkeit (ähnlich PageRank).

Der entscheidende Punkt: Wichtige Erinnerungen verfallen bis zu sechsmal langsamer als unwichtige. Eine architekturelle Grundsatzentscheidung bleibt Monate relevant. Ein debugging-bezogener Workaround verliert nach Wochen an Bedeutung.

3. Lifecycle States

Jedes Learning durchläuft drei Zustände:

Active -- Wird normal abgerufen und gerankt
Ephemeral -- Niedrige Wichtigkeit, wird in Suchergebnissen herabgestuft
Archived -- Aus den Standard-Suchen entfernt, aber bei Bedarf noch auffindbar

Die Übergänge passieren automatisch basierend auf dem Importance Score. Ein Learning kann auch wieder aktiviert werden, wenn es erneut abgerufen wird.

4. Bi-temporale Beziehungen

Der Knowledge Graph speichert nicht nur aktuelle Fakten, sondern auch vergangene. Jede Beziehung hat vier Zeitstempel:

Wann die Beziehung in der Realität gültig wurde
Wann sie ungültig wurde
Wann sie im System erfasst wurde
Wann sie im System als veraltet markiert wurde

Das ermöglicht Fragen wie: "Was wussten wir am 15. März über Server X?" -- also nicht nur den aktuellen Stand, sondern den Wissensstand zu einem beliebigen Zeitpunkt.

5. Kausale Beziehungen

Neben einfachen Relationen (A nutzt B, A gehört zu B) unterstützt der Graph acht kausale Beziehungstypen: verursacht, verhindert, ausgelöst, blockiert, ermöglicht und weitere. Jede kausale Beziehung hat ein Evidenz-Feld.

Das ermöglicht Ketten wie: "Entscheidung A hat zu Problem B geführt, das durch Maßnahme C verhindert wurde." Diese kausalen Ketten werden automatisch traversiert.

Was wir gelernt haben

Weniger speichern, besser abrufen

Unser System war anfangs write-heavy: Viel wurde gespeichert, wenig wurde abgerufen. Die wichtigste Erkenntnis war, dass die Abruf-Qualität wichtiger ist als die Speicher-Menge. Admission Control und intelligentes Ranking haben mehr gebracht als jedes neue Feature.

Widerspruchserkennung ist unverzichtbar

Über Monate sammeln sich widersprüchliche Informationen an. "Server X nutzt PostgreSQL 14" und drei Monate später "Server X wurde auf PostgreSQL 16 migriert" -- beide Aussagen sind korrekt, aber nur die zweite ist aktuell. Automatische Widerspruchserkennung und bi-temporale Datenhaltung lösen dieses Problem.

Gedächtnislimits verhindern Drift

Unbegrenzter Zugriff auf das Gedächtnis klingt optimal, führt aber dazu, dass der Agent den Fokus verliert. Feste Limits (maximal drei Ergebnisse pro Abfrage) zwingen das System, nur das Relevanteste zurückzugeben.

Die Zahlen

Nach drei Monaten Betrieb:

Über 1.100 gespeicherte Learnings (episodisch und semantisch)
181 dokumentierte Entscheidungen
156 Entitäten im Knowledge Graph mit 1.300 Beobachtungen
180 Beziehungen zwischen Entitäten
555 getrackte Sessions
393 automatisierte Tests

Fazit

Ein KI-Gedächtnissystem zu bauen ist leichter als ein KI-Gedächtnissystem zu pflegen. Die eigentliche Herausforderung liegt nicht in der Speicherung, sondern in der Qualitätskontrolle: Was wird gespeichert, wie lange bleibt es relevant, wie schnell wird es gefunden.

Die Kombination aus episodischem und semantischem Gedächtnis, strikter Admission Control und adaptivem Verfall hat unser System von einer einfachen Wissensdatenbank zu einem lernenden Gedächtnis gemacht, das mit jedem Tag nützlicher wird.