Fünf MCP-Server, bevor Claude Code eine einzige Zeile schreibt

Matthias Meyer

Claude Code wuchs überraschend schnell von einer Research-Preview zu einem nennenswerten Anteil aller öffentlichen GitHub-Commits, dokumentiert in Anthropics eigener Auswertung und dem Best-Practices-Roundup. Die meisten dieser Commits gingen in Produktion. Ein nennenswerter Teil davon wurde kurz darauf wieder zurückgerollt.

Die interessante Frage ist nicht, wie das Modell den Code schreibt. Es ist, was im fruehen Vorlauf-Fenster davor passiert. In diesem Fenster entscheidet sich, ob eine Claude-Code-Session gut wird oder schlecht.

Das Cold-Start-Problem

Eine frische Claude-Code-Session hat keine Ahnung, was du frueher entschieden hast, wie die Codebase aussieht, was der aktuelle Stand einer Bibliothek wirklich ist, die du verwendest, oder welche Fehler du schon gemacht und ausgeschlossen hast. Ohne Hilfe baut das Modell deine Überlegungen von Grund auf jedes Mal neu zusammen. Meistens falsch.

Drei Fehlermuster tauchen fast sofort auf. Das Modell erfindet Klassennamen, die plausibel klingen, aber im Projekt nicht existieren. Es zitiert API-Methoden aus SDK-Versionen, die vor zwei Releases umbenannt wurden. Es führt Diskussionen über Entscheidungen neu, die vor Monaten getroffen wurden, weil die Begründung nie irgendwo gespeichert wurde, wo das Modell sie lesen könnte.

Jeder dieser Punkte lässt sich beheben, aber nicht durch schärferes Prompten. Die Lösung besteht darin, Claude Code den Kontext zu geben, den es hätte, wenn es schon länger im Team wäre. Das Model Context Protocol wurde genau dafür entwickelt. Es gibt inzwischen ein großes öffentliches MCP-Server-Oekosystem, und die kleine Teilmenge, die sich in einer täglichen Routine verdient macht, darum geht es in diesem Post.

Der Fünf-Schritte-Stack

Die Routine ist kurz. Sie läuft zu Beginn jeder Session, bevor Code geschrieben oder eine Datei bearbeitet wird. Fünf Schritte, in dieser Reihenfolge.

1. Memory laden

Der erste Aufruf geht an einen Memory-MCP-Server, der Kontext über Sessions hinweg trägt (wir nutzen für diese Schicht StudioMeyer Memory). Letzter Sprint, offene Entscheidungen, aktuelle Learnings, warum eine bestimmte technische Wahl frueher getroffen wurde, und die Fehlermuster, auf die das Team bereits gestoßen ist. Memory ist das, was eine Session von einem Cold Start zu einem Warm Start macht.

Ohne Memory beginnt jedes Gespräch damit, dass das Modell versucht, deine Überlegungen aus dem Dateibaum und ein paar Sätzen in der CLAUDE.md zu rekonstruieren. Mit Memory kommt das Modell schon wissend rein, dass du Postgres-Pooling ausprobiert hast, dass die Antwort in der Agent-Schicht raw pg statt Prisma war, und dass du im April einen Cross-Tenant-Leak hattest, der die heutige Form des Schemas beeinflusst.

Der Punkt ist nicht, dass das Modell sich an alles erinnert. Der Punkt ist, dass die angesammelten Entscheidungen des Teams für das Modell als Hintergrundwissen verfügbar werden, so wie sie für einen Senior Engineer am ersten Tag der zwanzigsten Woche verfügbar sind.

2. Die Codebase als Graph indexieren

Der zweite Aufruf geht an einen Codebase-Memory-Server. codebase-memory-mcp zum Beispiel indexiert ein Repository schnell in einen abfragbaren Knowledge Graph, unterstützt eine breite Palette an Sprachen und beantwortet strukturelle Fragen mit sehr geringer Latenz und einem Bruchteil der Token-Kosten verglichen mit Grep-und-Lesen-Zyklen (laut Benchmarks im Maintainer-Repo).

Was das im Alltag verändert, ist enorm. Wenn das Modell wissen muss, was processOrder aufruft, fragt es den Graph ab und bekommt eine Liste mit Zeilennummern zurück. Ohne den Graph grepped es blind, liest Dateien, folgt Imports und verbrennt große Mengen Tokens, um zur gleichen Antwort zu kommen. Multipliziere das mit vielen solchen Fragen pro Session, und der Unterschied zwischen einem Agenten, der über eine große Codebase nachdenken kann, und einem, der nur über eine Handvoll Dateien auf einmal nachdenken kann, steckt genau in diesem Server.

3. Die Gegenwart durchsuchen, nicht das Trainings-Set

Der dritte Aufruf geht an einen Web-Search-MCP-Server wie Tavily, Brave Search oder Anthropic Web Search. Der Punkt ist nicht, das Wissen des Modells zu ersetzen. Es ist, das veraltete Wissen des Modells mit dem zu ersetzen, was die Leute gerade wirklich tun, bevor eine nicht-triviale Entscheidung getroffen wird.

Trainingsdaten altern, manchmal schlecht. Best Practices von frueher sind oft noch gut, aber manchmal sind sie stillschweigend tot. Eine kurze Suche vor einer echten Entscheidung liefert eine saubere Antwort mit Quellen, statt einer selbstsicheren Rekonstruktion eines aelteren Konsenses.

Tavily-ähnliches Retrieval funktioniert hier besonders gut, weil es SEO-Rauschen herausfiltert und die wenigen Ergebnisse zurückgibt, die die Antwort tatsächlich enthalten. Die Kosten sind gering, der Gewinn ist ein Modell, das sich vor einem Code-Reviewer nicht auf ein veraltetes Pattern festlegt.

4. Context7 für Bibliotheks-Docs laden

Der vierte Aufruf geht an Context7, das aktuelle Dokumentation für die Bibliothek abruft, die als nächstes angefasst wird. Das Anthropic SDK, Next.js, Prisma, Tailwind, das AWS SDK, was auch immer der nächste Arbeitsschritt beinhaltet.

Der Training-Cutoff ist die größte einzelne Quelle für plausibel aussehenden, aber kaputten Code, den Claude Code generiert. Das Modell erfindet fröhlich API-Methoden, die vor zwei Versionen umbenannt wurden, ruft Hooks auf, die in einem Minor-Release deprecated wurden, und vergisst, dass eine Config-Option im neuesten Patch ihren Standard-Wert geändert hat. Das Laden der tatsächlich aktuellen Docs hat diese gesamte Kategorie von Bugs in Produktions-Workflows vor Monaten beendet.

Context7 wird in Entwicklungs-Setups 2026 konstant als einer der meistgenutzten MCP-Server genannt, genau aus diesem Grund.

5. Code schreiben

Wenn das Modell anfängt zu schreiben, hat es Memory, Codebase-Struktur, aktuellen Ökosystem-Kontext und genaue Bibliotheks-Docs. Der Output liest sich anders. Weniger "lass mich das ausprobieren und sehen, ob es kompiliert", mehr "basierend auf dem Call Graph und den v5-Docs geht die Änderung hierhin, und die vier Aufrufer in src/orders brauchen dieses Update."

Das kurze Vorlauf-Fenster zahlt sich über die Session hinweg vielfach aus. Sessions, die die Routine überspringen, verbringen deutlich mehr Zeit damit, Edits zu bereinigen, die blind gemacht wurden.

Der Hooks-Layer

MCP-Server geben dem Modell Kontext. Hooks erzwingen Verhalten. Der Unterschied ist wichtig, weil Hooks außerhalb der Agent-Loop laufen und deterministisch sind, was bedeutet, dass sie feuern, auch wenn das Modell es lieber nicht täte.

Blake Crosleys vollständiger CLI-Guide, der aktuelle Claude Code Releases abdeckt, bringt es klar auf den Punkt: "Hooks guarantee execution of shell commands regardless of model behavior. Unlike CLAUDE.md instructions which are advisory, hooks are deterministic and guarantee the action." Das ist der ganze Grund, warum Hooks wichtig sind.

Drei Hooks verdienen sich einen Platz in der täglichen Routine.

Der erste ist ein Read-before-Edit Guard. Er verweigert jede Bearbeitung an einer Datei, die die aktuelle Session nicht wirklich zuerst gelesen hat. Das Modell muss die Datei ordentlich laden, statt zu raten, was darin steht. Der Einwand ist immer derselbe: "Das kostet extra Tokens vorab." Die Token-Kosten des Lesens der Datei sind trivial verglichen mit den Token-Kosten der Bereinigung einer Bearbeitung, die drei Aufrufer gebrochen hat, weil das Modell die Funktionssignatur erraten hat. Dieser Hook entstand aus der Adaptive-Thinking-Regression dokumentiert in anthropics/claude-code Issue #42796, bei der die Blind-Edit-Rate von 6,2 auf 33,7 Prozent stieg, nachdem Anthropic einen Standard geändert hatte. Die Lösung auf User-Seite war ein deterministisches Gate. Den User-seitigen Workaround für eine verwandte Codex-Regression haben wir im Codex Memory MCP Fix ausführlich beschrieben.

Der zweite ist ein Safety Guard für destruktive Befehle. Alles, was rm -rf, git push --force auf einen geschützten Branch, prisma db push --force-reset, DROP DATABASE, die übliche Liste ähnelt. Das Modell schlägt eines davon gelegentlich in Momenten der Verwirrung vor. Der Hook stoppt es, bevor es läuft.

Der dritte ist ein Re-Index-Hook, der nach Bearbeitungen feuert. Er aktualisiert den Codebase Knowledge Graph, damit die nächste Abfrage widerspiegelt, was tatsächlich im Repo ist, nicht was es am Anfang der Session war. Veraltete Graphs sind ein stilles Fehlermuster, das die Art von Halluzinationen produziert, bei denen das Modell behauptet, eine Funktion existiere nicht, obwohl sie vor zwei Minuten erstellt wurde.

Keiner dieser Hooks ist clever. Sie sind deterministische Leitplanken für die vorhersehbaren Fehlermuster eines generativen Systems. Deshalb halten sie in der Produktion stand.

Den Kreis schließen

Was in einer Session funktioniert, kommt zurück in Memory. Entscheidungen werden als Decisions gespeichert. Muster, die sich bewährt haben, werden als Learnings gespeichert, mit Confidence-Scores. Fehler werden mit genügend Kontext geloggt, damit die nächste Session sie vermeidet. Die nächste Session startet mit all dem bereits geladen.

Das ist der Teil, der sich zusammensetzt. Die MCP-Server und Hooks sind keine einmalige Einrichtung, sie sind das Substrat, auf dem das angesammelte Wissen des Teams operativ wird. Das System wird jede Woche schärfer, nicht weil das Modell sich verändert hat, sondern weil der Kontext darum herum in seiner Qualität stetig wächst.

Aktuelle Branchen-Umfragen zeigen konsistent, dass die große Mehrheit der Entwickler KI-generierten Code weiterhin vor dem Commit reviewt. Das Closing-Loop-Pattern ist das, was diesen Review schneller macht, weil die Vorschläge des Modells zunehmend besser dazu passen, wie das Team tatsächlich baut. Die ersten Sessions mit einem Memory-Server sind unspektakulär. Nach längerer Nutzung wird der Abstand zwischen Teams, die den Kreis schließen, und Teams, die es nicht tun, offensichtlich.

Was das ersetzt, was nicht

Die Pre-Coding-Routine ersetzt eine überraschende Menge an maßgeschneidertem Tooling. Die interne Confluence-Seite mit der "Knowledge Base", die niemand liest. Den Slack-Kanal, in dem vergangene Entscheidungen sterben. Die Grep-Zyklen, um eine Funktionsdefinition zu finden. Die Stack-Overflow-Suchen nach einer API-Methode, die noch existieren mag oder nicht. Die CLAUDE.md-Datei, die auf zweitausend Zeilen angewachsen ist, weil jede Regression einen neuen "denk daran, das nicht zu tun"-Absatz hinzugefügt hat.

Sie ersetzt nicht den menschlichen Review von generiertem Code. Sie ersetzt keine Tests, Type-Checks oder Production-Monitoring. Sie verwandelt Claude Code nicht in einen Senior Engineer. Was sie tut, ist das Modell von "Junior Dev mit Amnesie" zu "informiertem Beiträger mit Zugang zum Working Memory des Teams" zu verschieben. Das reicht, um ernstzunehmende Arbeit zu liefern, und reicht nicht, um den Review zu überspringen.

Das größere Muster

Die Verschiebung nach ein paar Monaten mit dieser Routine steckt im Framing. Das Modell hört auf, die Wissensquelle zu sein. Das Modell wird zum Orchestrator. Die MCP-Server und Hooks sind das System.

Memory erinnert sich. Der Graph kennt den Code. Search kennt die Gegenwart. Context7 kennt die Docs. Hooks halten das Modell ehrlich. Das Modell verbindet sie.

Das ist dasselbe architektonische Muster, das Anthropic-Engineers beschreiben, wenn sie über Claude Code als "ein agentisches CLI sprechen, das deine Codebase liest, Befehle ausführt und Dateien durch ein geschichtetes System von Permissions, Hooks, MCP-Integrationen und Subagenten modifiziert". Das Modell in der Mitte ist eine Komponente. Die interessante Engineering-Arbeit ist alles darum herum.

Für Teams, die Claude Code noch ohne MCP-Server und ohne Hooks betreiben, ist der Upgrade-Pfad kurz. Fang mit einem Memory-Server, einem Codebase-Graph und dem Read-before-Edit Hook an. Die erste Session nach dieser Änderung ist die, in der der Rest der Routine offensichtlich wird.

Die Pre-Coding-Routine ist kurz. Der Zinseszins auf diesen kurzen Vorlauf ist das, was den Unterschied macht, über die Zeit, zwischen einem Modell, das liefert, und einem, das halluziniert.