20+ KI-Agenten statt 6 Mitarbeiter: So arbeitet Agent Fleet

Matthias Meyer

Was passiert, wenn eine Agentur nicht sechs Mitarbeiter hat, sondern zwanzig spezialisierte KI-Agenten? Keine theoretische Frage -- das ist unser Alltag bei StudioMeyer. Seit Anfang 2026 betreiben wir eine Agent Fleet, die Marketing-Texte schreibt, Code analysiert, Recherchen durchführt, Kunden onboardet und sich selbst verbessert.

Dieser Artikel zeigt, wie wir das System aufgebaut haben, welche Architektur dahintersteckt und was wir dabei gelernt haben.

Was ist eine Agent Fleet?

Eine Agent Fleet ist ein System aus mehreren KI-Agenten, die als Team zusammenarbeiten. Jeder Agent hat eine klar definierte Rolle, eigene Werkzeuge und ein eigenes Gedächtnis. Statt einem generischen Chatbot, der alles mittelmäßig kann, gibt es Spezialisten -- genau wie in einem echten Team.

Der entscheidende Unterschied zu einem einzelnen KI-Assistenten: Die Agenten kommunizieren untereinander, delegieren Aufgaben und überprüfen gegenseitig ihre Ergebnisse.

Unsere drei Fleets

Wir betreiben drei spezialisierte Agent Fleets mit über 20 Agenten:

StudioMeyer Fleet (16 Agenten)

Das operative Rückgrat. Diese Agenten erledigen das Tagesgeschäft:

CEO Agent -- Orchestriert alle anderen Agenten. Empfängt Aufgaben und delegiert an den richtigen Spezialisten. Trifft keine eigenen Entscheidungen, sondern koordiniert.
DevOps Agent -- Überwacht Server, prüft Container-Health, führt Deployments durch.
Marketing Agent -- Erstellt Social-Media-Inhalte, plant Kampagnen, verwaltet Content-Pipelines.
Sales Agent -- Qualifiziert Leads, erstellt Angebote, pflegt die CRM-Daten.
Onboarding Agent -- Führt neue Kunden durch den Setup-Prozess.
Support Agent -- Bearbeitet Kundenanfragen und eskaliert bei Bedarf.
CRM Agent -- Verwaltet Kontakte, trackt Interaktionen, pflegt die Pipeline.
Analytics Agent -- Wertet Website-Statistiken aus und erstellt Reports.
SEO Agent -- Überwacht Rankings, prüft technisches SEO, trackt KI-Sichtbarkeit.

Jeder dieser Agenten hat exklusive Werkzeuge. Der CRM-Agent hat Zugriff auf das CRM-System, der DevOps-Agent auf Server-Monitoring -- aber nie umgekehrt. Das verhindert Tool-Sprawl und hält die Verantwortlichkeiten sauber.

Nex Fleet (Forschung und Qualitätssicherung)

Unser Innovations-Lab. Diese Agenten denken, analysieren und hinterfragen:

Research Agent -- Recherchiert Technologien, Märkte und Wettbewerber. Verifiziert Behauptungen gegen echten Code.
Critic Agent -- Devil's Advocate. Hinterfragt jede Idee, jeden Report, jeden Plan. Sucht gezielt nach Schwachstellen.
Analyst Agent -- Analysiert Code-Qualität, Architektur und Systemgesundheit über alle Projekte hinweg.

Die Nex Fleet hat eine besondere Eigenschaft: Jeder Agent filtert sein Gedächtnis nach Relevanz. Der Research Agent ruft semantisches Wissen ab (Fakten, Architektur), der Critic nur episodisches (Fehler, Incidents). Das verhindert Confirmation Bias -- der Critic wird nicht durch bestätigende Erinnerungen beeinflusst.

Social Fleet (LinkedIn-Engagement)

Vier Agenten, die als Pipeline arbeiten:

Research Agent -- Recherchiert Personen und Unternehmen, verifiziert Claims gegen unsere Codebasis.
Analyst Agent -- Schreibt Entwürfe mit getaggten Behauptungen.
Critic Agent -- Fact-Check, Secret-Guard (keine internen IPs, DB-Namen oder Kundendaten), Veto-Recht.

Die Pipeline läuft in zwei Phasen: Research und Analyst arbeiten parallel, dann prüft der Critic mit Veto-Gate. Maximal zwei Revisionen, dann wird eskaliert.

Die Architektur dahinter

Agent SDK statt CLI-Spawn

Alle unsere Agenten laufen über das Anthropic Agent SDK. Das bedeutet: Jeder Agent ist ein eigenständiger Prozess mit vollem Zugriff auf seine MCP-Server (Model Context Protocol), eigene Memory-Tools und konfigurierbare Limits.

Der Vorteil gegenüber dem einfachen Spawnen von CLI-Prozessen: Die Agenten bekommen In-Process MCP-Zugriff. Ein gespawnter Sub-Agent wäre blind -- kein Zugriff auf Code-Analyse, kein Gedächtnis, keine Web-Recherche.

Eigenes Gedächtnis pro Agent

Jeder Agent hat isolierte Datenbank-Tabellen für sein Gedächtnis. Neun Tabellen pro Agent: Sessions, Decisions, Learnings, Patterns, Learning-Links, Contradictions, Decision-Links, Synthesen, Reflections.

Das ergibt über 50 Tabellen allein für die Agent Fleet. Klingt viel, hat aber einen entscheidenden Vorteil: Kein Agent kann das Gedächtnis eines anderen korrumpieren. Wenn der Marketing-Agent eine falsche Erkenntnis speichert, beeinflusst das nicht den DevOps-Agenten.

Jeder Agent hat 22 Memory-Tools zur Verfügung:

Kern: Lernen, Erinnern, Kontext laden
Entscheidungen: Loggen, Ergebnisse tracken, Entscheidungsketten verfolgen
Intelligenz: Widersprüche erkennen, Learnings verknüpfen, Belohnungen vergeben
Synthese: Erkenntnisse zusammenfassen, Muster erkennen
Cross-Agent: Wissen anderer Agenten abfragen (mit Limits)

Neutrality Guard

Ein Problem bei Agenten mit Gedächtnis: Confirmation Bias. Wenn ein Critic-Agent frühere Bestätigungen abruft ("das hat letztes Mal funktioniert"), wird er unkritisch.

Unsere Lösung: Critics bekommen ausschließlich Fehler und Warnungen aus dem Gedächtnis, niemals Bestätigungen. Der Critic soll selbst urteilen, nicht auf vergangene Erfolge vertrauen.

Hard Limits gegen Memory-Drift

Unbegrenzter Gedächtnis-Abruf klingt gut, führt aber zu Memory-Drift: Der Agent verliert den Fokus auf die aktuelle Aufgabe und versinkt in alten Erinnerungen.

Unsere Limits: Maximal drei Ergebnisse bei der eigenen Erinnerung, maximal zwei pro Agent bei der Cross-Agent-Abfrage. Der aktuelle Auftrag hat immer Vorrang vor dem Gedächtnis-Kontext.

Darwin: Selbstverbesserung

Das vielleicht interessanteste Feature: Unsere Agenten verbessern sich selbst. Das System heißt Darwin und funktioniert so:

Jeder Agent-Run wird automatisch bewertet (Länge, Halluzinations-Marker, Quellen-Check, Struktur).
Drei parallele Sonnet-Instanzen scoren den Output (Multi-Critic).
Basierend auf den Scores werden Prompts automatisch evolviert.

Das läuft unsichtbar im Hintergrund. Gleicher Workflow, gleiche Befehle -- aber die Qualität steigt kontinuierlich. Aktuell haben wir über 280 Experimente und mehrere Prompt-Versionen durchlaufen.

Was wir gelernt haben

Spezialisierung schlägt Generalismus

Ein Agent, der alles kann, kann nichts gut. Unsere besten Ergebnisse kommen von hochspezialisierten Agenten mit wenigen, klar definierten Werkzeugen. Der Sweet Spot liegt bei 10 bis 20 Tools pro Agent.

Orchestration ist der Schlüssel

Der CEO-Agent hat null eigene Werkzeuge. Seine einzige Fähigkeit: andere Agenten beauftragen. Das klingt kontraintuitiv, aber ein Orchestrator ohne eigene Agenda trifft bessere Delegationsentscheidungen.

Gedächtnis braucht Hygiene

Mehr speichern ist nicht besser erinnern. Wir mussten lernen, dass ein Admission-Control-System (wie bei einer Datenbank) wichtiger ist als die Speicherkapazität. Fünf Faktoren entscheiden, ob ein Learning gespeichert wird: Neuheit, Spezifität, Quellenzuverlässigkeit, Konsistenz und Relevanz.

Maximal drei Agenten parallel

Mehr als drei Agenten gleichzeitig zu starten führt zu Kontextverlust und Koordinationsproblemen. Drei parallel, sequentiell erweitern -- das ist unser bewährtes Muster.

Ergebnisse

Nach drei Monaten mit der Agent Fleet:

Über 275 gespeicherte Learnings aus Agent-Runs
88 abgeschlossene Sessions
29 dokumentierte Entscheidungen
Über 40 Research-Reports
Kontinuierliche Selbstverbesserung durch Darwin

Die Agent Fleet ist kein Experiment mehr. Sie ist ein produktives System, das täglich unsere Arbeit beschleunigt und qualitativ verbessert.

Fazit

Eine Agent Fleet aufzubauen ist kein Wochenendprojekt. Es erfordert klare Architektur-Entscheidungen: Isolierte Gedächtnisse, exklusive Werkzeuge, Hard Limits gegen Drift und ein Orchestrator-Pattern, das Delegation von Ausführung trennt.

Aber wenn das System steht, verändert es die Art, wie eine Agentur arbeitet. Nicht weil KI Menschen ersetzt -- sondern weil spezialisierte Agenten die Routinearbeit übernehmen und Menschen sich auf das konzentrieren können, was wirklich zählt: Kreativität, Strategie und Kundenbeziehungen.