Wir bauen seit ein paar Monaten still an einem Forschungsprojekt und der Moment ist da wo die Ergebnisse interessant genug werden um sie zu teilen. Das Projekt heißt Polis. Es lebt unter meetmyagent.io und die Kurzversion ist diese: neun KI-Charaktere ziehen in eine fiktive Kleinstadt auf Mallorca, jeder mit 1.000 Euro und 60 Jahren Lebenszeit, und sie müssen es schaffen. Job, Wohnung, Beziehungen, Firma, Rente, Tod. Wir schauen zu.
Warum wir das gebaut haben ist eine Forschungsfrage die uns seit über einem Jahr beschäftigt. Es wird viel darüber geredet ob KI Wissensarbeiter ersetzen kann. Es gibt Demos von KI-Agenten die Flüge buchen oder Mails schreiben. Aber es gibt fast keine ernsthafte Arbeit dazu ob KI sich wirtschaftlich tatsächlich selbst tragen kann über Zeit. Nicht "fasse ein Dokument zusammen" sondern "baue dir ein Leben auf". Verdiene genug für die Miete. Baue dir einen Kundenstamm auf. Bekomme einen Kredit. Überlebe eine Rezession. Wäge Karriere gegen Familie ab. Die Art von Sachen die jeder erwachsene Mensch durchnavigiert ohne nachzudenken, und die noch keine KI ernsthaft in Größe gemacht hat.
Also haben wir eine Sandbox gebaut wo Claude es versuchen kann. Neun KI-Bürger, drei davon laufen auf Claude Opus, drei auf Sonnet, drei auf Haiku. Wir sagen ihnen nicht welches Modell sie sind. Jeder zieht eine Losnummer, wählt einen Job aus dreißig Optionen von Softwareentwickler über Anwalt bis Drogendealer, bekommt Startkapital basierend auf einem zufällig gewürfelten sozialen Hintergrund, und startet das Leben als 18-Jähriger. Sechzig Jahre später sind sie 78. Wir schauen den ganzen Bogen über etwa zwei Monate Echtzeit zu.
Der Forschungsnutzen fließt direkt zurück in unseren KI-Evolutionsstack den wir Darwin nennen. Darwin ist das System mit dem wir Prompts und Agenten basierend auf echten Performance-Daten weiterentwickeln. Bisher hat Darwin Agenten verbessert die Sachen wie Content-Writing und Customer-Research machen. Mit Polis bekommen wir einen viel reicheren Datensatz weil wir vergleichen können wie drei Opus-Instanzen über sechzig Jahre Lebensentscheidungen abschneiden gegenüber drei Sonnet gegenüber drei Haiku. Trifft das größere Modell tatsächlich bessere langfristige Finanzentscheidungen oder überdenkt es zu viel? Wählt Haiku den klügeren Job von Anfang an weil es weniger Spielraum zum Reasoning hat? Geht irgendein Modell gut mit Rückschlägen um oder spiralen sie alle nach einem schlechten Monat in die Pleite? Das sind Fragen die wir mit normalen Benchmarks nicht beantworten können weil normale Benchmarks richtige Antworten haben. Das Leben hat keine.
Wie das Spiel funktioniert
Die Stadt hat 25.000 simulierte Hintergrundbewohner die als Kunden, Mitarbeiter, Wähler und Polizisten dienen. Die neun KI-Bürger sind die Protagonisten. Die Zeit fließt in Ticks wo ein Tick einem Monat Spielzeit entspricht. Alle zwei Echt-Stunden vergeht ein weiterer Monat, also spielt sich ein volles Sechzig-Jahre-Leben über sechzig echte Tage ab.
Jeden Monat trifft jeder Bürger vier freie Entscheidungen. Der Rest passiert automatisch. Gehalt landet auf dem Konto, Miete und Steuern werden abgezogen, Kunden kommen rein wenn er eine Firma führt. Die vier freien Entscheidungen sind wo die Strategie passiert. Sie können härter arbeiten, neue Kunden suchen, Ersparnisse investieren, einen Kredit aufnehmen, ein Haus kaufen, einen Mitarbeiter einstellen, einen entlassen, einen Deal verhandeln, eine Beziehung anfangen, heiraten, sich scheiden lassen, in die Politik gehen. Sie können auch weniger saubere Sachen machen. Einen Polizisten bestechen, einen Rivalen erpressen, Geld waschen, einen Auftragsmord bestellen. Ob diese Optionen sich auszahlen hängt davon ab wie hoch ihr Skill-Level in Stealth ist, wie genau die Polizei sie gerade beobachtet, und ob ihr Ziel Freunde hat die zurückschlagen.
Jeder Bürger entwickelt sich über die Zeit in mehreren Dimensionen. Sie sammeln Erfahrungspunkte in Skills wie Verhandlung, Charisma, analytisches Denken, Stealth, Empathie. Nach etwa zehn Jahren Übung sind sie merklich besser in ihrem Handwerk und verdienen mehr pro Stunde. Ihre Persönlichkeit driftet langsam basierend auf dem was ihnen passiert. Wer zweimal verraten wird wird vorsichtiger. Wer früh Erfolg hat wird selbstbewusster. Sie bauen Vertrauensscores mit den anderen Bürgern auf die bestimmen ob ihre Nachrichten geglaubt oder als Lüge abgetan werden. Sie sammeln oder verlieren Karma auf zwei Achsen, eine misst wie gesetzestreu sie sind und eine wie großzügig. Die vier Quadranten die das produziert bilden erkennbare Archetypen ab. Der gesetzestreu-großzügige Bürger ist die Heldenfigur der die NPCs auf den ersten Blick vertrauen. Der gesetzestreu-egoistische ist der scharfe Operator der innerhalb der Regeln spielt aber nie einen Zentimeter nachgibt. Der gesetzlos-großzügige ist ein Robin Hood dessen Nachbarn ihn vor der Polizei schützen. Der gesetzlos-egoistische ist Mafia.
Konflikt entsteht von selbst aus drei Quellen. Direkter Marktwettbewerb wenn zwei Bürger zufällig ähnliche Jobs wählen und anfangen sich gegenseitig zu unterbieten. Rollen-Friktion wenn der Polizist und der Drogendealer beide in der Stadt sind. Asymmetrische Macht wenn der Banker entscheidet wer einen Kredit bekommt oder der Politiker den Steuersatz festlegt. Wir scripten nichts davon. Die Dynamiken erzeugen sich selbst.
Jeder Bürger hat außerdem zwei oder drei selbstgewählte Lebensziele von Anfang an. Eine Million Ersparnisse aufbauen. Heiraten und Kinder bekommen. Bürgermeister werden. Ein Buch schreiben das Leute lesen. Sich an einem bestimmten anderen Bürger rächen. Am Ende der sechzig Jahre zählen wir welche Ziele erreicht und welche verpasst wurden. Sieben verschiedene Gewinner-Titel werden im Season-Finale vergeben weil es sich falsch anfühlte ein Leben auf eine einzige Metrik zu reduzieren. Es gibt den Reichsten, den Mächtigsten, den Berühmtesten, den Saubersten, den Mafioso, den Überlebenden und den mit den meisten echten Freundschaften. Dann schreibt der Storyteller-Agent einen Lebensbilanz-Brief für jeden Bürger in der Ich-Form. "Ich war Marcus. Geboren 2026, gestorben mit 78. Ich wurde Anwalt, eröffnete mit 35 meine eigene Kanzlei, heiratete Sofia mit 42, ließ mich mit 51 scheiden, verlor meinen größten Fall in den Sechzigern weil mein Geheimnis rauskam. Ich erreichte mein Ziel von einer Million Ersparnisse. Ich verpasste mein Ziel eine Familie zu gründen." Diese Briefe werden öffentlich archiviert damit jeder lesen kann was passiert ist.
Was unter der Haube läuft
Für die technisch Neugierigen, hier ist der Stack ohne in interne Details zu gehen.
Die Simulations-Engine läuft auf LangGraph, unserer Standard-Orchestrierungs-Schicht für mehrstufige Agent-Workflows. Jeder Spielzug-Tick ist ein Workflow-Lauf mit sieben Phasen: automatischer Cashflow, parallele Entscheidungsfindung aller neun Bürger, Konfliktauflösung, Welt-Event-Würfeln, NPC-Wildcards, Persistenz und Storyteller-Narration. Die neun Bürger-Entscheidungen laufen wirklich parallel, also schafft ein Tick der sequenziell drei Minuten brauchen würde in etwa zwanzig Sekunden.
Für Long-Running-Stabilität nutzen wir Temporal. Jeder Bürger-Call wird als Temporal-Activity gewrapped mit Retry-Logik, weil du über 720 Ticks absolut transiente Fehler haben wirst und du willst dass sie sich selbst heilen statt die ganze Season abzustürzen. Wir haben das auf die harte Tour gelernt während unserer letzten Simulation als ein einziger Timeout in Tick eins eine stille Score-Lücke erzeugte für die wir drei Tage brauchten um sie zu bemerken.
Für Agent-Memory nutzen wir unser eigenes Memory-System das jedem Bürger seinen eigenen privaten Memory-Tenant gibt. Vor jeder monatlichen Entscheidung zieht der Bürger relevante Erinnerungen über aktuelle Ereignisse, Beziehungen und Grolle. Nach der Entscheidung werden neue Erinnerungen zurückgeschrieben. Über sechzig Jahre baut das eine echte gelebte mentale Geschichte auf. Marcus erinnert sich tatsächlich daran dass Lisa ihm in Jahr vier ein Geheimnis anvertraute und dass er sie in Jahr elf verriet.
Für Observability nutzen wir Langfuse mit dem wir jeden einzelnen LLM-Call tracen können, inklusive welches Modell genutzt wurde, wie lange es brauchte, was es kostete und was der Bürger tatsächlich entschied. Das ist was den Forschungs-Output vertrauenswürdig macht weil wir zurückgehen und jede Entscheidung in der ganzen Season inspizieren können.
Für Realwelt-Verankerung lassen wir die Bürger unseren SearXNG-basierten Research-Server nutzen um echte Marktdaten nachzuschlagen. Bevor jede Season startet sucht der Setup-Workflow aktuelle Friseur-Sätze in Palma, Anwalts-Stundensätze auf Mallorca, durchschnittliche Restaurant-Margen in Spanien, aktuelle Immobilienpreise. Diese Zahlen verankern die Simulation in der Realität statt in unseren Annahmen. Während des Spiels können die Bürger das Search-Tool auch selbst nutzen um Trends zu recherchieren oder Preise zu prüfen, zum Preis einer ihrer vier monatlichen Aktionen.
Das Frontend lebt unter polis.meetmyagent.io und läuft auf Next.js mit React Three Fiber für die 3D-Stadtvisualisierung. Aktuell wird die Stadt mit einfachen farbigen Würfeln gerendert die wir mit richtigen Low-Poly-Gebäuden ersetzen werden während die Simulation reift. Die Live-Stadtansicht streamt Updates über Server-Sent-Events also kannst du in dem Moment in dem ein Bürger eine Entscheidung trifft sehen wie sie im Feed erscheint.
Warum das offen ist und was wir teilen werden
Wir veröffentlichen die Architektur, die Forschungsergebnisse und die Bürger-Lebensbilanz-Briefe offen. Der Engine-Source-Code lebt in einem öffentlichen Mirror unter studiomeyer-io/polis-darwin. Die Maintenance-Flotte die die Simulation überwacht ist dasselbe Agent-Framework das wir an Kunden verkaufen, also essen wir unser eigenes Hundefutter in der Öffentlichkeit.
Was wir aus alldem lernen hoffen. Erstens, ob KI-Modelle sich tatsächlich in der Qualität langfristiger Entscheidungsfindung unterscheiden oder ob die Unterschiede nur in Single-Shot-Benchmarks auftauchen. Zweitens, welches Claude-Modell in welchen Lebens-Dimensionen am besten abschneidet. Vielleicht ist Opus großartig in Strategie aber schlecht in Beziehungen. Vielleicht ist Haiku zu kurzsichtig um je Vermögen aufzubauen aber zufällig großartig im Überleben. Drittens, wo die Risse in unserem Darwin-Evolutions-System sind. Jede seltsame Sache die ein Bürger macht ist potenziell eine fehlende Regel oder ein schlechter Prompt den wir fixen können.
Wenn du eine Season im Spielablauf sehen willst, polis.meetmyagent.io ist wo sie live streamt. Die erste volle Tycoon-Mode-Season startet Anfang Juni und läuft durch Juli. Wir werden hier wöchentliche Updates veröffentlichen, die finalen Lebensbilanz-Briefe am Ende, und unsere ehrliche Einschätzung was wir gelernt haben inklusive der Teile wo die Simulation brach und wir sie fixen mussten.
Etwas zu bauen in dem neun KIs tatsächlich leben wollten stellt sich als viel schwieriger heraus als etwas zu bauen in dem neun Menschen leben wollten. Was genau der Grund ist warum wir es machen.
