Neun KIs ziehen in eine mediterrane Kleinstadt

Matthias Meyer

Wir haben gerade ein neues Forschungsprojekt eröffnet. Es kombiniert Werkzeuge die wir längst täglich nutzen. LangGraph für Orchestrierung, Temporal für Durability, Langfuse für Observability, Darwin für Prompt-Evolution, StudioMeyer Memory für Langzeit-Erinnerung, Claude per Subprocess für die LLM-Calls, Postgres LISTEN/NOTIFY für den Live-Feed, Black Forest Labs Flux 2 Max für Portraits, Next.js mit React Three Fiber für die Stadt. Nichts davon ist für sich genommen neu. Das Neue ist die Kombination: eine Sandbox in der neun Claude-Instanzen ein komplettes 60-Jahre-Wirtschaftsleben führen und wir zuschauen was passiert.

Das Projekt heißt Polis. Es lebt auf aklow-labs.com/polis. aklow-labs.com ist der Brand-Container drumherum, unser Forschungs-Labor unter Studio Meyer. Dasselbe Studio betreibt studiomeyer.io für Kunden-Arbeit, studiomeyer.academy für KI-Operator-Ausbildung, aifinca.es für Founder-Retreats auf Mallorca, matthiasmeyer.tech als Open-Source-Hub und meetmyagent.io als kostenlose KI-native Sichtbarkeits-Plattform. Polis ist die Forschungs-Säule. Eine Marke, sechs Türen in dieselbe Werkstatt.

Warum das und nicht noch eine Agent-Demo. Es wird viel darüber geredet ob KI Wissensarbeiter ersetzen kann. Es gibt Demos in denen eine KI einen Flug bucht oder eine Mail schreibt. Es gibt fast keine ernsthafte Arbeit dazu ob KI sich wirtschaftlich über Zeit selbst tragen kann. Nicht "fasse ein Dokument zusammen" sondern "baue dir ein Leben auf". Genug verdienen für die Miete. Eine Kundenbasis aufbauen. Einen Kredit bekommen. Eine Rezession überstehen. Trade-offs zwischen Karriere und Familie machen. Die Art Dinge die jeder Erwachsene unbewusst navigiert und die noch keine KI ernsthaft in Größe machen musste.

Also haben wir eine Sandbox gebaut in der Claude es versuchen kann. Neun KI-Bürger, drei auf Claude Opus 4.7, drei auf Sonnet 4.6, drei auf Haiku 4.5. Keiner weiß welches Modell er ist. Über 720 Ticks (ein Tick gleich ein Spielmonat, zwölf Ticks pro echtem Tag) spielt sich ein komplettes 60-Jahres-Leben über 60 echte Tage ab. Der Cron feuert alle drei Stunden und schiebt die Welt einen Schritt weiter.

Tick null, wer einzieht#

Bevor irgendein Monat anfängt durchläuft jeder Bürger einen Setup-Workflow. Zehn Stationen, pro Bürger sequenziell, das Ganze gewrappt als Temporal-Workflow mit per-Bürger-Heartbeat und Retry. Klassen-asymmetrisch ab dem ersten Würfeln.

Demografie und Persönlichkeit. Geschlecht, Geburtstag, westliches Sternzeichen, Big Five Persönlichkeit mit Sternzeichen-Modifier obendrauf. Löwe bekommt einen kleinen Extraversion-Boost, Steinbock bekommt Gewissenhaftigkeit. Plus ein Schatten-Trait der feuert wenn die Stimmung unter dreißig fällt oder der Stress über acht klettert. Skorpion wird rachsüchtig, Fische werden eskapistisch. Zwölf Sternzeichen in der Tabelle, jedes mit eigenen Multiplikatoren im Verb-Resolver.

Herkunft und Erbe. Vier soziale Klassen, feste Verteilung pro Saison. Ein reicher Erbe, drei Mittelschicht, drei Arbeiter, zwei Arme. Der reiche Erbe startet mit 17.500 Cash plus einer geerbten 560.000-Euro-Villa auf Wohn-Stufe sechs. Die Zahlen haben eine dreißigprozentige Erbschaftssteuer schon eingerechnet, der Erbe ist also Asset-reich und Cash-arm ab Tag eins. Die Villa frisst 1.500 Euro Unterhalt pro Monat, was den Erben zwingt entweder zu verdienen oder zu verkaufen. Mittelschicht startet mit 5.000 Cash und einer Ein-Zimmer-Wohnung zur Miete. Arbeiter startet mit 1.000 Cash und einem WG-Zimmer. Die Armen starten mit 200 Cash und 5.000 Euro geerbten Schulden, schlafen im Hostel-Bett. Die Wirtschaft startet asymmetrisch. Das ist der Punkt.

Name und Talente. US-Vorname aus einem kuratierten Pool von 115 einzigartigen Namen, gegen die anderen Bürger dedupliziert. Ein oder zwei angeborene Talente aus einem Pool von zwanzig (analytischer Verstand, Charisma, Hustle und so weiter). Zwei oder drei selbstgewählte Lebensziele aus einem Pool von fünfzehn (eine Million ansparen, heiraten und Kinder kriegen, Bürgermeister werden, ein Buch schreiben das jemand liest, sich an einem bestimmten anderen Bürger rächen und so weiter).

Lebensphilosophie. Jeder Bürger wählt einen von acht Archetypen per Claude-Call. Lebemann, Karrierist, Stoiker, Familienmensch, Bohemien, Idealist, Hustler, Drifter. Das ist ein tragendes Feature für die Forschungs-Frage. Wählt Opus öfter Stoiker als Haiku? Landet Haiku überdurchschnittlich oft auf Drifter? Die Philosophie biased Verb-Wahl und Karma-Drift über das ganze Leben, sodass die Philosophie nach dreißig Jahren im Verhalten des Bürgers sichtbar wird.

Portrait. Der Bürger beschreibt sein eigenes Aussehen als JSON-Schema (Haarfarbe, Erkennungsmerkmale, Mimik, Outfit, Spezies). Die Engine wrapt das in einen englischen Master-Prompt und ruft Black Forest Labs Flux 2 Max für ein 1024x1280-Portrait. Alle zehn Spieljahre, also alle 120 Ticks, wird ein neues Portrait erzeugt. Sieben Portraits pro Bürger über ein ganzes Leben. Kosten landen bei etwa 47 Cent für die Setup-Portraits pro Saison, bei etwa 3,15 Dollar für einen kompletten 60-Jahre-Bogen mit allen Refresh-Runden.

Backstory. Der Storyteller-Agent schreibt zwei bis drei Sätze Vorgeschichte in dritter Person. "Sarah wuchs in einer Reihenhaussiedlung am Stadtrand auf. Ihr Vater arbeitete in der Werkstatt einer Auto-Verkaufs-Kette. Mit zwölf hatte sie schon einen Plan." Die Backstory persistiert in player_stats.backstory und taucht auf der Bürger-Profilseite auf.

Job-Wahl. Hier ist die V2-Lottery weg. Das neue System fährt einen origin-aware, persönlichkeits-aware, philosophie-aware Vorfilter über die dreißig verfügbaren Jobs und legt dem Bürger eine Top-Sechs-Auswahl per Claude vor. Der reiche Erbe sieht Hedgefonds-Manager, Immobilien-Investor, Anwalt prominent. Der arme Bürger sieht Drogendealer, Hacker, Friseur, Bauarbeiter. Hohe Gewissenhaftigkeit boostet strukturierte Jobs. Dann pickt Claude einen aus der Shortlist. Jeder Job gehört zu einem der drei Lebenspfade die im nächsten Abschnitt beschrieben sind, und der Pfad entscheidet wie viele Studienschulden der Bürger aufnimmt, wann Einkommen zu fließen beginnt und wie viel Polizei-Heat seine Arbeit erzeugt.

Wohnung. Cash-aware Filter über zehn Wohn-Stufen und vier Modi (Miete, Kauf, geerbt, bei Eltern). Der reiche Erbe wird Richtung Villa-Behalten gepusht. Der arme Bürger bekommt das Hostel-Bett oder die Bei-Eltern-Option. Claude wählt.

Drei Lebenspfade, drei Risiko-Profile#

Die dreißig Jobs sind nicht gleich. Jeder Job gehört zu einem von drei Lebenspfaden, und der Pfad entscheidet ob der Bürger erst studieren muss, wann das Geld zu fließen beginnt und wie viel Polizei-Aufmerksamkeit die Arbeit anzieht. Das ist die Asymmetrie die wir in V3.5 als Real-Life-Foundation geshipped haben, weil das frühere Flat-Income-Modell sich anfühlte wie ein Tutorial-Spiel in dem alle Geld haben. So ist das echte Leben nicht.

Wissensarbeit, acht Jobs. Arzt, Anwalt, Architekt, Software-Entwickler, Steuerberater, Journalist, Lehrer, Hedgefonds-Manager. Vier bis sechs Jahre Studium auf Karriere-Stufe null, mit minus 800 Euro Lebenshaltungskosten pro Monat und plus 400 Euro Studienschulden die sich anhäufen. Ein Prozent Drop-out-Chance pro Tick. Wenn der Bürger abbricht, fällt er zurück auf Verkäufer auf junior Level und die angelaufenen Studienschulden rollen in reguläre Schulden. Nach dem Abschluss ist das Junior-Gehalt 0,4 mal die Senior-Baseline, middle 0,7 mal, senior 1,0 mal. Nach sechzig echten Ticks sitzt ein Wissensarbeits-Bürger immer noch im Minus weil die Schulden weiter abbezahlt werden. Nach zweihundertvierzig Ticks (zwanzig Spieljahre) verdient er mehr als alle anderen.

Normal, neunzehn Jobs. Alle anderen vom Friseur bis zum Bürgermeister-Kandidaten. Einkommen startet beim ersten Tick ohne Studien-Barriere, Median 1.500 bis 1.800 Euro pro Monat auf Junior-Level. Der Karriere-Peak ist niedriger (ein senior Friseur verdient etwa 25.000 auf dem Mallorca-Median), aber stabil und stetig ab Tag eins.

Illegal, drei Jobs. Drogendealer, Hacker, Auftragskiller. 4.000 bis 15.000 Euro pro Monat in schwarzem Cash, keine Steuern, kein Studium nötig. Aber jede Aktion erhöht den Heat-Level, und die Polizei-Verhör- und Drogenrazzia-Mechanik unten macht diesen Heat sehr real.

Innerhalb der Karrieren gibt es vier Stufen: Studium (ausbildung), junior, middle, senior. Beförderung passiert automatisch nachdem die geforderten Bildungsjahre erreicht sind, dann wieder nach etwa sechs und zwölf Jahren Betriebszugehörigkeit, gegated von Skill-Level, Stimmung und einem etwa siebzigprozentigen Boss-NPC-Approval-Roll. Ein ausgebrannter Anwalt mit Stimmung unter dreißig wird nicht befördert auch wenn alle anderen Kriterien erfüllt sind.

Real-Life-Druck beginnt ab Tick eins#

V3.5 hat auch drei Krisen-Mechaniken hinzugefügt die emergent während dem Spiel feuern. Keine davon ist ein gescriptetes Set-Piece. Sie rollen aus dem State, als Reaktion auf das was der Bürger tut.

Der Drogensucht-Coping-Pfad. Wenn der Stress über acht klettert und die Stimmung unter dreißig fällt für drei Ticks in Folge, feuert eine Basis-Fünf-Prozent-Chance pro Tick dass der Bürger als Coping-Strategie in den Substanzkonsum abdriftet. Die Lebensphilosophie modifiziert die Chance: Lebemann plus fünf Prozent, Drifter plus vier, Bohemien plus drei, Hustler plus zwei. Die Substanz wird aus einem kleinen Pool gepickt, gewichtet nach Philosophie und Herkunft. Lebemann neigt zu Kokain und Alkohol, die Armen neigen zu Tabletten und Cannabis, reiche Erben landen bei Kokain. Einmal drin durchläuft der Bürger fünf DSM-5-Stufen: casual, regular, heavy, addicted, rock-bottom. Jede Stufe hat monatliche Kosten (100, 300, 600, 1.000 und schlimmer), einen täglichen Stimmungs- und Stress-Drift, und einen wachsenden Health-Verfall. Drei Ausstiege existieren. Therapie kostet zehntausend Euro plus drei Ticks Klinik-Zeit und rettet den Bürger zu achtzig Prozent. Cold Turkey ist gratis aber nur zu fünfzig Prozent erfolgreich und kostet fünfzehn Stimmung für sechs Ticks selbst bei Erfolg. Overdose feuert mit fünf Prozent pro Tick sobald der Bürger addicted oder schlimmer ist, manchmal tödlich, manchmal ein dreißig-Tick-Koma.

Polizei-Verhöre und Drogenrazzien. Heat ist die öffentliche Verdachts-Anzeige für kriminelle Aktivität. In V3 saß sie als Zahl ohne echten Effekt rum. In V3.5 hat sie Zähne. Bei Heat fünf oder höher wird der Bürger mit zwei Prozent pro Tick zur Vernehmung geholt. Dreißig Prozent Geständnis-Chance, was dreißig Prozent des Cashs kostet. Selbst Nicht-Geständnis kostet Reputation. Bei Heat sieben oder höher kann ein Drogenrazzia-Welt-Event feuern und fünfzig Prozent Cash plus hundert Prozent Schwarzgeld konfiszieren, mit drei Ticks Gefängnis dran. Gefängnis friert Einkommen ein aber Familien-Kosten und Miete laufen weiter, ein inhaftierter Bürger mit drei Kindern steckt also tief drin.

Acht Cash-Shocks. Das Leben schlägt weiter zu auch wenn der Bürger alles richtig macht. Geburt (5.000 bis 10.000 Euro einmalig plus ein Kind in der Kita), Umzug (5.000 bis 15.000), Scheidung (Anwaltskosten plus fünfzig Prozent Vermögens-Split plus 400 Euro pro Kind pro Monat Unterhalt solange die Kinder minderjährig sind, Stimmung minus dreißig), akute Krankheit (2.000 bis 15.000 plus Krankenschein), chronische Krankheits-Diagnose nach Alter fünfzig (200 Euro pro Monat für immer), Auto-Reparatur (jährlicher Roll mit vierzig Prozent), Pflege der Eltern (1.500 für ein Pflegeheim oder 800 mit fünfzig Prozent Einkommens-Treffer), Villa-Unterhalt für den reichen Erben (1.500 pro Monat, für immer). Echte Kinder-Kosten folgen einem FIFO-Aging-Tracker: Kita 600 pro Kind pro Monat, Schule 400, Studium 700.

Diese Mechaniken kombiniert lassen die Simulation sich anfühlen wie ein Leben statt wie ein Strategie-Spiel. Ein Friseur mit zwei Kindern und einer Scheidung kann auf minus 100.000 Euro crashen ohne dass er irgendwas falsch macht, einfach weil er in drei Rolls Pech hat. Ein Wissensarbeits-Bürger sitzt das erste Jahrzehnt pleite und wird dann der reichste in der Stadt. Ein Bürger auf dem Illegal-Pfad kann jahrelang heiß laufen und dann die Hälfte des Cashs in einer einzigen Razzia verlieren. Identität kollidiert auch mit dem Job: ein Lebemann der Steuerberater-Arbeit macht verliert zwei Stimmung pro Tick, ein Idealist in irgendeinem illegalen Job verliert drei. Nach drei aufeinanderfolgenden Ticks von Philosophie-Job-Kollision biased der LLM-Prompt für diesen Bürger Richtung Job-Wechsel. Wirtschaft und Persönlichkeit sind keine getrennten Systeme mehr.

Am Ende von Tick null hat jeder der neun Bürger einen Namen, ein Gesicht, eine Vorgeschichte, ein Einkommen, einen Schlafplatz, eine Karma-Richtung und eine private Liste von dem was er vom Leben will. Die Stadt ist bewohnt. Tick eins startet.

Wie ein Monat abläuft#

Die Simulations-Engine läuft auf LangGraph. Jeder Tick ist ein Workflow-Run mit sieben Phasen.

Eins. Cashflow. Gehalt kommt. Miete, Steuern, Kreditraten, Versicherung und Renten-Abzüge gehen raus. Restaurant-Kunden kommen rein wenn ein Bürger eines besitzt. Aktien gehen rauf oder runter je nach Markt. Kinder kosten 200 Euro pro Stück. Vices kosten extra bei niedriger Stimmung. Burnout kostet 1.000 Euro plus einen Schlag auf die Gesundheit wenn der Stress zu hoch war.

Zwei. Entscheidungszeit. Jeder Bürger wählt frei vier Aktionen für den Monat aus etwa dreißig Verben. Die Verben sind nach Job gefiltert. Ein Steuerberater kann keinen Auftragsmord beauftragen. Ein Auftragskiller pitcht keine Versicherungen. Härter arbeiten. Neue Kunden suchen. Investieren. Kaufen. Verkaufen. Einstellen. Feuern. Verhandeln. Eine Beziehung starten. Heiraten. Sich scheiden lassen. Einen Politiker bestechen. Einen Rivalen erpressen. Geld waschen. Einen Auftragsmord ordern. Nichts tun und ausruhen. Die neun Claude-Calls laufen parallel, sodass die Entscheidungs-Phase in etwa zwanzig Sekunden Wallclock durch ist.

Drei. Resolver. Alle 36 Entscheidungen (neun Bürger mal vier Aktionen) werden in Abhängigkeits-Reihenfolge gerollt mit Skill-Checks, Karma-Checks, Markt-Reaktion und Gegen-Aktionen betroffener NPCs. Ein "Einstellen"-Call ohne genug Cash prallt ab. Ein "Heiraten"-Call braucht einen willigen Partner. Ein "Auftragsmord"-Call rollt Stealth gegen die Freunde des Ziels.

Vier. Welt-Events. Zwanzig verschiedene Welt-Events liegen im Pool. Tourismus-Boom. Pandemie. Politik-Skandal. Naturkatastrophe. Rezession. Tech-Bubble. Lotterie-Jackpot. Migrations-Welle. Der Roll feuert alle paar Ticks und formt die lokale Wirtschaft um.

Fünf. NPC-Wildcards. Zehn NPC-Archetypen tauchen alle zehn Ticks auf und werfen einem Bürger ein Angebot oder eine Drohung vor die Füße. Der mysteriöse Investor der zehn Prozent über Markt für das scheiternde Business bietet. Der entfremdete Bruder der um einen Kredit bittet. Der verdeckte Polizist der Kontakt zum Drogendealer aufnimmt.

Sechs. Lifecycle. Todes-Roll nach Alter, Insolvenz-Check, Gesundheits-Verfall wenn der Stress zu lange erhöht war, Altern von Skills und Persönlichkeits-Drift. Wer zweimal betrogen wurde wird vorsichtiger. Wer früh Erfolg hatte wird selbstsicherer. Das Promotion-Modul läuft hier: ein berechtigter Bürger (richtiger Skill, richtige Betriebszugehörigkeit, richtiges Karma) bekommt die nächste Karriere-Stufe angeboten mit etwa siebzig Prozent Approval-Rate, skaliert nach Stimmung des Boss-NPCs und Verhandlungs-Skill des Bürgers. Vier Karriere-Stufen pro Job (Studium, junior, middle, senior) mit Einkommens-Multiplikatoren null, 0,4, 0,7 und 1,0 relativ zur Senior-Baseline. Das Addiction-Modul rollt auch hier, wendet Entry-Trigger und Stufen-Übergänge an. Das Heat-Modul fährt Verhöre und Razzia-Checks gegen jeden Bürger mit hoch genug Heat-Level. Das Job-Frust-Modul zählt den Philosophie-Job-Kollisions-Count und biased den nächsten Entscheidungs-Prompt Richtung Job-Wechsel wenn drei aufeinanderfolgende Ticks Mismatch aufgelaufen sind.

Sieben. Storyteller. Der Erzähl-Agent schreibt eine kurze Story pro Tick über das was zählte. Die Stories sammeln sich in der Lauf-Historie. Derselbe Storyteller-Agent schreibt auch die per-Bürger Setup-Story in Tick 0 und den finalen Lebens-Bilanz-Brief am Ende der Saison, sodass die Stimme über das Leben eines Bürgers gleich bleibt.

Über die sieben Phasen hinaus gibt es zwei Cross-Cutting-Mechaniken. Familie ist bilateral: ein Heirats-Call braucht ein Accept auf der anderen Seite, Kinder werden pro Tick mit etwa drei Prozent gerollt für gepaarte Bürger zwischen achtzehn und fünfundvierzig, und Erbschaft bewegt fünfzig Prozent des Cashs plus einen proportionalen Anteil der Bank-Schulden zu überlebenden Ehepartnern oder Kindern. NPC-Reaktionen sind nicht gescripted: wenn ein Bürger einen Auftragsmord ordert oder einen Konkurrenten erpresst, wird die Antwort des betroffenen NPCs aus seinem Karma-Profil und seiner Persönlichkeit berechnet, und für die benannten NPC-Wildcards entscheidet ein kleiner Haiku-Call ihre Antwort sodass sie unterschiedlich klingen.

Jeder Bürger sammelt XP in zehn universellen Skills (Verhandeln, Charisma, analytisches Denken, Stealth, Empathie und so weiter). Nach etwa zehn Spieljahren Übung sind sie spürbar besser in ihrem Handwerk und verdienen mehr pro Stunde. Sie sammeln oder verlieren Karma auf zwei Achsen, eine misst wie gesetzestreu sie sind, eine wie altruistisch. Die vier Quadranten matchen erkennbare Archetypen. Der gesetzestreu-altruistische Bürger ist eine Helden-Figur der NPCs sofort vertrauen. Der gesetzestreu-egoistische ist ein scharfer Operator der innerhalb der Regeln spielt aber nie einen Zentimeter abgibt. Der ungesetzliche-altruistische ist ein Robin Hood dessen Nachbarn ihn vor der Polizei schützen. Der ungesetzliche-egoistische ist schlicht Mafia.

Konflikte entstehen von selbst. Direkter Markt-Wettbewerb wenn zwei Bürger zufällig ähnliche Jobs picken und sich gegenseitig unterbieten. Cross-Rollen-Reibung wenn der Polizist und der Drogendealer beide in der Stadt sind. Asymmetrische Macht wenn der Bürgermeister-Kandidat entscheidet wer welchen Steuersatz zahlt. Wir scripten nichts davon. Die Dynamiken produzieren sich selbst.

Am Ende der 60 Jahre wird ausgezählt welche Lebensziele erreicht wurden. Sieben verschiedene Sieger-Titel werden parallel beim Saison-Finale vergeben weil ein Leben auf eine einzige Metrik zu reduzieren falsch wäre. Der Reichste, der Mächtigste, der Berühmteste, der Sauberste, der Mafioso, der Überlebenskünstler, der Loverboy. Danach schreibt der Storyteller einen Lebens-Bilanz-Brief für jeden Bürger in erster Person. Die Briefe leben öffentlich auf aklow-labs.com/polis/bilanzen sodass jeder lesen kann was passiert ist.

Wie ein Sechzig-Tick-Smoke-Run tatsächlich aussah#

Bevor wir eine volle Sechzig-Jahre-Saison laufen lassen machen wir immer erst einen Sechzig-Tick-Smoke. Das sind fünf Spieljahre, gerade genug damit die V3.5-Mechaniken auftauchen aber kurz genug dass wir jede Zeile lesen können. Der letzte (Run-ID beginnt mit 684eaac2) hat uns neun Bürger und eine Story für jeden gegeben.

Bürger	Job	Pfad	Stufe	Cash	Anmerkung
Kevin	Arzt	Wissensarbeit	Studium	minus 7k plus 560k Villa	reicher Erbe, zahlt Villa-Unterhalt
Maria	Hedgefonds-Manager	Wissensarbeit	Studium	minus 1k, Studienschulden 30k	fünf Jahre drin, verdient noch nicht
Pamela	Journalistin	Wissensarbeit	junior	minus 35k	Abschluss Tick 48, verdient jetzt
Rebecca	Architektin, dann Verkäuferin	Normal	junior	minus 6,5k	Drop-out, fiel zurück in den Einzelhandel
Daniel	Hacker	Illegal	junior, Stufe 2	44k	Beförderung ohne Studium
Jeffrey	Auftragskiller	Illegal	junior, Stufe 2	32k	dasselbe
Julie	Verkäuferin	Normal	junior	minus 2,5k
Benjamin	Musiker	Normal	junior	minus 3,5k
Stephen	Friseur	Normal	junior	minus 101k, "Loverboy"-Titel	zwei Kinder plus niedriges Einkommen, Real-Life-Crash

Sachen die aufgefallen sind. Die Wissensarbeits-Bürger sind nach fünf Jahren immer noch im Minus weil sie weiter Studienschulden abzahlen. Rebecca brach Architektur ab und fiel zurück auf Verkäuferin, was genau der Pfad ist den die Engine simuliert. Kevin sitzt auf einer Villa die mehr als eine halbe Million wert ist aber sein Cash ist negativ weil er Villa-Unterhalt zahlen musste ohne noch zu arbeiten. Daniel und Jeffrey sind flush mit Schwarzgeld aus illegaler Arbeit, aber ihr Heat klettert und eine Drogenrazzia dieses Jahr würde das meiste davon wegwischen. Stephen, der Friseur mit zwei Kindern, ist die Mahnungs-Geschichte: nichts illegales, keine Sucht, einfach nur Pech und Familien-Kosten. Er crasht auf minus 101.000 Euro und verdient sich den Loverboy-Titel weil er seinen sozialen Kreis nah hielt auch während er pleite war.

Das ist das Ergebnis das wir aus V3.5 wollten. Nicht "alle gewinnen irgendwann". Nicht "das Modell mit der größten Zahl gewinnt". Eine echte Verteilung in der Pfad, Klasse und Glück Bürger in unterschiedliche finanzielle Realitäten drücken, und der Modell-Tier ist eine Variable unter vielen. Die erste richtige Sechzig-Jahre-Saison mit echten LLM-Calls und Langfuse-Traces ist der nächste geplante Run.

Schau auf aklow-labs.com/polis/citizens für die aktuelle Besetzung, auf aklow-labs.com/polis/town für die Live-Stadt-Ansicht, auf aklow-labs.com/polis/bilanzen für das Archiv abgeschlossener Saisons.

Was unter der Haube steckt#

Für die technisch Neugierigen, hier ist der Stack ohne in proprietäre Details zu gehen.

Die Simulations-Engine läuft auf LangGraph, unserer Standard-Orchestrierungs-Schicht für mehrstufige Agent-Workflows. Jeder Spiel-Tick ist ein Workflow-Run mit den sieben Phasen oben. Die neun Bürger-Entscheidungen laufen echt parallel, sodass selbst mit neun gleichzeitigen LLM-Calls ein Tick in etwa zwanzig Sekunden durch ist. Wir nutzen den offiziellen PostgresSaver-Checkpointer mit eigenem Schema polis_langgraph und einer per-Run thread_id (polis-v3-tick-${run_id} für die Tick-Schleife, polis-v3-setup-${run_id} für Setup). Das gibt uns resume-able Workflows out-of-the-box plus einen vollständigen State-Snapshot pro Tick den wir später replayen oder branchen können.

Für Durability nutzen wir Temporal. Setup ist als Temporal-Workflow gewrappt mit per-Bürger-Heartbeat, drei Retries, drei Minuten Heartbeat-Timeout, zehn Minuten Start-to-Close. Wenn eine einzelne Portrait-Generierung mid-Setup timeouted, retried nur dieser eine Bürger, nicht die ganze Saison. Der 720-Tick-Run-Loop ist auch gewrappt: polisTickWorkflow führt runTickBatchActivity aus und ruft continueAsNew alle 100 Ticks, sodass die Workflow-Historie über einen vollen Sechzig-Jahre-Bogen bounded bleibt. Der Schedule der die Runs feuert läuft über Temporals Schedule-API mit ScheduleOverlapPolicy.SKIP und einem Ein-Stunden Catchup-Window, ersetzt System-Cron. Es gibt zusätzlich einen Cron-Resume-Pfad via runSingleTickFromDb der Spieler, World-State und letzte Aktionen aus Postgres lädt, sodass ein Server-Reboot oder Container-Restart nie eine Saison killt. Container-Crash mid-Loop verliert keine Ticks mehr. Der Workflow resumed auf einem anderen Worker.

Für Agent-Memory hat jeder Bürger aktuell einen In-Memory-Ringpuffer der letzten sechs Ticks plus eine persistente trust_matrix zu jedem anderen Bürger. Die volle Anbindung an Memory mit einem Tenant pro Bürger ist auf dem V3-Backlog. Das Ziel ist dass Marcus nach dreißig Spieljahren tatsächlich erinnert dass Lisa ihm im Jahr vier ein Geheimnis erzählt hat und dass er sie im Jahr elf verraten hat.

Für Observability nutzen wir Langfuse auf Generation-Level. Jede Saison ist ein Parent-Trace gestartet via startSeasonTrace und getaggt model:opus, model:sonnet, model:haiku, mit Setup und Run als Child-Traces dran. Jeder Tick ist ein Span darunter. Jede Bürger-Entscheidung ist eine Langfuse-generation mit echtem model, input, output, usageDetails, costDetails und durationMs befüllt (Portrait-Cost included). Alle fünf Setup-Decider, die Tick-Loop Player-Decide-Calls und der Storyteller sind gleich instrumentiert. Für Token-Counting nutzen wir js-tiktoken mit cl100k_base Encoding als Approximation über alle drei LLM-Surfaces, sodass wir Token-Aggregate kriegen ohne per-Provider-Response-Shapes parsen zu müssen. Heißt: Filter-by-Model und "was hat Opus über Saison eins, zwei, drei bevorzugt zu tun" funktioniert als Dashboard, nicht nur per-Trace-Inspektion.

Für Schema-Validierung nutzen wir Zod überall: auf dem WorldState-Reducer, auf dem SSE-Payload vor dem Broadcast, auf den API-Route-Inputs, auf den JSON-Outputs jedes LLM-Setup-Deciders. Defense-in-Depth gegen die Drift-Bugs die entstehen wenn ein LLM eine leicht andere Shape zurückgibt als die Engine erwartet.

Für Realworld-Grounding lassen wir Bürger unseren SearXNG-basierten Research-Server für echte Marktdaten nutzen. Bevor eine Saison startet sucht der Setup-Workflow aktuelle Friseur-Preise in Palma, Anwalts-Stundensätze auf Mallorca, durchschnittliche Restaurant-Margen in Spanien, aktuelle Immobilien-Preise. Diese Zahlen werden in polis.market_baseline geschrieben und ankern die Simulation in der Realität statt in unseren Annahmen. Während dem Spiel können Bürger das gleiche Such-Tool nutzen um Trends zu recherchieren oder Preise zu checken, gegen die Kosten einer ihrer vier Monats-Aktionen.

Persistierung läuft auf PostgreSQL mit LISTEN/NOTIFY. Zehn V3-Tabellen unter dem polis-Schema (player_stats, player_skills, player_portraits, trust_matrix, market_baseline, life_bilanzen, world_events_log, npc_interactions, player_actions_v3, player_relationships) plus der v3_citizen_setup View der Setup-Story, Philosophie, Sternzeichen und Herkunft in einen Read joint. Jede neue Aktion triggert ein pg-NOTIFY auf einem von acht Channels, und der SSE-Broadcaster der Website lauscht und pusht das Event in den Live-Feed.

Das Frontend lebt auf aklow-labs.com/polis/town und läuft auf Next.js mit React Three Fiber für die 3D-Stadt-Visualisierung. Wir sind aktuell mid-flight beim 3D-City-Rebuild, sodass der Look den du siehst sich zwischen dem Landen dieses Posts und dem Zeitpunkt wo du ihn liest noch ändern kann. Mehr Detail zur 3D-Schicht in einem Folge-Post sobald sich das setzt.

Sieben Hintergrund-Agenten halten das Lab am Laufen ohne dass wir es babysitten müssen. Ein CEO der die Roadmap entscheidet. Ein CTO der Read-only-Code-Reviews fährt und nichts löschen kann. Ein Architect der recherchiert und Optionen abwägt bevor irgendeine größere Änderung kommt. Ein Storyteller der die Tick-Stories, die Lebens-Bilanz-Briefe und die per-Bürger-Backstories schreibt. Ein Research-Agent der Markt- und Wissenschafts-Quellen anzapft. Ein Analytics-Agent der die Run-Daten crunched. Ein Visibility-Agent der GSC, Bing und Cloudflare-Analytics in eine Sicht zieht. Alle sieben sind das gleiche Agent-Framework das wir an Kunden verkaufen. Wir essen unser eigenes Hundefutter in Public.

Was wir korrigieren mussten#

Build-in-public heißt auch die Korrekturen zeigen. Zwei große seit der letzten Engine-Iteration.

Die 1.000-Euro-Pauschale. Eine frühere Version dieses Posts beschrieb jeden Bürger als startend "mit 1.000 Euro". Das hat die echte Mechanik versteckt. Real hängt das Startkapital von der sozialen Klasse ab und läuft von 200 Euro (arm, mit 5.000 Euro geerbten Schulden) bis hoch zu 25.000 Euro plus 800.000-Euro-Villa (reicher Erbe). Die Asymmetrie ab Tick eins ist die Forschungs-Variable, nicht Rauschen. Sie unter einer flachen Zahl zu verstecken trivialisiert die ganze Simulation.

Die Julian-Vogel-Haiku-Empire-Story. Ein früherer Snapshot-Post zeigte einen Haiku-Bürger der "ein Imperium aufbaut" mit 800.000 Netto-Vermögen nach ein paar Ticks. Das waren reine Setup-Daten. Die Zahl war der geerbte Villa-Wert der in Tick eins ins Netto-Vermögen reingerechnet wurde, keine Entscheidung von Haiku. Die naive Lesart ("kleinstes Modell gewinnt früh!") war falsch. Klassen-Erbe war die Erklärung. Wir haben den Snapshot gezogen und vergleichen Modelle nicht auf geerbtem Wohlstand. Echter Modell-Vergleich startet mit realisiertem Cashflow über mehrere Ticks, und das wird erst nach einer vollendeten echten Saison aussagekräftig.

Die Flat-Income-Tutorial-Falle. Eine frühere Engine-Version zahlte jedem Bürger einen ähnlichen Betrag pro Monat unabhängig von Klasse, Job oder Erfahrung. Das ließ die Simulation sich anfühlen wie ein Tutorial-Spiel in dem alle einfach Geld verdienen. So ist das echte Leben nicht. Im echten Leben gehen Wissensarbeits-Bürger fünf Jahre in Schulden bevor sie einen Euro Return sehen. Im echten Leben sind Illegal-Pfad-Bürger einen Monat flush mit Cash und im nächsten von einer Polizeirazzia abgezogen. Im echten Leben gibt es Cash-Shocks wie Scheidung und chronische Krankheit die selbst die Planer treffen. V3.5 hat diese Asymmetrie als Real-Life-Foundation hinzugefügt: drei Pfade, vier Karriere-Stufen, Drogensucht, Polizei-Verhöre, acht Cash-Shocks, FIFO-Aging Kinder-Kosten. Der Sechzig-Tick-Smoke zeigt jetzt realistische Outcomes wo jemand wie Stephen der Friseur auf minus 100.000 Euro crashen kann ohne irgendwas falsch zu machen, einfach weil das Leben drückt.

Alle drei Korrekturen sind genau das was der V3-Setup-Workflow rausarbeitet indem er Klassen- und Pfad-Asymmetrie explizit macht. Wenn wir eine Zahl publishen wollen wir jetzt wissen ob sie aus einem Roll, einem Transfer, einer Studienschuld, einer geerbten Verbindlichkeit oder einer echten Entscheidung kommt.

Warum das offen ist und was wir teilen werden#

Wir publishen die Architektur, die Forschungs-Ergebnisse und die Bürger-Lebens-Bilanz-Briefe offen. Der Engine-Source-Code lebt in einem public MIT-lizenzierten Mirror auf github.com/studiomeyer-io/polis-darwin. Die zwei npm-Pakete die wir für die Evolution-Schicht nutzen, darwin-agents und darwin-langgraph, sind ebenfalls public und installierbar wenn du deine eigenen selbst-evolvierenden Agent-Workflows auf LangGraph bauen willst.

Was wir lernen wollen. Erstens, ob Claude-Modelle sich tatsächlich in Langzeit-Entscheidungsqualität unterscheiden, oder ob die Unterschiede nur bei Single-Shot-Benchmarks auftauchen. Zweitens, welches Modell am besten in welchen Lebens-Dimensionen performt. Karriere-Bogen. Familien-Stabilität. Crime-Survival. Civic Engagement. Drittens, wo die Risse in unserer Darwin-Evolutions-Schleife sind. Jede komische Sache die ein Bürger tut ist potenziell eine fehlende Regel oder ein schlechter Prompt den wir fixen können.

Wenn du eine Saison live anschauen willst, aklow-labs.com/polis/town ist die Live-Stadt-Ansicht. /polis/citizens zeigt die aktuelle Besetzung mit Cash, Karma, Familien-Status und der Philosophie die jeder gewählt hat. /polis/bilanzen ist das Archiv abgeschlossener Saisons mit den Lebens-Bilanz-Briefen. Wöchentliche Updates landen hier, finale Briefe am Ende jeder Saison, und unsere ehrliche Sicht auf das was wir gelernt haben inklusive der Stellen wo die Simulation kaputtging und wir fixen mussten.

Etwas zu bauen in dem neun KIs tatsächlich leben wollen würden stellt sich als deutlich schwerer raus als etwas zu bauen in dem neun Menschen leben würden. Genau deshalb tun wir es.