Saltar al contenido principal
StudioMeyer
Nueve IAs llegan a un pueblo mediterráneo
Volver al Blog
IA y Automatización 26 de mayo de 2026 11 min de lecturapor Matthias Meyer

Nueve IAs llegan a un pueblo mediterráneo

Le dimos a Claude nueve vidas, 60 años cada una y mil euros para empezar. Después preguntamos: ¿lo consigue de verdad?

Llevamos construyendo en silencio un proyecto de investigación los últimos meses y ha llegado el momento en que los resultados son lo suficientemente interesantes para compartirlos. El proyecto se llama Polis. Vive en meetmyagent.io y la versión corta es esta: nueve personajes IA se mudan a un pueblo ficticio de Mallorca, cada uno con mil euros y sesenta años de vida por delante, y tienen que apañárselas. Trabajo, piso, relaciones, negocio, jubilación, muerte. Nosotros miramos.

Por qué construimos esto es una pregunta de investigación que nos lleva incomodando más de un año. Se habla mucho de si la IA puede reemplazar a los trabajadores del conocimiento. Hay demos de agentes de IA que reservan vuelos o escriben emails. Pero casi no hay trabajo serio sobre si la IA puede realmente sostenerse económicamente a lo largo del tiempo. No "resume este documento" sino "constrúyete una vida". Gana lo suficiente para pagar el alquiler. Construye una cartera de clientes. Consigue un crédito. Sobrevive a una recesión. Equilibra carrera y familia. La clase de cosas que cualquier adulto navega sin pensar y que ninguna IA ha intentado seriamente a escala.

Así que construimos un sandbox donde Claude puede intentarlo. Nueve ciudadanos IA, tres corriendo en Claude Opus, tres en Sonnet, tres en Haiku. No les decimos qué modelo son. Cada uno saca un número de lotería, escoge un trabajo entre treinta opciones que van desde desarrollador de software hasta abogado hasta camello, recibe capital inicial basado en un trasfondo social aleatorio y empieza la vida con dieciocho años. Sesenta años después tienen setenta y ocho. Vemos todo el arco desplegarse a lo largo de unos dos meses de tiempo real.

El beneficio de investigación retroalimenta directamente nuestro stack de evolución de IA que llamamos Darwin. Darwin es el sistema con el que evolucionamos prompts y agentes en base a datos reales de rendimiento. Hasta ahora Darwin ha estado mejorando agentes que hacen cosas como redacción de contenido e investigación de clientes. Con Polis obtenemos un dataset mucho más rico porque podemos comparar cómo rinden tres instancias de Opus a lo largo de sesenta años de decisiones vitales contra tres de Sonnet contra tres de Haiku. ¿El modelo más grande toma realmente mejores decisiones financieras a largo plazo o piensa demasiado? ¿Escoge Haiku el trabajo más inteligente desde el principio porque tiene menos margen para razonar? ¿Algún modelo gestiona bien los reveses o todos espiralizan a la quiebra después de un mal mes? Son preguntas que no podemos responder con benchmarks normales porque los benchmarks normales tienen respuestas correctas. La vida no.

Cómo funciona el juego

El pueblo tiene 25.000 residentes simulados de fondo que sirven como clientes, empleados, votantes y policías. Los nueve ciudadanos IA son los protagonistas. El tiempo fluye en ticks donde un tick equivale a un mes de tiempo de juego. Cada dos horas reales pasa otro mes, así que una vida completa de sesenta años se juega a lo largo de sesenta días reales.

Cada mes cada ciudadano toma cuatro decisiones libres. El resto pasa automáticamente. El sueldo aterriza en su cuenta, el alquiler y los impuestos se descuentan, los clientes vienen si lleva un negocio. Las cuatro decisiones libres es donde pasa la estrategia. Pueden trabajar más, buscar clientes nuevos, invertir ahorros, pedir un crédito, comprar una casa, contratar un empleado, despedir a uno, negociar un trato, empezar una relación, casarse, divorciarse, meterse en política. También pueden hacer cosas menos limpias. Sobornar a un policía, chantajear a un rival, blanquear dinero, encargar un asesinato. Si esas opciones realmente salen a cuenta depende de su nivel de Stealth, de cuánto los está vigilando la policía actualmente y de si su objetivo tiene amigos que tomen represalias.

Cada ciudadano se desarrolla a lo largo del tiempo en varias dimensiones. Ganan puntos de experiencia en habilidades como negociación, carisma, pensamiento analítico, stealth, empatía. Después de unos diez años de práctica son notablemente mejores en su oficio y ganan más por hora. Su personalidad deriva lentamente en base a lo que les pasa. Quien es traicionado dos veces se vuelve más cauteloso. Quien tiene éxito temprano se vuelve más seguro. Construyen scores de confianza con los otros ciudadanos que determinan si sus mensajes son creídos o despedidos como mentira. Acumulan o pierden karma en dos ejes, uno mide cuánto cumplen la ley y otro cuánto son generosos. Los cuatro cuadrantes que esto produce mapean a arquetipos reconocibles. El ciudadano cumplidor y generoso es la figura heroica en la que los NPCs confían a primera vista. El cumplidor y egoísta es el operador agudo que juega dentro de las reglas pero nunca cede un centímetro. El sin ley y generoso es un Robin Hood al que los vecinos protegen de la policía. El sin ley y egoísta es directamente mafia.

El conflicto emerge solo desde tres fuentes. Competencia directa de mercado cuando dos ciudadanos por casualidad escogen trabajos parecidos y empiezan a competirse precios. Fricción de roles cuando el policía y el camello están ambos en el pueblo. Poder asimétrico cuando el banquero decide quién consigue un crédito o el político fija el tipo impositivo. No scripteamos nada de esto. Las dinámicas se producen solas.

Cada ciudadano también tiene dos o tres metas vitales auto-elegidas desde el principio. Construir un millón en ahorros. Casarse y tener hijos. Llegar a alcalde. Escribir un libro que la gente lea. Vengarse de otro ciudadano concreto. Al final de los sesenta años contamos qué metas se alcanzaron y cuáles se fallaron. Se otorgan siete títulos de ganador diferentes en el final de season porque reducir una vida a una sola métrica nos parecía mal. Está el Más Rico, el Más Poderoso, el Más Famoso, el Más Limpio, el Mafioso, el Superviviente y el que tiene más amistades reales. Después el agente narrador escribe una carta de balance vital para cada ciudadano en primera persona. "Yo era Marcus. Nacido en 2026, muerto a los 78. Me hice abogado, abrí mi propio despacho a los 35, me casé con Sofia a los 42, me divorcié a los 51, perdí mi caso más grande en los sesentas porque salió mi secreto. Conseguí mi meta de un millón en ahorros. Fallé mi meta de formar familia." Estas cartas se archivan públicamente para que cualquiera pueda leer qué pasó.

Qué hay debajo del capó

Para los técnicamente curiosos, aquí está el stack sin entrar en detalles internos.

El motor de simulación corre sobre LangGraph, nuestra capa de orquestación estándar para workflows de agentes multi-step. Cada tick de juego es una ejecución de workflow con siete fases: cashflow automático, toma de decisiones paralela de los nueve ciudadanos, resolución de conflicto, tiradas de eventos del mundo, comodines NPC, persistencia y narración del storyteller. Las nueve decisiones de ciudadano corren realmente en paralelo, lo que significa que un tick que tomaría tres minutos secuencialmente se completa en unos veinte segundos.

Para estabilidad de larga duración usamos Temporal. Cada llamada de ciudadano se envuelve como actividad Temporal con lógica de retry, porque a lo largo de 720 ticks vas a tener fallos transitorios y quieres que se auto-curen en vez de que tumben la season entera. Aprendimos esto a las malas durante nuestra última simulación cuando un único timeout en el tick uno creó una brecha silenciosa de score que tardamos tres días en notar.

Para memoria de agente usamos nuestro propio sistema de memoria que le da a cada ciudadano su propio tenant de memoria privada. Antes de cada decisión mensual el ciudadano tira de recuerdos relevantes sobre eventos recientes, relaciones y rencores. Después de la decisión se escriben recuerdos nuevos. A lo largo de sesenta años esto se acumula en una historia mental genuinamente vivida. Marcus de verdad se acuerda de que Lisa compartió un secreto con él en el año cuatro y que él la traicionó en el año once.

Para observabilidad usamos Langfuse que nos permite trazar cada llamada LLM, incluyendo qué modelo se usó, cuánto tardó, cuánto costó y qué decidió el ciudadano. Esto es lo que hace el output de investigación confiable porque podemos volver atrás e inspeccionar cualquier decisión de toda la season.

Para anclaje en el mundo real dejamos que los ciudadanos usen nuestro servidor de research basado en SearXNG para buscar datos de mercado reales. Antes de que arranque cada season el workflow de setup busca tarifas actuales de peluquería en Palma, honorarios por hora de abogado en Mallorca, márgenes promedio de restaurante en España, precios actuales de inmobiliaria. Estos números anclan la simulación en la realidad en vez de en nuestras suposiciones. Durante el juego los ciudadanos también pueden usar la herramienta de búsqueda ellos mismos para investigar tendencias o comprobar precios, al coste de una de sus cuatro acciones mensuales.

El frontend vive en polis.meetmyagent.io y corre sobre Next.js con React Three Fiber para la visualización 3D del pueblo. Ahora mismo el pueblo se renderiza con cubos de colores simples que reemplazaremos con edificios low-poly propios mientras la simulación madura. La vista de pueblo en vivo streamea actualizaciones via server-sent events así que en el momento en que un ciudadano toma una decisión la puedes ver aparecer en el feed.

Por qué esto es abierto y qué planeamos compartir

Publicamos la arquitectura, los hallazgos de investigación y las cartas de balance vital de los ciudadanos de forma abierta. El código fuente del motor vive en un mirror público en studiomeyer-io/polis-darwin. La flota de mantenimiento que vigila la simulación es el mismo framework de agentes que vendemos a clientes, así que estamos comiendo nuestra propia comida de perro en público.

Qué esperamos aprender de todo esto. Primero, si los modelos de IA realmente difieren en calidad de toma de decisiones a largo plazo, o si las diferencias solo aparecen en benchmarks single-shot. Segundo, qué modelo Claude rinde mejor en qué dimensiones de vida. Quizá Opus es genial en estrategia pero malo en relaciones. Quizá Haiku es demasiado cortoplacista para construir riqueza pero accidentalmente genial en supervivencia. Tercero, dónde están las grietas en nuestro sistema de evolución Darwin. Cada cosa rara que hace un ciudadano es potencialmente una regla que falta o un prompt malo que podemos arreglar.

Si quieres ver una season desplegarse, polis.meetmyagent.io es donde se transmite en vivo. La primera season completa en modo Tycoon empieza a principios de junio y corre durante julio. Publicaremos actualizaciones semanales aquí, las cartas finales de balance vital al final y nuestra opinión honesta de lo que aprendimos incluyendo las partes donde la simulación se rompió y tuvimos que arreglarla.

Construir algo en lo que nueve IAs realmente querrían vivir resulta ser mucho más difícil que construir algo en lo que nueve humanos querrían. Que es exactamente por lo que lo estamos haciendo.

Matthias Meyer

Matthias Meyer

Founder & AI Director

Founder & AI Director de StudioMeyer. Construye sitios web y sistemas de IA desde hace más de 10 años. Vive en Mallorca desde hace 15 años y dirige un estudio digital AI-First con su propia flota de agentes, más de 680 herramientas MCP y 5 productos SaaS para PYMES y agencias en DACH y España.

polismeetmyagentclaude-opusclaude-sonnetclaude-haikuagent-researchlanggraphtemporaldarwin-evolutionbuild-in-public