Cada era de la web ha producido un nuevo archivo que explica a las maquinas lo que se puede encontrar en un sitio web. En 1994 fue robots.txt. En 2005 llego sitemap.xml. En 2011, schema.org trajo datos estructurados. Y ahora, en 2025, agents.json llama a la puerta.
Esto no es una coincidencia. Es un patron. Y quien lo entiende ve con mas claridad hacia donde se dirige la web.
1994: robots.txt -- "Por favor, no vayas ahi"
En junio de 1994, Martijn Koster publico el Robots Exclusion Protocol Standard. El problema era simple: los rastreadores web visitaban paginas que no debian ser visitadas -- paneles de administracion, archivos temporales, directorios privados.
La solucion fue un archivo de texto en el directorio raiz de un sitio web:
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /
Que hace robots.txt
- Disallow: Dice a los rastreadores que rutas no deben visitar
- Allow: Define excepciones dentro de areas prohibidas
- User-agent: Diferencia entre distintos bots (Googlebot, Bingbot, etc.)
Que no hace robots.txt
robots.txt es una peticion educada, no un mecanismo de seguridad. No hay proteccion tecnica -- cualquier bot puede ignorar las instrucciones. Los motores de busqueda serios las respetan, los scrapers y bots de spam no.
Aun asi: hoy practicamente todos los sitios web tienen un robots.txt. Lo que comenzo como una convencion informal en 1994 se ha convertido en un estandar de facto. Sin RFC, sin estandar W3C -- simplemente un archivo de texto que se impuso.
La perspectiva
robots.txt responde a una unica pregunta: "Que NO debe hacer una maquina?" Es una lista negativa. No dice nada sobre lo que hay en un sitio web -- solo lo que no se debe visitar.
2005: sitemap.xml -- "Aqui esta todo lo que tenemos"
Once anios despues, Google tenia un problema diferente: Como encuentra un rastreador eficientemente todas las paginas relevantes de un sitio web? Especialmente en sitios grandes con miles de subpaginas, el rastreo era lento e incompleto.
Google propuso sitemap.xml, Bing y Yahoo lo apoyaron, y en 2006 se publico como el protocolo sitemaps.org.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.com/</loc>
<lastmod>2026-02-01</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://example.com/services</loc>
<lastmod>2026-01-15</lastmod>
<priority>0.8</priority>
</url>
</urlset>
El cambio de paradigma
Donde robots.txt decia "no vayas aqui", sitemap.xml dice "aqui esta todo lo que importa." Es el cambio de una lista negativa a una lista positiva.
- URLs: Cada pagina indexable se lista
- Frescura:
lastmodle dice al rastreador cuando cambio una pagina por ultima vez - Prioridad: El webmaster puede senalar cuales paginas son mas importantes
- Referencia en robots.txt:
Sitemap: https://example.com/sitemap.xml
Que no hace sitemap.xml
Describe donde esta el contenido, pero no que es. Una URL como /services no le dice nada a un motor de busqueda sobre el contenido de la pagina. Para eso, el rastreador debe visitar la pagina y analizar el codigo HTML.
2011: schema.org -- "Esto es lo que significa el contenido"
En 2011, Google, Bing, Yahoo y Yandex fundaron conjuntamente schema.org. El objetivo: datos estructurados que digan a los motores de busqueda no solo donde esta el contenido, sino que significa.
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "LocalBusiness",
"name": "Pizzeria Roma",
"address": {
"@type": "PostalAddress",
"streetAddress": "Marienplatz 1",
"addressLocality": "Munich"
},
"telephone": "+49 89 12345678",
"openingHoursSpecification": {
"@type": "OpeningHoursSpecification",
"dayOfWeek": ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"],
"opens": "11:00",
"closes": "22:00"
}
}
</script>
Que trajo schema.org
- Semantica: No solo "aqui hay texto", sino "esto es una direccion", "esto es un precio", "estos son horarios de apertura"
- Rich Snippets: Google muestra valoraciones, precios, horarios directamente en los resultados de busqueda
- Knowledge Graph: Los datos estructurados alimentan la base de conocimiento de Google
- Tipos estandarizados: Mas de 800 esquemas definidos para personas, organizaciones, eventos, productos, recetas y mas
El avance sobre sitemap.xml
sitemap.xml decia: "Estas URLs existen." schema.org dice: "En esta URL hay un restaurante con estos horarios y esta carta."
El rastreador ya no necesita interpretar la pagina. El significado esta explicitamente codificado.
Que no hace schema.org
schema.org describe contenido, pero no ofrece interaccion. Un motor de busqueda puede leer que un restaurante esta abierto de martes a sabado -- pero no puede reservar una mesa. Los datos son de solo lectura.
2025: agents.json -- "Esto es lo que puedes hacer aqui"
Y aqui se cierra el circulo. agents.json es el siguiente paso logico en esta evolucion:
| Archivo | Anio | Pregunta que responde |
|---|---|---|
| robots.txt | 1994 | Que NO debe hacer una maquina? |
| sitemap.xml | 2005 | DONDE esta el contenido? |
| schema.org | 2011 | QUE significa el contenido? |
| agents.json | 2025 | Que PUEDE HACER una maquina aqui? |
agents.json se ubica en /.well-known/agents.json y describe los servicios de un sitio web como herramientas legibles por maquinas:
{
"version": "1.0",
"tools": [
{
"name": "make_reservation",
"description": "Reservar una mesa en el restaurante",
"endpoint": "/api/v1/reservation",
"method": "POST",
"parameters": {
"date": { "type": "string", "required": true, "description": "Fecha (YYYY-MM-DD)" },
"time": { "type": "string", "required": true, "description": "Hora (HH:MM)" },
"guests": { "type": "number", "required": true, "description": "Numero de invitados" },
"name": { "type": "string", "required": true, "description": "Nombre para la reserva" }
}
},
{
"name": "get_menu",
"description": "Obtener la carta actual",
"endpoint": "/api/v1/menu",
"method": "GET"
}
]
}
Que hace diferente agents.json
- Interaccion: No solo "lee estos datos", sino "llama a este endpoint y obtendras un resultado"
- Descripcion de parametros: Un agente de IA sabe exactamente que datos debe enviar
- Metodos: GET para leer, POST para acciones -- claramente definidos
- Endpoints: URL directa al servicio, sin necesidad de parsear HTML
La diferencia decisiva
Todos los archivos de discovery anteriores eran pasivos: describian contenido que podia ser leido. agents.json es activo: describe acciones que pueden ser ejecutadas.
robots.txt decia: "Por favor, no vayas ahi." sitemap.xml decia: "Aqui estan nuestras paginas." schema.org decia: "Este es un restaurante con estos horarios." agents.json dice: "Puedes reservar una mesa aqui. Asi se hace."
El estado honesto: Donde estamos realmente?
Que es agents.json hoy
agents.json es una propuesta comunitaria, no un estandar oficial. Fue desarrollado por la comunidad (Wildcard AI / nicepkg) y no es un estandar W3C o IETF. A febrero de 2026, no hay ningun motor de busqueda ni ningun agente de IA importante que lea y use activamente agents.json.
El paralelo con robots.txt
Esto no es tan dramatico como suena. robots.txt tampoco era un estandar oficial. Era una convencion informal entre webmasters que se establecio a lo largo de los anios. Solo en 2022 -- 28 anios despues de su introduccion -- se formalizo robots.txt como RFC 9309.
sitemap.xml siguio un camino similar: primero propuesto por Google, luego adoptado por otros motores de busqueda, hoy un requisito de facto para SEO.
Que necesita agents.json para imponerse
- Un actor importante: Si ChatGPT, Gemini o Claude empiezan a leer activamente agents.json, se convertira rapidamente en estandar
- Un beneficio claro: Los sitios web con agents.json deben funcionar mejor para agentes de IA que los sitios sin el
- Implementacion sencilla: Un archivo JSON es mas simple que el markup de schema.org -- eso es una ventaja
- Herramientas: Deben surgir generadores, validadores, herramientas de debugging
Por que importa el patron
Independientemente de si exactamente agents.json se convierte en el estandar o una alternativa prevalece -- el patron es claro:
1994: Las maquinas leen la web (robots.txt: "No aqui")
2005: Las maquinas indexan la web (sitemap.xml: "Aqui estamos")
2011: Las maquinas entienden la web (schema.org: "Esto es lo que significa")
202x: Las maquinas usan la web (agents.json: "Esto es lo que puedes hacer")
Cada paso no reemplazo a los anteriores, sino que los complemento. Hoy todavia tenemos robots.txt y sitemap.xml y schema.org. agents.json (o su sucesor) se unira a ellos.
Una mirada a tu propio sitio web
La pregunta no es "Necesito agents.json?" -- la pregunta es: "Tengo servicios que deberian ser legibles por maquinas?"
Donde agents.json tiene sentido
- Restaurantes: Ver carta, reservar mesa
- Medicos/bufetes: Verificar disponibilidad, reservar cita
- Artesanos: Mostrar servicios, solicitar presupuesto
- E-commerce: Buscar productos, verificar disponibilidad
- Proveedores de servicios: Listar servicios, reservar consulta
Donde agents.json (aun) no tiene sentido
- Sitios web de solo contenido: Un blog no necesita agents.json. Schema.org y sitemap.xml son suficientes
- Herramientas internas: Sin servicios publicos, sin necesidad
- Sitios web sin API: Si no hay endpoints legibles por maquinas, no hay nada que describir
La analogia para cerrar
En 1994, uno podria haber preguntado: "Realmente necesito un robots.txt? Mi sitio web solo tiene 5 paginas." Hoy lo tiene cada sitio web.
En 2005, uno podria haber preguntado: "Realmente necesito un sitemap.xml? Google encuentra mis paginas de todos modos." Hoy es un estandar SEO.
En 2011, uno podria haber preguntado: "Realmente necesito schema.org? Mi contenido es legible tal como esta." Hoy determina si obtienes Rich Snippets.
En 2025, uno puede preguntar: "Realmente necesito un agents.json?" Quizas aun no. Pero el patron sugiere que la respuesta sera diferente en unos anios.
Resumen: 30 anios de evolucion del discovery
| Anio | Archivo | Pregunta | Formato | Estado hoy |
|---|---|---|---|---|
| 1994 | robots.txt | Que NO? | Texto plano | RFC 9309 (2022), universal |
| 2005 | sitemap.xml | DONDE? | XML | Estandar SEO, universal |
| 2011 | schema.org | QUE? | JSON-LD | Factor SEO, ampliamente extendido |
| 2025 | agents.json | Que se PUEDE HACER? | JSON | Propuesta comunitaria, temprano |
La direccion es clara: de prohibiciones a listados, de significado a interaccion. Si agents.json es el nombre final o se impone un formato diferente es menos importante que el concepto subyacente: los sitios web no solo deben mostrar a los agentes de IA lo que tienen, sino explicar lo que se puede hacer con ello.
La web siempre ha estado en su mejor momento cuando ha dado la bienvenida a nuevos participantes. Primero humanos con HTML. Luego motores de busqueda con robots.txt y sitemap.xml. Luego sistemas de conocimiento con schema.org. Y ahora agentes de IA con agents.json.
El proximo archivo de discovery llegara. La unica pregunta es si tu sitio web esta preparado.
