De robots.txt a agents.json: La evolución del descubrimiento de sitios web

Matthias Meyer

Cada era de la web ha producido un nuevo archivo que explica a las maquinas lo que se puede encontrar en un sitio web. En 1994 fue robots.txt. En 2005 llego sitemap.xml. En 2011, schema.org trajo datos estructurados. Y ahora, en 2025, agents.json llama a la puerta.

Esto no es una coincidencia. Es un patron. Y quien lo entiende ve con mas claridad hacia donde se dirige la web.

1994: robots.txt -- "Por favor, no vayas ahi"

En junio de 1994, Martijn Koster publico el Robots Exclusion Protocol Standard. El problema era simple: los rastreadores web visitaban paginas que no debian ser visitadas -- paneles de administracion, archivos temporales, directorios privados.

La solucion fue un archivo de texto en el directorio raiz de un sitio web:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /

Que hace robots.txt

Disallow: Dice a los rastreadores que rutas no deben visitar
Allow: Define excepciones dentro de areas prohibidas
User-agent: Diferencia entre distintos bots (Googlebot, Bingbot, etc.)

Que no hace robots.txt

robots.txt es una peticion educada, no un mecanismo de seguridad. No hay proteccion tecnica -- cualquier bot puede ignorar las instrucciones. Los motores de busqueda serios las respetan, los scrapers y bots de spam no.

Aun asi: hoy practicamente todos los sitios web tienen un robots.txt. Lo que comenzo como una convencion informal en 1994 se ha convertido en un estandar de facto. Sin RFC, sin estandar W3C -- simplemente un archivo de texto que se impuso.

La perspectiva

robots.txt responde a una unica pregunta: "Que NO debe hacer una maquina?" Es una lista negativa. No dice nada sobre lo que hay en un sitio web -- solo lo que no se debe visitar.

2005: sitemap.xml -- "Aqui esta todo lo que tenemos"

Once anios despues, Google tenia un problema diferente: Como encuentra un rastreador eficientemente todas las paginas relevantes de un sitio web? Especialmente en sitios grandes con miles de subpaginas, el rastreo era lento e incompleto.

Google propuso sitemap.xml, Bing y Yahoo lo apoyaron, y en 2006 se publico como el protocolo sitemaps.org.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-02-01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/services</loc>
    <lastmod>2026-01-15</lastmod>
    <priority>0.8</priority>
  </url>
</urlset>

El cambio de paradigma

Donde robots.txt decia "no vayas aqui", sitemap.xml dice "aqui esta todo lo que importa." Es el cambio de una lista negativa a una lista positiva.

URLs: Cada pagina indexable se lista
Frescura: lastmod le dice al rastreador cuando cambio una pagina por ultima vez
Prioridad: El webmaster puede senalar cuales paginas son mas importantes
Referencia en robots.txt: Sitemap: https://example.com/sitemap.xml

Que no hace sitemap.xml

Describe donde esta el contenido, pero no que es. Una URL como /services no le dice nada a un motor de busqueda sobre el contenido de la pagina. Para eso, el rastreador debe visitar la pagina y analizar el codigo HTML.

2011: schema.org -- "Esto es lo que significa el contenido"

En 2011, Google, Bing, Yahoo y Yandex fundaron conjuntamente schema.org. El objetivo: datos estructurados que digan a los motores de busqueda no solo donde esta el contenido, sino que significa.

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "LocalBusiness",
  "name": "Pizzeria Roma",
  "address": {
    "@type": "PostalAddress",
    "streetAddress": "Marienplatz 1",
    "addressLocality": "Munich"
  },
  "telephone": "+49 89 12345678",
  "openingHoursSpecification": {
    "@type": "OpeningHoursSpecification",
    "dayOfWeek": ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"],
    "opens": "11:00",
    "closes": "22:00"
  }
}
</script>

Que trajo schema.org

Semantica: No solo "aqui hay texto", sino "esto es una direccion", "esto es un precio", "estos son horarios de apertura"
Rich Snippets: Google muestra valoraciones, precios, horarios directamente en los resultados de busqueda
Knowledge Graph: Los datos estructurados alimentan la base de conocimiento de Google
Tipos estandarizados: Mas de 800 esquemas definidos para personas, organizaciones, eventos, productos, recetas y mas

El avance sobre sitemap.xml

sitemap.xml decia: "Estas URLs existen." schema.org dice: "En esta URL hay un restaurante con estos horarios y esta carta."

El rastreador ya no necesita interpretar la pagina. El significado esta explicitamente codificado.

Que no hace schema.org

schema.org describe contenido, pero no ofrece interaccion. Un motor de busqueda puede leer que un restaurante esta abierto de martes a sabado -- pero no puede reservar una mesa. Los datos son de solo lectura.

2025: agents.json -- "Esto es lo que puedes hacer aqui"

Y aqui se cierra el circulo. agents.json es el siguiente paso logico en esta evolucion:

Archivo	Anio	Pregunta que responde
robots.txt	1994	Que NO debe hacer una maquina?
sitemap.xml	2005	DONDE esta el contenido?
schema.org	2011	QUE significa el contenido?
agents.json	2025	Que PUEDE HACER una maquina aqui?

agents.json se ubica en /.well-known/agents.json y describe los servicios de un sitio web como herramientas legibles por maquinas:

{
  "version": "1.0",
  "tools": [
    {
      "name": "make_reservation",
      "description": "Reservar una mesa en el restaurante",
      "endpoint": "/api/v1/reservation",
      "method": "POST",
      "parameters": {
        "date": { "type": "string", "required": true, "description": "Fecha (YYYY-MM-DD)" },
        "time": { "type": "string", "required": true, "description": "Hora (HH:MM)" },
        "guests": { "type": "number", "required": true, "description": "Numero de invitados" },
        "name": { "type": "string", "required": true, "description": "Nombre para la reserva" }
      }
    },
    {
      "name": "get_menu",
      "description": "Obtener la carta actual",
      "endpoint": "/api/v1/menu",
      "method": "GET"
    }
  ]
}

Que hace diferente agents.json

Interaccion: No solo "lee estos datos", sino "llama a este endpoint y obtendras un resultado"
Descripcion de parametros: Un agente de IA sabe exactamente que datos debe enviar
Metodos: GET para leer, POST para acciones -- claramente definidos
Endpoints: URL directa al servicio, sin necesidad de parsear HTML

La diferencia decisiva

Todos los archivos de discovery anteriores eran pasivos: describian contenido que podia ser leido. agents.json es activo: describe acciones que pueden ser ejecutadas.

robots.txt decia: "Por favor, no vayas ahi." sitemap.xml decia: "Aqui estan nuestras paginas." schema.org decia: "Este es un restaurante con estos horarios." agents.json dice: "Puedes reservar una mesa aqui. Asi se hace."

El estado honesto: Donde estamos realmente?

Que es agents.json hoy

agents.json es una propuesta comunitaria, no un estandar oficial. Fue desarrollado por la comunidad (Wildcard AI / nicepkg) y no es un estandar W3C o IETF. A febrero de 2026, no hay ningun motor de busqueda ni ningun agente de IA importante que lea y use activamente agents.json.

El paralelo con robots.txt

Esto no es tan dramatico como suena. robots.txt tampoco era un estandar oficial. Era una convencion informal entre webmasters que se establecio a lo largo de los anios. Solo en 2022 -- 28 anios despues de su introduccion -- se formalizo robots.txt como RFC 9309.

sitemap.xml siguio un camino similar: primero propuesto por Google, luego adoptado por otros motores de busqueda, hoy un requisito de facto para SEO.

Que necesita agents.json para imponerse

Un actor importante: Si ChatGPT, Gemini o Claude empiezan a leer activamente agents.json, se convertira rapidamente en estandar
Un beneficio claro: Los sitios web con agents.json deben funcionar mejor para agentes de IA que los sitios sin el
Implementacion sencilla: Un archivo JSON es mas simple que el markup de schema.org -- eso es una ventaja
Herramientas: Deben surgir generadores, validadores, herramientas de debugging

Por que importa el patron

Independientemente de si exactamente agents.json se convierte en el estandar o una alternativa prevalece -- el patron es claro:

1994: Las maquinas leen la web (robots.txt: "No aqui")
2005: Las maquinas indexan la web (sitemap.xml: "Aqui estamos")
2011: Las maquinas entienden la web (schema.org: "Esto es lo que significa")
202x: Las maquinas usan la web (agents.json: "Esto es lo que puedes hacer")

Cada paso no reemplazo a los anteriores, sino que los complemento. Hoy todavia tenemos robots.txt y sitemap.xml y schema.org. agents.json (o su sucesor) se unira a ellos.

Una mirada a tu propio sitio web

La pregunta no es "Necesito agents.json?" -- la pregunta es: "Tengo servicios que deberian ser legibles por maquinas?"

Donde agents.json tiene sentido

Restaurantes: Ver carta, reservar mesa
Medicos/bufetes: Verificar disponibilidad, reservar cita
Artesanos: Mostrar servicios, solicitar presupuesto
E-commerce: Buscar productos, verificar disponibilidad
Proveedores de servicios: Listar servicios, reservar consulta

Donde agents.json (aun) no tiene sentido

Sitios web de solo contenido: Un blog no necesita agents.json. Schema.org y sitemap.xml son suficientes
Herramientas internas: Sin servicios publicos, sin necesidad
Sitios web sin API: Si no hay endpoints legibles por maquinas, no hay nada que describir

La analogia para cerrar

En 1994, uno podria haber preguntado: "Realmente necesito un robots.txt? Mi sitio web solo tiene 5 paginas." Hoy lo tiene cada sitio web.

En 2005, uno podria haber preguntado: "Realmente necesito un sitemap.xml? Google encuentra mis paginas de todos modos." Hoy es un estandar SEO.

En 2011, uno podria haber preguntado: "Realmente necesito schema.org? Mi contenido es legible tal como esta." Hoy determina si obtienes Rich Snippets.

En 2025, uno puede preguntar: "Realmente necesito un agents.json?" Quizas aun no. Pero el patron sugiere que la respuesta sera diferente en unos anios.

Resumen: 30 anios de evolucion del discovery

Anio	Archivo	Pregunta	Formato	Estado hoy
1994	robots.txt	Que NO?	Texto plano	RFC 9309 (2022), universal
2005	sitemap.xml	DONDE?	XML	Estandar SEO, universal
2011	schema.org	QUE?	JSON-LD	Factor SEO, ampliamente extendido
2025	agents.json	Que se PUEDE HACER?	JSON	Propuesta comunitaria, temprano

La direccion es clara: de prohibiciones a listados, de significado a interaccion. Si agents.json es el nombre final o se impone un formato diferente es menos importante que el concepto subyacente: los sitios web no solo deben mostrar a los agentes de IA lo que tienen, sino explicar lo que se puede hacer con ello.

La web siempre ha estado en su mejor momento cuando ha dado la bienvenida a nuevos participantes. Primero humanos con HTML. Luego motores de busqueda con robots.txt y sitemap.xml. Luego sistemas de conocimiento con schema.org. Y ahora agentes de IA con agents.json.

El proximo archivo de discovery llegara. La unica pregunta es si tu sitio web esta preparado.