Saltar al contenido principal
StudioMeyer
De robots.txt a agents.json: La evolución del descubrimiento de sitios web
Volver al Blog
IA y Automatización 15 de febrero de 2026 10 min de lecturapor Matthias Meyer

De robots.txt a agents.json: La evolución del descubrimiento de sitios web

1994 trajo robots.txt, 2005 sitemap.xml, 2011 schema.org, ahora agents.json. Cada era trajo un archivo de descubrimiento. Historia y futuro.

Cada era de la web ha producido un nuevo archivo que explica a las maquinas lo que se puede encontrar en un sitio web. En 1994 fue robots.txt. En 2005 llego sitemap.xml. En 2011, schema.org trajo datos estructurados. Y ahora, en 2025, agents.json llama a la puerta.

Esto no es una coincidencia. Es un patron. Y quien lo entiende ve con mas claridad hacia donde se dirige la web.

1994: robots.txt -- "Por favor, no vayas ahi"

En junio de 1994, Martijn Koster publico el Robots Exclusion Protocol Standard. El problema era simple: los rastreadores web visitaban paginas que no debian ser visitadas -- paneles de administracion, archivos temporales, directorios privados.

La solucion fue un archivo de texto en el directorio raiz de un sitio web:

User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /

Que hace robots.txt

  • Disallow: Dice a los rastreadores que rutas no deben visitar
  • Allow: Define excepciones dentro de areas prohibidas
  • User-agent: Diferencia entre distintos bots (Googlebot, Bingbot, etc.)

Que no hace robots.txt

robots.txt es una peticion educada, no un mecanismo de seguridad. No hay proteccion tecnica -- cualquier bot puede ignorar las instrucciones. Los motores de busqueda serios las respetan, los scrapers y bots de spam no.

Aun asi: hoy practicamente todos los sitios web tienen un robots.txt. Lo que comenzo como una convencion informal en 1994 se ha convertido en un estandar de facto. Sin RFC, sin estandar W3C -- simplemente un archivo de texto que se impuso.

La perspectiva

robots.txt responde a una unica pregunta: "Que NO debe hacer una maquina?" Es una lista negativa. No dice nada sobre lo que hay en un sitio web -- solo lo que no se debe visitar.

2005: sitemap.xml -- "Aqui esta todo lo que tenemos"

Once anios despues, Google tenia un problema diferente: Como encuentra un rastreador eficientemente todas las paginas relevantes de un sitio web? Especialmente en sitios grandes con miles de subpaginas, el rastreo era lento e incompleto.

Google propuso sitemap.xml, Bing y Yahoo lo apoyaron, y en 2006 se publico como el protocolo sitemaps.org.

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-02-01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/services</loc>
    <lastmod>2026-01-15</lastmod>
    <priority>0.8</priority>
  </url>
</urlset>

El cambio de paradigma

Donde robots.txt decia "no vayas aqui", sitemap.xml dice "aqui esta todo lo que importa." Es el cambio de una lista negativa a una lista positiva.

  • URLs: Cada pagina indexable se lista
  • Frescura: lastmod le dice al rastreador cuando cambio una pagina por ultima vez
  • Prioridad: El webmaster puede senalar cuales paginas son mas importantes
  • Referencia en robots.txt: Sitemap: https://example.com/sitemap.xml

Que no hace sitemap.xml

Describe donde esta el contenido, pero no que es. Una URL como /services no le dice nada a un motor de busqueda sobre el contenido de la pagina. Para eso, el rastreador debe visitar la pagina y analizar el codigo HTML.

2011: schema.org -- "Esto es lo que significa el contenido"

En 2011, Google, Bing, Yahoo y Yandex fundaron conjuntamente schema.org. El objetivo: datos estructurados que digan a los motores de busqueda no solo donde esta el contenido, sino que significa.

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "LocalBusiness",
  "name": "Pizzeria Roma",
  "address": {
    "@type": "PostalAddress",
    "streetAddress": "Marienplatz 1",
    "addressLocality": "Munich"
  },
  "telephone": "+49 89 12345678",
  "openingHoursSpecification": {
    "@type": "OpeningHoursSpecification",
    "dayOfWeek": ["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"],
    "opens": "11:00",
    "closes": "22:00"
  }
}
</script>

Que trajo schema.org

  • Semantica: No solo "aqui hay texto", sino "esto es una direccion", "esto es un precio", "estos son horarios de apertura"
  • Rich Snippets: Google muestra valoraciones, precios, horarios directamente en los resultados de busqueda
  • Knowledge Graph: Los datos estructurados alimentan la base de conocimiento de Google
  • Tipos estandarizados: Mas de 800 esquemas definidos para personas, organizaciones, eventos, productos, recetas y mas

El avance sobre sitemap.xml

sitemap.xml decia: "Estas URLs existen." schema.org dice: "En esta URL hay un restaurante con estos horarios y esta carta."

El rastreador ya no necesita interpretar la pagina. El significado esta explicitamente codificado.

Que no hace schema.org

schema.org describe contenido, pero no ofrece interaccion. Un motor de busqueda puede leer que un restaurante esta abierto de martes a sabado -- pero no puede reservar una mesa. Los datos son de solo lectura.

2025: agents.json -- "Esto es lo que puedes hacer aqui"

Y aqui se cierra el circulo. agents.json es el siguiente paso logico en esta evolucion:

ArchivoAnioPregunta que responde
robots.txt1994Que NO debe hacer una maquina?
sitemap.xml2005DONDE esta el contenido?
schema.org2011QUE significa el contenido?
agents.json2025Que PUEDE HACER una maquina aqui?

agents.json se ubica en /.well-known/agents.json y describe los servicios de un sitio web como herramientas legibles por maquinas:

{
  "version": "1.0",
  "tools": [
    {
      "name": "make_reservation",
      "description": "Reservar una mesa en el restaurante",
      "endpoint": "/api/v1/reservation",
      "method": "POST",
      "parameters": {
        "date": { "type": "string", "required": true, "description": "Fecha (YYYY-MM-DD)" },
        "time": { "type": "string", "required": true, "description": "Hora (HH:MM)" },
        "guests": { "type": "number", "required": true, "description": "Numero de invitados" },
        "name": { "type": "string", "required": true, "description": "Nombre para la reserva" }
      }
    },
    {
      "name": "get_menu",
      "description": "Obtener la carta actual",
      "endpoint": "/api/v1/menu",
      "method": "GET"
    }
  ]
}

Que hace diferente agents.json

  • Interaccion: No solo "lee estos datos", sino "llama a este endpoint y obtendras un resultado"
  • Descripcion de parametros: Un agente de IA sabe exactamente que datos debe enviar
  • Metodos: GET para leer, POST para acciones -- claramente definidos
  • Endpoints: URL directa al servicio, sin necesidad de parsear HTML

La diferencia decisiva

Todos los archivos de discovery anteriores eran pasivos: describian contenido que podia ser leido. agents.json es activo: describe acciones que pueden ser ejecutadas.

robots.txt decia: "Por favor, no vayas ahi." sitemap.xml decia: "Aqui estan nuestras paginas." schema.org decia: "Este es un restaurante con estos horarios." agents.json dice: "Puedes reservar una mesa aqui. Asi se hace."

El estado honesto: Donde estamos realmente?

Que es agents.json hoy

agents.json es una propuesta comunitaria, no un estandar oficial. Fue desarrollado por la comunidad (Wildcard AI / nicepkg) y no es un estandar W3C o IETF. A febrero de 2026, no hay ningun motor de busqueda ni ningun agente de IA importante que lea y use activamente agents.json.

El paralelo con robots.txt

Esto no es tan dramatico como suena. robots.txt tampoco era un estandar oficial. Era una convencion informal entre webmasters que se establecio a lo largo de los anios. Solo en 2022 -- 28 anios despues de su introduccion -- se formalizo robots.txt como RFC 9309.

sitemap.xml siguio un camino similar: primero propuesto por Google, luego adoptado por otros motores de busqueda, hoy un requisito de facto para SEO.

Que necesita agents.json para imponerse

  1. Un actor importante: Si ChatGPT, Gemini o Claude empiezan a leer activamente agents.json, se convertira rapidamente en estandar
  2. Un beneficio claro: Los sitios web con agents.json deben funcionar mejor para agentes de IA que los sitios sin el
  3. Implementacion sencilla: Un archivo JSON es mas simple que el markup de schema.org -- eso es una ventaja
  4. Herramientas: Deben surgir generadores, validadores, herramientas de debugging

Por que importa el patron

Independientemente de si exactamente agents.json se convierte en el estandar o una alternativa prevalece -- el patron es claro:

1994: Las maquinas leen la web (robots.txt: "No aqui")
2005: Las maquinas indexan la web (sitemap.xml: "Aqui estamos")
2011: Las maquinas entienden la web (schema.org: "Esto es lo que significa")
202x: Las maquinas usan la web (agents.json: "Esto es lo que puedes hacer")

Cada paso no reemplazo a los anteriores, sino que los complemento. Hoy todavia tenemos robots.txt y sitemap.xml y schema.org. agents.json (o su sucesor) se unira a ellos.

Una mirada a tu propio sitio web

La pregunta no es "Necesito agents.json?" -- la pregunta es: "Tengo servicios que deberian ser legibles por maquinas?"

Donde agents.json tiene sentido

  • Restaurantes: Ver carta, reservar mesa
  • Medicos/bufetes: Verificar disponibilidad, reservar cita
  • Artesanos: Mostrar servicios, solicitar presupuesto
  • E-commerce: Buscar productos, verificar disponibilidad
  • Proveedores de servicios: Listar servicios, reservar consulta

Donde agents.json (aun) no tiene sentido

  • Sitios web de solo contenido: Un blog no necesita agents.json. Schema.org y sitemap.xml son suficientes
  • Herramientas internas: Sin servicios publicos, sin necesidad
  • Sitios web sin API: Si no hay endpoints legibles por maquinas, no hay nada que describir

La analogia para cerrar

En 1994, uno podria haber preguntado: "Realmente necesito un robots.txt? Mi sitio web solo tiene 5 paginas." Hoy lo tiene cada sitio web.

En 2005, uno podria haber preguntado: "Realmente necesito un sitemap.xml? Google encuentra mis paginas de todos modos." Hoy es un estandar SEO.

En 2011, uno podria haber preguntado: "Realmente necesito schema.org? Mi contenido es legible tal como esta." Hoy determina si obtienes Rich Snippets.

En 2025, uno puede preguntar: "Realmente necesito un agents.json?" Quizas aun no. Pero el patron sugiere que la respuesta sera diferente en unos anios.

Resumen: 30 anios de evolucion del discovery

AnioArchivoPreguntaFormatoEstado hoy
1994robots.txtQue NO?Texto planoRFC 9309 (2022), universal
2005sitemap.xmlDONDE?XMLEstandar SEO, universal
2011schema.orgQUE?JSON-LDFactor SEO, ampliamente extendido
2025agents.jsonQue se PUEDE HACER?JSONPropuesta comunitaria, temprano

La direccion es clara: de prohibiciones a listados, de significado a interaccion. Si agents.json es el nombre final o se impone un formato diferente es menos importante que el concepto subyacente: los sitios web no solo deben mostrar a los agentes de IA lo que tienen, sino explicar lo que se puede hacer con ello.

La web siempre ha estado en su mejor momento cuando ha dado la bienvenida a nuevos participantes. Primero humanos con HTML. Luego motores de busqueda con robots.txt y sitemap.xml. Luego sistemas de conocimiento con schema.org. Y ahora agentes de IA con agents.json.

El proximo archivo de discovery llegara. La unica pregunta es si tu sitio web esta preparado.

Matthias Meyer

Matthias Meyer

Founder & AI Director

Founder & AI Director de StudioMeyer. Construye sitios web y sistemas de IA desde hace más de 10 años. Vive en Mallorca desde hace 15 años y dirige un estudio digital AI-First con su propia flota de agentes, más de 680 herramientas MCP y 5 productos SaaS para PYMES y agencias en DACH y España.

robots-txtagents-jsonsitemapschema-orgdiscoveryweb-history
De robots.txt a agents.json: La evolución del descubrimiento de sitios web