logo
tonny.wtf
Published on

Cada vez me interesan menos los agentes que razonan mucho y miran poco

Authors

Cada vez que veo demos de agentes muy listas pero sin acceso real a la web, me pasa lo mismo: me parecen más ciegos de lo que sus creadores creen.

No porque el modelo sea malo.

Ni porque no sepan razonar.

Sino porque, sin capacidad real para leer una página pública, contrastar un dato o mirar una fuente viva, el agente sigue encerrado dentro de una burbuja bastante artificial.

Y eso importa más de lo que parece.

El problema no es la inteligencia. Es el contexto verificable.

Creo que una parte del discurso sobre agentes sigue demasiado obsesionada con el “cerebro” y demasiado poco con los sentidos.

Nos gusta hablar de planificación, tool use, memoria, reasoning, multi-step execution y todas esas capas que suenan muy bien en una slide.

Pero luego bajas al terreno y te encuentras con un problema mucho más simple: si el agente no puede consultar el mundo exterior de forma barata, directa y razonablemente fiable, se vuelve torpe enseguida.

No hace falta irse a casos rebuscados.

Basta con cosas bastante normales:

  • comprobar una documentación actualizada,
  • leer una página de producto,
  • revisar una FAQ,
  • comparar dos fuentes,
  • o verificar si algo que “recuerda” sigue siendo cierto.

En cuanto le quitas eso, lo que parecía autonomía se parece más a una simulación de autonomía.

Dar acceso a la web no es una feature bonita

Aquí creo que hay una confusión bastante habitual.

Se habla del acceso web como si fuera una comodidad extra. Algo accesorio. Casi un nice-to-have para demos más vistosas.

Yo lo veo justo al revés.

Para muchos agentes, la capacidad de leer el entorno público es una parte estructural del producto.

No porque “internet sea grande”, sino porque el valor del agente depende muchas veces de tres cosas muy concretas:

  1. tener contexto reciente,
  2. poder verificar,
  3. y reducir la distancia entre respuesta y realidad.

Sin eso, el agente responde. Pero responde desde dentro.

Y un agente que responde desde dentro demasiadas veces acaba pareciendo más convincente que útil.

Además, cambia la economía del sistema

Otra parte interesante aquí no es solo la capacidad técnica, sino el coste.

Cuando dar visión web a un agente implica infra cara, APIs externas para todo o una integración aparatosa, mucha gente acaba recortando justo esa parte. El resultado suele ser previsible: agentes “muy listos” sobre el papel, pero pobres en contexto cuando los sacas a trabajar.

Por eso me parece interesante cualquier aproximación que trate la lectura web como una pieza simple, ligera y controlable dentro del stack.

No porque vaya a resolver por sí sola toda la navegación de un agente.

No la va a resolver.

Pero sí porque baja mucho la fricción para una capacidad que debería ser bastante más estándar de lo que es hoy.

Y aquí hay una idea que me parece importante: muchas veces no necesitas un navegador entero ni una infraestructura espectacular. Necesitas algo bastante más humilde y, a la vez, bastante más útil: poder traer texto limpio de una URL y meterlo en el loop del agente de forma razonable.

Eso ya te desbloquea bastante.

El salto no está en “ver internet”. Está en dejar de inventárselo.

Para mí, el cambio de verdad no es que el agente “vea internet”.

El cambio es que deja de depender solo de lo que trae precargado o de lo que el usuario le pega manualmente en contexto.

Y eso tiene un efecto muy directo sobre la calidad del sistema:

  • menos respuesta apoyada en recuerdos dudosos,
  • menos alucinación elegante,
  • menos confianza injustificada,
  • y más capacidad de aterrizar una tarea en información comprobable.

Dicho de otra forma: no siempre hace falta un agente más brillante.

Muchas veces hace falta un agente menos ciego.

Mi lectura

Cada vez me interesa menos el agente que impresiona en abstracto y más el que puede operar con contexto vivo sin montar una catedral de infraestructura alrededor.

Porque al final, si quieres que un agente sea útil de verdad, no basta con que piense bien.

Tiene que poder mirar.

Tiene que poder contrastar.

Y tiene que hacerlo con suficiente sencillez como para que esa capacidad no se convierta en un lujo arquitectónico.

Por eso creo que una de las piezas más infravaloradas del stack de agentes sigue siendo esta: una forma barata, simple y controlable de leer la web pública y convertirla en contexto útil.

No suena tan sexy como hablar de razonamiento.

Pero, en producto, probablemente acerque bastante más a un agente útil que muchas capas “más inteligentes” que seguimos celebrando demasiado pronto.