Harness engineering no va de ponerle otro prompt a Claude o Codex. Va de diseñar el entorno, las reglas, la memoria, las herramientas y los sensores que convierten un modelo potente en un agente útil.
Diseñar RAG para millones de documentos no va de enchufar un LLM a una base vectorial. Va de construir un sistema capaz de encontrar evidencia, medir su fiabilidad, citarla y negarse a responder cuando no puede probar lo que dice.
Entre GPT-5.5, ChatGPT Images 2.0 y DeepSeek-V4 era fácil perderse la release menos ruidosa: Sapiens 2, una familia de backbones de visión centrada en humanos que importa menos por el wow inmediato y más por lo que permite construir encima.
reverse-SynthID importa menos como hack viral que como recordatorio de los límites del watermarking invisible cuando el patrón se repite a escala industrial.
La parte interesante de una skill que genera animaciones con Manim no es el vídeo bonito. Es que convierte una herramienta potente pero incómoda en una interfaz mucho más accesible para preparar explicaciones técnicas, clases y presentaciones.
Lo interesante de Caveman no es que una IA hable como un cavernícola. Es que convierte la brevedad en una decisión operativa: menos tokens, menos latencia y, en algunos casos, incluso más precisión.
Los agentes ya producen código a una velocidad absurda. Eso no vuelve más seguro el software. Sólo hace más visible qué parte del trabajo sigue siendo escasa: entender el cambio, acotar el riesgo y responder por lo que llega a producción.
Cada vez que veo agentes “autónomos” sin acceso real a la web me queda más claro el problema: no les falta inteligencia, les falta contexto verificable. Y eso cambia bastante la conversación sobre qué hace útil a un agente de verdad.
La noticia del cierre de Sora me toca más de lo normal porque el vídeo generado por IA siempre me ha parecido una frontera especialmente ilusionante. Pero, visto como CTO, también me parece una decisión bastante lógica: el cómputo manda, el foco importa y OpenAI tiene que elegir muy bien dónde pone sus GPUs.
Cuando una tarea dura horas, deja de importar sólo qué modelo usas. Empiezan a importar la estructura, la evaluación, los handoffs, el criterio y cuánto arnés necesitas de verdad para que un agente no se descarrile.