Testing con Agentes en la vida real

En esta clase nos ponemos serios con algo muy loco: hacer tests E2E con un agente que usa una web como lo haría un humano.

La idea es sencilla: le damos una instrucción tipo “añade dos entradas al carrito y dime el subtotal” y el agente navega, hace clics, rellena, y al final extrae el dato. Todo con una sola frase… pero con un detalle importante: puede salir caro si no lo controlas.

Qué estamos probando exactamente

Queremos validar un flujo real (ejemplo: compra de entradas):

  1. El usuario entra en la web
  2. Añade 2 tickets al carrito
  3. El agente extrae el subtotal
  4. Devuelve un resultado resumido que podamos usar como aserción del test

En el vídeo se ve que el agente incluso devuelve una frase tipo “un usuario puede entrar y adquirir entradas por X€”, con el valor calculado a partir de la UI.

Dos enfoques: agent vs computer-use

Aquí aparece un punto clave:

  • Un agente “normal” puede usar herramientas más directas.
  • Con computer-use el agente se comporta como si estuviera delante del navegador: cada paso suele implicar screenshots para entender dónde clicar. Eso lo hace potente… y más costoso.

“Cada paso hace un screenshot… esto es mucho más caro que lo otro.”

Controlando el coste: límite de pasos

Si dejas al agente suelto, puede dar vueltas como un NPC sin misión. Por eso en el vídeo se menciona algo esencial:

  • Define un número máximo de pasos
  • Así evitas que el test se dispare en coste (y en tiempo)

Prompt del test: una sola frase, dos acciones

El test que se ejecuta en el vídeo, a alto nivel, es:

  1. Añadir dos entradas al carrito
  2. Extraer el subtotal y mostrarlo en el resultado

Ejemplo de prompt (pseudo):

Add two tickets to the cart and extract the subtotal. Show the result.

El agente realiza la navegación y devuelve el dato sin problemas.

Observación: screenshots, extract y seguridad

En el vídeo se ven pistas sobre herramientas y opciones como:

  • exclude screenshot extract
  • referencias a DOM / notas / extracción de data
  • mención a integración con MCPs (aunque queda en duda cuánto deja extraer directamente)

Traducción práctica: puedes orientar al agente sobre qué puede y qué no puede extraer, y qué artefactos (screenshots) usar o ignorar.

Resultado del test: validación del flujo

Lo interesante es que el agente:

  • Ejecuta el flujo
  • Saca un subtotal (en el ejemplo aparece 287,98) y lo resume en una frase útil para afirmar el comportamiento

Esto convierte el agente en una especie de “tester” que entiende UI y contexto.

Lo que hemos aprendido

  • Puedes hacer E2E con agentes describiendo el test en lenguaje natural.
  • computer-use funciona a base de screenshots y es más caro, pero muy potente.
  • Hay que limitar pasos para controlar coste y evitar bucles.
  • El agente puede extraer datos de la UI (como un subtotal) y devolverte un resultado listo para validar.