Testing con Agentes en la vida real
En esta clase nos ponemos serios con algo muy loco: hacer tests E2E con un agente que usa una web como lo haría un humano.
La idea es sencilla: le damos una instrucción tipo “añade dos entradas al carrito y dime el subtotal” y el agente navega, hace clics, rellena, y al final extrae el dato. Todo con una sola frase… pero con un detalle importante: puede salir caro si no lo controlas.
Qué estamos probando exactamente
Queremos validar un flujo real (ejemplo: compra de entradas):
- El usuario entra en la web
- Añade 2 tickets al carrito
- El agente extrae el subtotal
- Devuelve un resultado resumido que podamos usar como aserción del test
En el vídeo se ve que el agente incluso devuelve una frase tipo “un usuario puede entrar y adquirir entradas por X€”, con el valor calculado a partir de la UI.
Dos enfoques: agent vs computer-use
Aquí aparece un punto clave:
- Un agente “normal” puede usar herramientas más directas.
- Con computer-use el agente se comporta como si estuviera delante del navegador: cada paso suele implicar screenshots para entender dónde clicar. Eso lo hace potente… y más costoso.
“Cada paso hace un screenshot… esto es mucho más caro que lo otro.”
Controlando el coste: límite de pasos
Si dejas al agente suelto, puede dar vueltas como un NPC sin misión. Por eso en el vídeo se menciona algo esencial:
- Define un número máximo de pasos
- Así evitas que el test se dispare en coste (y en tiempo)
Prompt del test: una sola frase, dos acciones
El test que se ejecuta en el vídeo, a alto nivel, es:
- Añadir dos entradas al carrito
- Extraer el subtotal y mostrarlo en el resultado
Ejemplo de prompt (pseudo):
Add two tickets to the cart and extract the subtotal. Show the result.
El agente realiza la navegación y devuelve el dato sin problemas.
Observación: screenshots, extract y seguridad
En el vídeo se ven pistas sobre herramientas y opciones como:
exclude screenshot extract- referencias a DOM / notas / extracción de data
- mención a integración con MCPs (aunque queda en duda cuánto deja extraer directamente)
Traducción práctica: puedes orientar al agente sobre qué puede y qué no puede extraer, y qué artefactos (screenshots) usar o ignorar.
Resultado del test: validación del flujo
Lo interesante es que el agente:
- Ejecuta el flujo
- Saca un subtotal (en el ejemplo aparece 287,98) y lo resume en una frase útil para afirmar el comportamiento
Esto convierte el agente en una especie de “tester” que entiende UI y contexto.
Lo que hemos aprendido
- Puedes hacer E2E con agentes describiendo el test en lenguaje natural.
computer-usefunciona a base de screenshots y es más caro, pero muy potente.- Hay que limitar pasos para controlar coste y evitar bucles.
- El agente puede extraer datos de la UI (como un subtotal) y devolverte un resultado listo para validar.