Generar RPS brutos no basta; debes replicar think time, reintentos y cambios de ruta por errores percibidos. Shadowing de producción con anonimización ayuda a descubrir rutas olvidadas. Mide p95, p99 y colas por dependencia. Considera redes móviles inestables y TLS renegotiation. ¿Cómo calibras escenarios que incluyen campañas simultáneas, cupones y picos regionales, y qué criterios usas para declarar que tu plataforma resiste la montaña rusa sin romper la experiencia del comprador apresurado?
Inyectar fallas de manera segura revela puntos frágiles antes de que clientes los sufran. Derriba una partición, degrada el PSP, aumenta latencias DNS y observa si tu sistema se recupera con límites y alertas saludables. Define blast radius, ventanas y rollbacks garantizados. Documenta aprendizajes en cambios de arquitectura. ¿Qué experimentos de caos te enseñaron más y cómo conviertes esas lecciones en automatismos para que la próxima vez el sistema se defienda solo, sin heroísmos nocturnos?