El día en que la nube se detuvo

Alejandra Torres Hick
13 jun
5 Min. de lectura

El 12 de junio de 2025 pasará a la historia como uno de esos días en que gran parte del internet titubeó simultáneamente. Lo que al principio parecía un fallo aislado en un proveedor de nube escaló rápidamente en efecto dominó, dejando fuera de línea a servicios ampliamente utilizados. A continuación, describimos cómo se desarrolló el incidente, con un tono propio de un blog de noticias tecnológicas, y al final cambiamos a una reflexión más cercana y comprometida para nuestros clientes.

Detección y primeros reportes

La mañana y mediodía del 12 de junio transcurrieron con normalidad hasta que, alrededor de las 11:30 a.m. PT (13:30 hora Ciudad de México), comenzaron a dispararse alertas en plataformas de monitoreo de usuarios, como Downdetector, reportando intermitencias y caídas en servicios dependientes de la nube. Al poco tiempo, se multiplicaron los tuits y publicaciones preguntando “¿por qué no funciona mi Spotify/Twitch/GitHub?”: era la señal de que el problema iba más allá de un simple incidente localizado.

Por la 1:46 p.m. ET (12 de junio, ~12:46 p.m. hora Ciudad de México), Google Cloud publicó su primer aviso oficial: un problema en su servicio de Identity and Access Management estaba provocando fallos en múltiples regiones y productos. En paralelo, Cloudflare comenzó a investigar errores de autenticación en su Workers KV, reconociendo más tarde una dependencia con un proveedor externo de almacenamiento que se había visto afectado.

Alcance y plataformas afectadas

El efecto fue amplio: muchos de los grandes servicios de la red—desde aplicaciones de streaming de música y vídeo hasta plataformas de desarrollo y herramientas colaborativas—sintieron el impacto. Se reportaron afectaciones en:

Google Home y Nest: dispositivos inteligentes que perdieron conectividad con sus servicios en la nube.
Spotify, Discord, Twitch, Snapchat: usuarios vieron errores de autenticación o imposibilidad de acceso.
Plataformas de desarrollo y hospedaje: GitHub, Replit, Character.AI, Shopify, entre otras, experimentaron lentitud o caídas.
Herramientas de análisis y bases de datos en la nube: BigQuery, Cloud SQL, Cloud Memorystore, etc., presentaron intermitencias reportadas en la consola de estado de Google Cloud.

Aunque algunos servicios solo presentaron degradación temporal, el pulso colectivo de la red se alteró: era como si un “resfriado” en la infraestructura se propagara por todo el cuerpo digital.

Declaraciones oficiales y diagnóstico de causas

Google Cloud: Atribuyó la falla al servicio de Identity and Access Management (IAM), que empezó a fallar en varias regiones. Inicialmente, los reportes no identificaban claramente la causa, pero pronto se señaló que un cambio o un fallo interno en la infraestructura de autenticación desató la ola de errores en servicios dependientes.
Cloudflare: Si bien inicialmente algunos pensaron que se trataba de un problema aislado de Cloudflare, luego se aclaró que su Workers KV sufrió interrupciones debido a un proveedor de almacenamiento externo que falló. Cloudflare subrayó que, aunque la raíz era ajena, la responsabilidad de elección de dependencias recaía en ellos mismos.

No hubo indicios de ataque coordinado; todo apuntó a errores operacionales y de arquitectura en la gestión de dependencias y en la complejidad intrínseca de sistemas distribuidos a gran escala.

Cronología de recuperación

11:30 a.m. PT (13:30 CDMX): comienzan los primeros reportes masivos en Downdetector.
11:46 a.m. PT (~12:46 p.m. CDMX): Google reconoce fallos en IAM.
1:16 p.m. PDT (~14:16 CDMX): Google informa avances en mitigaciones y recuperación en varias regiones, aunque algunos servicios seguían con degradación.
2:09 p.m. CST (~14:09 CDMX): actualización de Google Cloud indicando recuperación parcial y trabajo continuo para restaurar por completo.
Tarde del 12 de junio: la mayoría de servicios recuperados. Cloudflare informa que su Workers KV ya opera con normalidad tras 2 h 28 min de interrupción.
13 de junio de 2025 (mañana): los principales proveedores confirman restauración completa y se abren investigaciones post-mortem para evitar reincidencias.

Implicaciones y lecciones técnicas

Monocultivo en la nube: al igual que un campo con un solo cultivo es vulnerable a plagas, depender excesivamente de un único proveedor o de dependencias muy acopladas puede transformar un fallo local en crisis global.
Estrategias multi-cloud y redundancia: las empresas tecnológicas más robustas optan por arquitecturas que permitan redirecciones automáticas o degradaciones suaves, evitando “efecto dominó” cuando un componente falla.
Gestión de dependencias externas: reconocer que cada dependencia —incluso de terceros aparentemente confiables— es un punto de posible falla. Diseñar con capas de fallback y pruebas regulares de conmutación por error.
Transparencia y comunicación en crisis: durante la interrupción, tanto Google Cloud como Cloudflare mantuvieron paneles de estado y actualizaciones en tiempo real; esta transparencia es clave para la confianza de usuarios y clientes.
Pruebas de recuperación y planes de contingencia: más allá de contar con respaldos, es crucial ensayar escenarios de falla para validar que los procedimientos realmente funcionan bajo presión y en minutos críticos.

Desde el punto de vista de negocios, una interrupción así refuerza la necesidad de:

Revisar y actualizar constantemente los acuerdos de nivel de servicio (SLAs).
Invertir en equipos de resiliencia de infraestructura y monitoreo proactivo.
Desarrollar manuales y simulacros de crisis para preparar a los equipos de soporte y desarrollo.

Reflexión y compromiso con nuestros clientes

Aunque este incidente fue provocado principalmente por proveedores externos y arquitecturas de nube masiva, en Advanta asumimos que cualquier interrupción, directa o indirecta, puede repercutir en nuestros clientes. Por eso:

Reconocemos el impacto: lamentamos cualquier inconveniente que nuestros clientes pudieron haber experimentado debido a inestabilidades en servicios externos que dan soporte a nuestras soluciones.
Refuerzo de nuestra infraestructura: aunque no controlamos directamente la nube de los grandes proveedores, reforzamos nuestras capas de redundancia y monitoreo interno, revisamos dependencias críticas y ajustamos nuestros flujos de trabajo para mitigar tiempos de inactividad.
Comunicación abierta: mantenemos canales activos para informar con prontitud sobre cualquier anomalía y guiar a nuestros clientes en acciones temporales o alternas cuando sea posible.
Aprendizaje continuo: cada incidente nos enseña algo valioso; documentamos aprendizajes y ajustamos procesos para elevar la robustez de nuestros servicios.

Esta caída global es un recordatorio de que, pese a lo conectados que estamos, la fragilidad existe. Así como en la vida no confiamos únicamente en un camino para llegar a un destino, en tecnología debemos cultivar rutas alternas y estar preparados para desvíos inesperados.

A nuestros clientes, les decimos: su confianza nos impulsa. Aprendemos de los errores ajenos y propios, invertimos en resiliencia y los acompañamos con soluciones que busquen no solo crecer hoy, sino resistir y adaptarse mañana. Porque en Advanta, entendemos que la verdadera fortaleza no está en nunca caer, sino en cómo nos levantamos y mejoramos cada vez que ocurre un tropiezo.

Fuentes: The Verge, TechCrunch, Downdetector y los tableros oficiales de estado de Google Cloud y Cloudflare.