El equipo de ingeniería de Azure (la nube de Microsoft) ha logrado mitigar un incidente en las máquinas virtuales de Windows y terceros. El evento (0NC_-L9G) se ha registrado este 13 de octubre de 2021, justamente cuando se registraba la interrupción en los servicios de OVH, uno de los principales proveedores de servicios de Internet (ISP) a escala global.
“Entre las 05:12 UTC y las 11:45 UTC del 13 de octubre de 2021, un subconjunto de clientes que utilizan máquinas virtuales de Windows pudieron recibir notificaciones de fallas al realizar operaciones de administración de servicios, como iniciar, crear, actualizar y eliminar”.
Esto habría provocado que algunas implementaciones de nuevas máquinas virtuales y cualquier actualización de extensiones hayan fallado, de acuerdo a lo anunciado de manera oficial.
Sin embargo, las máquinas virtuales de Windows y las que no, en ejecución existente, no deberían haberse visto afectadas por este problema. “Además, los servicios con dependencias en las máquinas virtuales de Windows también pueden haber experimentado fallas similares al crear recursos”.
Los equipos han identificado que las llamadas realizadas durante las operaciones de administración de servicios fallaban porque no se podían consultar los datos de una versión de artefacto requerida.
“Nuestra investigación se centró en el proveedor de recursos informáticos (CRP) de backend para determinar por qué fallaban las llamadas e identificó que un VMGuestAgent requerido no se podía consultar desde el repositorio”.
Se ha explicado que la arquitectura de publicación de VM Guest Agent Extension se ha migrado a una nueva plataforma que aprovecha las capacidades más recientes de Azure Resource Manager (ARM). Todo esto como parte de una migración de sistemas de backend de administración de servicios heredados.
Mitigación de errores en VM
Los ingenieros de Azure han mitigado el impacto al marcar las extensiones apropiadas al nivel esperado correcto (en este caso, público). Además, han verificado de manera proactiva el retorno a la tasa de éxito total de las operaciones después que se completaron las actualizaciones.
“Continuaremos investigando para establecer la causa raíz completa y evitar futuras ocurrencias”.
Lo equipos fueron observando una recuperación rápida a medida que avanzaba la mitigación del problema en todas las regiones.