Le 25 juillet, Google cloud a lancé une nouvelle région avec toutes sortes de fanfares sur la façon dont la nouvelle installation – australie-sud-est2 à Melbourne – accélérerait la transformation numérique du pays et ferait du monde un endroit meilleur de multiples façons.
Et le 24 août, la région a sombré assez durement. En fin d’après-midi, heure locale, les utilisateurs de la région ont perdu la possibilité de créer de nouvelles VM dans Google Cloud Engine. Les équilibreurs de charge sont devenus indisponibles, tout comme le stockage dans le cloud. Au total, 13 services ont rencontré des problèmes.
Les choses se sont améliorées environ une heure plus tard, avec la reprise de certains services, mais le nombre de services impactés est passé à 17.
Cette liste a augmenté d’un au moment où tous les services ont été restaurés, et l’analyse finale de Google de l’incident a nommé 23 services impactés.
Cette une analyse a déclaré que même si l’impact sous-jacent de l’incident a duré 40 minutes, les services sont restés difficiles à utiliser pendant quelques heures après.
Selon Google, le cœur de l’incident était une défaillance de la « connectivité du trafic IP public » et son évaluation préliminaire de la cause était « une tension transitoire au niveau de l’alimentation de l’équipement réseau, provoquant le redémarrage de l’équipement ».
La « tension transitoire » est un phénomène qui voit des pics d’énergie énormes mais très courts, parfois à cause d’événements comme la foudre.
Les centres de données sont construits pour leur survivre… ou du moins ils sont censés l’être. Pourtant, moins d’un mois après l’ouverture de ses portes virtuelles, l’australie-sud-est2 en a succombé.
Google n’a pas précisé si l’équipement réseau qui a redémarré lui appartenait ou appartenait à un fournisseur. Quoi qu’il en soit, c’est une autre leçon que les nuages sont loin d’être infaillibles. ®