Google a commencé la semaine avec une grosse panne qui a détruit Gmail, Drive et toutes les autres applications Workspace. Comme promis, Google dispose désormais d’un explication détaillée sur la panne et les mesures à prendre pour éviter de futurs incidents.
À un niveau élevé, le problème est lié au travail existant de mise à jour du système d’authentification de compte de Google. Au fur et à mesure que l’effort se poursuivait, les composants précédents ont été «laissés en place». Bien que le maintien de ces aspects plus anciens entraînait une erreur d’utilisation à 0, Google a institué une période de grâce pour retarder l’impact.
Ce correctif a expiré et a conduit les systèmes automatisés à répondre à l’erreur comme si elle était réelle. Comme l’utilisation semblait être à 0, la capacité du système de gestion des identités a été réduite. Bien que des contrôles de sécurité soient en place, ils n’ont pas été conçus pour couvrir le problème spécifique.
Le problème a commencé à toucher les utilisateurs à 3 h 47 (heure du Pacifique) et les ingénieurs ont été alertés une minute plus tard. «Les applications de l’espace de travail étaient en panne pendant toute la durée de l’incident», car elles s’appuient sur l’infrastructure concernée pour s’assurer que vous êtes connecté, authentifié et autorisé à voir le contenu, comme les e-mails et les documents.
À 04h08, la cause première et un correctif potentiel ont été identifiés, ce qui a conduit à la désactivation de l’application des quotas dans un centre de données à 04h22. Cela a rapidement amélioré la situation et à 04h27, la même atténuation a été appliquée à tous les centres de données, ce qui a renvoyé les taux d’erreur à des niveaux normaux à 04h33.
L’entreprise a élaboré des plans pour examiner, améliorer et évaluer ses systèmes afin d’éviter des problèmes similaires de cette nature. Google a terminé son explication de panne par des excuses:
Nous tenons à nous excuser pour l’ampleur de l’impact que cet incident a eu sur nos clients et leurs entreprises. Nous prenons très au sérieux tout incident affectant la disponibilité et la fiabilité de nos clients, en particulier les incidents qui couvrent plusieurs régions.
L’explication technique complète est disponible ici.
FTC: Nous utilisons des liens d’affiliation automatique générant des revenus. Plus.
Consultez 9to5Google sur YouTube pour plus d’actualités: