Le géant de l'Internet Cloudflare rapporte que son service de résolution DNS, 1.1.1.1, était récemment inaccessible ou dégradé pour certains de ses clients en raison d'une combinaison de détournement du protocole Border Gateway Protocol (BGP) et d'une fuite de route.
L'incident s'est produit la semaine dernière et a touché 300 réseaux dans 70 pays. Malgré ces chiffres, l'entreprise affirme que l'impact a été « assez faible » et que dans certains pays, les utilisateurs ne l'ont même pas remarqué.
Détails de l'incident
Cloudflare indique qu'à 18h51 UTC le 27 juin, Eletronet SA (AS267613) a commencé à annoncer l'adresse IP 1.1.1.1/32 à ses pairs et fournisseurs en amont.
Cette annonce incorrecte a été acceptée par plusieurs réseaux, y compris un fournisseur de niveau 1, qui l'a traitée comme une route Blackhole déclenchée à distance (RTBH).
Le détournement s'est produit parce que le routage BGP favorise l'itinéraire le plus spécifique. L'annonce de la version 1.1.1.1/32 d'AS267613 était plus spécifique que celle de Cloudflare 1.1.1.0/24, ce qui a conduit les réseaux à acheminer de manière incorrecte le trafic vers AS267613.
Par conséquent, le trafic destiné au résolveur DNS 1.1.1.1 de Cloudflare a été bloqué/rejeté et, par conséquent, le service est devenu indisponible pour certains utilisateurs.
Une minute plus tard, à 18h52 UTC, Nova Rede de Telecomunicações Ltda (AS262504) a divulgué par erreur 1.1.1.0/24 en amont vers AS1031, ce qui l'a propagé plus loin, affectant le routage global.
Cette fuite a modifié les chemins de routage BGP normaux, provoquant un mauvais acheminement du trafic destiné à la version 1.1.1.1, aggravant le problème de piratage et provoquant des problèmes supplémentaires d'accessibilité et de latence.
Cloudflare a identifié les problèmes vers 20h00 UTC et a résolu le piratage environ deux heures plus tard. La fuite de route a été résolue à 02h28 UTC.
Effort de remédiation
La première ligne de réponse de Cloudflare a été d'interagir avec les réseaux impliqués dans l'incident tout en désactivant les sessions de peering avec tous les réseaux problématiques pour atténuer l'impact et empêcher toute propagation supplémentaire d'itinéraires incorrects.
La société explique que les annonces incorrectes n'ont pas affecté le routage du réseau interne en raison de l'adoption de l'infrastructure à clé publique des ressources (RPKI), ce qui a conduit au rejet automatique des routes non valides.
Les solutions à long terme présentées par Cloudflare dans son rapport d'autopsie incluent :
- Améliorez les systèmes de détection de fuites d'itinéraire en incorporant davantage de sources de données et en intégrant des points de données en temps réel.
- Promouvoir l’adoption de l’infrastructure à clés publiques des ressources (RPKI) pour la validation de l’origine des routes (ROV).
- Promouvoir l’adoption des principes des normes mutuellement convenues pour la sécurité du routage (MANRS), qui incluent le rejet des longueurs de préfixes non valides et la mise en œuvre de mécanismes de filtrage robustes.
- Encouragez les réseaux à rejeter les préfixes IPv4 plus longs que /24 dans la zone sans défaut (DFZ).
- Plaidoyer pour le déploiement d'objets ASPA (actuellement rédigés par l'IETF), qui sont utilisés pour valider le chemin AS dans les annonces BGP.
- Explorez le potentiel de mise en œuvre de la RFC9234 et de Discard Origin Authorization (DOA).