La récente fuite de fragments de code du géant russe des moteurs de recherche Yandex a envoyé des ondes de choc dans la communauté SEO du monde entier. Comme le rapportent les agences de presse, près de 50 Go de données volées du quatrième moteur de recherche au monde ont été divulguées dans le domaine public. Selon les experts, la fuite de la société offrira des informations intéressantes sur le fonctionnement des moteurs de recherche et sur la manière dont le marché du référencement en sera affecté.
La fuite a eu lieu le 25 janvier. Plusieurs fichiers qui auraient été volés en juillet de l’année dernière dans le référentiel de l’entreprise à partir de février 2022 faisaient partie de la fuite de code. Incidemment, la création du dépôt coïncide avec le moment où la Russie a envahi l’Ukraine. Les fichiers de code source auraient été divulgués par un ancien employé mécontent du géant technologique russe.
Le bailleur a publié un lien magnétique prétendant qu’il s’agissait de « sources Yandex git ». Les référentiels de code contiendraient tous les principaux codes sources des services de Yandex. Suite au développement, la société a publié une déclaration disant : « Yandex n’a pas été piraté. Notre service de sécurité a trouvé des fragments de code d’un référentiel interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex. La société a également déclaré qu’elle menait une enquête interne sur les raisons de la fuite.
De quoi parle la fuite Yandex ?
Même si la société continue d’écarter la fuite de code qui s’est produite via Torrent, il peut y avoir beaucoup d’informations utiles sur la façon dont Yandex exploite son moteur de recherche. Le Torrent n’a fourni aucune donnée autre que le code source de tous les services Yandex. Cependant, plusieurs experts SEO se sont tournés vers Twitter pour partager leurs découvertes.
Sur son site Web, Arseniy Shestakov, co-fondateur de la société de développement de jeux Hack The Publisher, a publié la liste des principaux services Yandex dont les codes sources faisaient partie de la fuite. La liste comprend les moteurs de recherche et les robots d’indexation ; Cartes similaires à Google Cartes et Street View ; Alice – une assistante vocale comme Alexa ; Taxi – un service de type Uber ; Direct similaire à Google Ads ; service de courrier électronique – Courrier ; service de stockage de fichiers – Disque ; Travel, un service touristique similaire à Booking.com ; Yandex360 un service similaire à Google Workspace ; Pay – un service de traitement des paiements comme Stripe ; Metrika – un service similaire à Google Analytics. Les récentes fuites de code comprendraient tous ces services.
Sur la base de la documentation disponible dans le domaine public, la base de code de Yandex a été combinée en un seul grand référentiel nommé Arcadia en 2013. La base de code divulguée est essentiellement une sous-section de tous les projets relevant d’Arcadia. Des composants liés aux moteurs de recherche tels que Kernel, Search, Robot, Library, etc., ont été trouvés parmi les fichiers divulgués.
Comment la fuite de Yandex peut-elle avoir un impact sur l’industrie du référencement
Depuis la fuite, l’industrie du référencement a donné des signaux mitigés, certains saluant la fuite et d’autres la qualifiant à peine de conséquence. Les fuites comportaient 1922 facteurs de classement de recherche qui, selon l’expert SEO, Alex Buraks, sont la partie la plus intéressante pour la communauté SEO.
Vous avez probablement entendu parler de Yandex, c’est le 4e plus grand moteur de recherche en termes de part de marché dans le monde. Hier, le code source propriétaire de Yandex a été divulgué.
La partie la plus intéressante pour la communauté SEO est : la liste de tous les 1922 facteurs de classement utilisés dans l’algorithme de recherche
[🧵THREAD] pic.twitter.com/6x82AAmbON
– Alex Buraks (@alex_buraks) 27 janvier 2023
Igor Rudnyk, un expert SEO de Ukraine, s’est rendu sur son compte Twitter pour répertorier ses principaux points à retenir pour les backlinks des fichiers divulgués par Yandex. Ses enseignements tirés de l’épisode incluent – l’accent mis sur la croissance des domaines de référence et des backlinks ; importance du nombre de liens depuis les pages principales ; importance du texte d’ancrage et de l’ordre exact des mots sur les URL ; un long texte sans liens est défavorable ; le trafic de Wikipédia est important ; les backlinks locaux sont la clé du SERP du pays, etc.
#5 Astuces sales
C’est drôle, que seulement 2 sites si importants qui ont des facteurs distincts)
Je suis sûr que le premier que vous prédiriez. C’est vrai, c’est wikipedia. Et le second est livejournal) pic.twitter.com/po5qKx9AaS
— Igor Rudnyk🇺🇦 (@IRudnyk) 29 janvier 2023
Yandex contre Google
Yandex et Google sont similaires en théorie, car ils suivent des algorithmes similaires. Selon Buraks, Yandex utilise PageRank de la même manière que Google et se compose de nombreux algorithmes de texte similaires. Yandex a été conçu comme un analogue de Google et les spécialistes du référencement en Russie ont déployé des techniques de référencement white hat similaires pour Yandex et Google. Bien qu’il existe de nombreuses différences techniques, l’approche et les principaux facteurs de classement semblent être similaires selon Buraks. Il semble y avoir une correspondance de 70 % entre les résultats de recherche sur Google et Yandex. En termes de part de marché, Yandex est plus proche de Yahoo et Bing.
Yandex a été fondé par Arkady Volozh, Arkady Borkovsky et Ilya Segalovich en 1997. En plus d’être un moteur de recherche, il propose plusieurs autres produits et services liés à Internet.
La dernière fuite d’une entreprise russe aussi importante que Google, Amazon ou Netflix intervient à un moment où la Russie fait face à une augmentation sans précédent des cyberattaques. Dans une récente enquête publiée par la société suédoise de services VPN Surfshark, la Russie s’est avérée être le pays avec le plus de cyber-violations au monde en 2022.